实时数仓:Doris设计分区与分桶的分享
投票
Doris设计分区与分桶的分享
分区
首先看下游使用者是否经常会查询增量时间字段 或者 是否表数据量巨大,以判断是否要做分区 Doris的分区可以是小时、按天、按星期、按月、按年进行分区
经验:如果一天超过了30W数据行或者超过了日增300MB数据,建议做分区考虑 , 再有一个情况是如果下游查询是可以带上一个业务增量时间的 那就可以用时间做分区
分桶
我自己的经验会按照2048MB=2GB (可以粗略以2048000=204w行计算,具体的有条件可以根据表详情存储去判断2GB=多少行) 给一个桶去分配,控制在128个桶内
例子:比如我有一个表,每天10w数据 大概100MB 一年就是 36500MB=36GB 我们可以按照三年的数据量来预估 36*3=108GB ,按照之前的思路 2GB给一个桶,我们这里如果不做分区的情况下 可以给108/2=54个桶,也进一下整数可以给成60个桶
#大厂# #数开# #数仓# #校招# #实习#
分区
首先看下游使用者是否经常会查询增量时间字段 或者 是否表数据量巨大,以判断是否要做分区 Doris的分区可以是小时、按天、按星期、按月、按年进行分区
经验:如果一天超过了30W数据行或者超过了日增300MB数据,建议做分区考虑 , 再有一个情况是如果下游查询是可以带上一个业务增量时间的 那就可以用时间做分区
分桶
我自己的经验会按照2048MB=2GB (可以粗略以2048000=204w行计算,具体的有条件可以根据表详情存储去判断2GB=多少行) 给一个桶去分配,控制在128个桶内
例子:比如我有一个表,每天10w数据 大概100MB 一年就是 36500MB=36GB 我们可以按照三年的数据量来预估 36*3=108GB ,按照之前的思路 2GB给一个桶,我们这里如果不做分区的情况下 可以给108/2=54个桶,也进一下整数可以给成60个桶
#大厂# #数开# #数仓# #校招# #实习#
全部评论
相关推荐
11-05 23:09
门头沟学院 大数据开发工程师 点赞 评论 收藏
分享