阿里云实时数仓
项目背景[Situation]:
项目架构:Flume+RDS+DTS+DataHub+阿里云实时计算服务+DataWorks+AnalyticDB+DataV
项目职责[Task]:
1.实时采集埋点日志数据; 2.实时采集业务数据库中数据; 3.对数据进行简单清洗和处理; 4.保存数据到分析型数据库; 5.统计每个地区销售金额和订单数,对结果进行可视化展示; 6.统计每个商品的订单数和订单金额,对结果进行可视化展示。
优化操作:防止由于数据量过大导致数据倾斜,在DataWorks中对数据源表进行处理时,可使用FlinkSQL中的mod函数,将数据打散。 注意:如果是维度表参与 join 操作,都要加上 FOR SYSTEM_TIME AS OF PROCTIME()