实时数据质量异常排查思路
群友提问:离线小时看板数据和实时看板数据对不上该怎么排查。
首先定位问题中架构为HSAP OR LAMBDA。
指标口径
先看指标口径是否准确,保障实时和离线指标口径一致,以及线上版本,同时看代码版本改动记录如指标口径及数据源,如果都没问题则继续向下排查。
消费情况
看dwd清洗加工代码中是否有加filter处理,以及多表明细join情况是否有空,如果未做处理同时未有空值,则看 flink ui 查看dwd/ods数据消费情况,如数据反压则按照反压排查思路,如数据质量还是有问题(例如正常指标每日gmv在100w附近,今日变20w),则去回查mysql/kafka源头情况,同时保障数据来源一致。
重新拉取消费和离线比对
最后则是发布任务启动任务后,重置消费点位(例如今天9月19日),今天数据离线肯定是没有的,那我们就重拉9.17到现在的点位,1看明细条数和离线能否比对上,2看指标和离线比对如何(这里可以先把数据落OLAP 存一份),再将OLAP中数据GROUP BY 到小时,去看实时落库每小时指标数据,再写离线sql看离线每小时指标数据(例如离线 9.17日 13点 gmv10w,14点20w),如可以对齐或者差距在3%以内都可以正常发布。
#数据人offer决赛圈怎么选##数据人的面试交流地##数据分析##数据开发##大数据#