唯品会数据开发一面
- 场景题:上游订单数据有问题,时间也是错误的,你怎么从 ODS 中找到这张订单表的位置?(不会)
- 第一种思路:全表扫描
- 第二种思路:做一张表,对表id进行hash,表中存储该表id对应的分区
- DWS 层能不能没有(答:模型设计中我们一般要做到公共处理逻辑的下沉和单一,所以一般我们会把汇总逻辑放到DWS层,不把它暴露到APP层去实现,所以一般总会设计DWS层的)
- FlinkCDC MySQL 连接器的偏移量(没深入了解过)
- 实时数仓中 Redis 做旁路缓存你的 TTL 怎么设置的(答得 Maxwell 中数据 type = update 时,更新 Redis 中的缓存数据,驴唇不对马嘴,事实上好像设置的 1 天)
- Flume 到 HDFS 的过程,用的什么 Channel,怎么保证数据不丢失的(tailDir Source + File Channel)
- 活跃留存的实现思路(只会新增留存,寄)