滴滴-数据开发实习二面

1. 自我介绍
2. 讲解一下项目
3. 项目中数仓为什么要这样分层。
4. 关于数模比赛项目的问题。xxx
5. 写sql题。

用户访问日志:user_id, device_id, date
求1. 给定时间2024-06-17 用户、设备的数量,都有重复值,都有可能为空
第一次写法:
        select
            count(distinct user_id) user_cnt
            count(distinct device_id) device_cnt
        from 
             t
        where date_format(date,'yyyy-MM-dd') = '2024-06-07'

追问这样写会导致什么问题,如何解决?
会导致数据倾斜,先提前过滤空值再使用group by,再套一层直接统计
全部评论
怎么样,二面过了吗
点赞 回复 分享
发布于 06-18 22:33 陕西
请问佬在哪投的
点赞 回复 分享
发布于 06-19 12:07 湖北

相关推荐

6 9 评论
分享
牛客网
牛客企业服务