hive统计五分钟内访问超过三次的用户

比如现在有一张表,id,e_time,分别代表用户的id和时间时间戳(精确到秒),使用hive统计出五分钟内访问超过三次的用户。例如:12:00:00-12:05:00是五分钟,12:00:01-12:05:01也是五分钟
全部评论
select    id from ( select    id, round((unix_timestamp(e_time) - unix_timestamp(time_lag)) / 60,1) minute from    (select *,lag(e_time,5)over(parition by id order by e_time)time_lag from table)a where    round((unix_timestamp(e_time) - unix_timestamp(time_lag)) / 60,1)<=5 )b group by    id 1、子查询a是利用窗口滑动,来计算用户第N次的登录时间,time_lag取决于我要滑动几次,下面示例是滑动两次   id     e_time  time_lag 1 1name  1:00                          2 2name  1:01                           3 3name  1:02   1:00                        4 4name  1:03   1:01                        5 5name  1:04   1:02 2、子查询B是吧时间转成成面数以后做计算转成分钟 3、最后的查询是用来去重,因为一个用户5分钟如果要是登录的上百次,那么会统计出很多次符合规则的计算,所以去重
2 回复 分享
发布于 2022-03-29 10:48
真实数据模拟
2 回复 分享
发布于 2022-03-29 10:50
不会
点赞 回复 分享
发布于 2021-12-12 23:00

相关推荐

11-01 08:48
门头沟学院 C++
伤心的候选人在吵架:佬你不要的,能不能拿户口本证明过户给我。。球球了
点赞 评论 收藏
分享
1 3 评论
分享
牛客网
牛客企业服务