哈啰数据分析日常面经

#数据分析#
下午刚面完字节的产品,晚上哈啰突然通知电话面,数据分析的日常岗(感觉暑期已经招完啦)
本来通知6点面,结果面试官到7.30才打的电话,真的干等了一个半小时
先是深挖了下实习经历和项目经历,没这么给压力也没怎么提问,就是让我介绍一下,然后就是给了几个问题
1.如何估算一个城市的哈啰单车订单数量,考虑哪些指标,用什么模型
2.如何验证你的预测是否准确
3.现在有用户的全部数据,需要判断这个用户是高质量用户还是低质量用户,等于就是贴一个标签,该怎么判断
接下来就是些sql相关的问题了,难度不是很大

对于第一个问题,回答的就是考虑地铁公交等公共交通覆盖程度,城市人口数量,人口年龄分布,以及城市的经济发达程度,发达程度可以考虑人均gdp指标,根据这些指标建立一个多元线性回归模型来做个预测。
第二个问题,先是回答的考虑单车投放以后的订单量数据以及单车的使用频率来对预测结果进行一个评价。然后面试官又问没有订单数据该怎么办,想了一下说,考虑其他已知订单量城市的相关指标,然后将订单量数据与预测的订单量数据进行一个对比,验证一下合理性。本来以为回答的很牵强,但面试官说没问题,这确实是一个方法
第三个问题,回答的先用lasso做个特征选择然后直接随机森林。然后面试官说对于亿量级数据,这个方法处理起来是很困难的,她想听到的其实是拿到数据以后,我先人为的根据特征进行一个初步划分,比如性别年龄地区等等,然后再来考虑如何通过模型来划分。
也不指望能通过,就当攒面试经验
ps:由于暑期实习0offer,现在开始考研了。跟找实习比,考研感觉轻松多了,就每天做做题看看书,背单词,也没有之前找实习那么焦虑开始考研后精神状态逐渐变好
全部评论
这三个问题考察东西不一样,第一个是一个费米问题,考察的是你拆解问题思路和逻辑,你给的解法是通过算法来做,其实不太好,实操性不强,可以用简单统计方法来做,大概思路是用公式拆解法日订单量=用户数*转化率*日人均订单量,这里考虑到不同年龄段人群差异,可以按照年龄段来拆然后进行加总,至于拆分以后转化数据在行业报告里都能找到,可以直接用报告里数据进行预估。第二个问题是数据猜想验证,这个也是使用拆解思路,比如验证你预估北京的订单量,可以直接把北京给他按区域划分了,去预估算一下某个区域订单量占比和统计一下这个区域订单量来估算北京整体订单量。第三个问题就是个简单的给用户打标签问题,行业通用方案是用rfm模型来做,根据不同行业要求找出来各种不同标签用户然后做针对性的营销策略。整体看下来你的回答思路飘在天上,一上来就搞算法,不考虑实际可行性问题,数分真实企业场景中算法应用不是那么多,更多用一些简单数理统计和简单模型都可以解决,只有当数据规律不太容易被发现,才会涉及到数据挖掘,也就是算法这个东西。
14 回复 分享
发布于 2023-05-29 22:57 北京
太牛了
点赞 回复 分享
发布于 2023-05-22 14:08 河南
第三问感觉可以用rfm模型,就不用训练了,按用户信息筛选
点赞 回复 分享
发布于 2023-05-14 21:26 北京
第二个问题的方法很实用,可以考虑在实际工作中使用,uu面试用了多久
点赞 回复 分享
发布于 2023-05-12 14:39 山东
面试官提出的问题很有针对性,考察了很多方面,有后续了吗
点赞 回复 分享
发布于 2023-05-12 14:36 上海

相关推荐

TimeLine: 2.26 一面、2.28 二面、3.9笔试、3.17三面、3.21 hr 面一面【90分钟】1. 自我介绍2. 问学习成绩 +问什么选后端,不选择算法3. 实习(主要问了美团的需求)4. 接口 VS 抽象类5. HashMap6. volatile如何实现可见性和有序性7. 线上 CPU 占用过高怎么排查【top + jstat + jmap + jstack】8. HTTP 状态码【1XX ~ 5XX】9. explain 参数10. Redis 怎么样可以批次操作【mget、mset / pipeline / lua】11. AOP 原理 + 静态代理 / 动态代理12. SQL题:找出总分前10的同学的姓名和总分13. 算法【从一个文件读取字符串,然后将所有字符串按照倒数第二个位置排序的方式进行排序,再写入另一个文件,不能使用 java 内置 sort 函数】【感觉主要注意下文件读写,然后用快排就行】    二面【90分钟】1. 自我介绍2. 12306项目【真没想到,没有问实习项目hhhh】3. HashMap4. 乐观锁 / 悲观锁,举出一个例子【我说了 ConcurrentHashMap】5. String a = “123”, String b = new String(”456”), String c = a + b,对 JVM 来说做了什么【a 在字符串常量池、b 在堆和字符串常量池、c 在堆】6. Java 内存区域7. 如果有一个特别大的对象,我想直接 GC 掉,我可以怎么做【讲了 G1 GC 中对巨型对象的处理方式、然后说了可以直接 System.gc() 掉】8. 联合索引,创建联合索引需要注意什么【最左匹配 + 把区分度大的放在前面】,a=x、a=x,b=y、a=x,b=y,c=z,怎么建立索引【a,b,c】9. mysql 想要删除数据怎么做【delete、软删、truncate、drop】,讲讲上面四种的原理10. 如何设计全局 ID【雪花算法、美团 Leaf、时钟回拨问题】11. 算法【内存 4 G,有一个 500 G文件,请你找出出现次数 top100 的元素】【写两个方法,一个把文件分片,一个方法使用一个 map 存储 string 和出现次数,使用全局堆进行筛选就行】三面【45分钟】1. 自我介绍2. 学习情况、实习情况、获奖情况、导师课题情况闲聊3. Java 出现 OOM 有哪些原因4. 有没有实际的 Java 调优经历5. 自己对生成式 AI 方面有什么见解6. 面试官介绍部门 + 未来如果进到部门,未来几年的培养计划HR面【30分钟】1. 自我介绍2. 讲一讲每一段实习3. 在美团遇到最大的挑战是什么4. 互联网公司实习对你有什么样的提升5. 学习成绩6. 开源经历7. 自己对最近的 AGI 有什么看法8. 什么时候能来实习许愿OC,希望能通过!#阿里云##阿里##许愿##offer##面经#
点赞 评论 收藏
分享
评论
17
99
分享

创作者周榜

更多
牛客网
牛客企业服务