字节阿里德勤数据分析/机器学习方向经验贴(已字节offer)
阿里-机器学习工程 – 已拒绝 (官网投递)
德勤智慧债 - 算法方向 – 未知,估计没了吧(公众号投递)
阿里机器学习岗位:面试官电话通知 - 阿里笔试 – 1面 – 已拒
德勤智慧债-算法方向: hr 电话通知 --面试 (hr和团队三位面试官面你一个人)- 未知
字节数据开发;hr – 1 面 – 2 面 – 未知
😝字节数据分析:
一开始我以为是偏产品的数据分析,准备了很多关于产品调研分析之类,但是一个没用上哈哈哈哈。感觉面试官很nice,很耐心,对于你的问题都会有很详细的解答,你回答不全面的问题,也会深入的补充,总之面试感觉十分nice。对职位的含金量充满好感。
1. 实习经历揉的很碎,这个肯定要准备的,碎到具体的业务指标,为什么选择这样的指标,为什么重要?
2. python 算***在基本的难度上增加难度,重点看思维能力,当时我好像是二进制位的题。
3.SQL 实现,一定要熟练窗口函数,lead,leg,row_number, partition by 这种。我的2题具体是啥忘了,但是 类似于 SQL,表user_time中字段是user_id , time(用户访问时间),求每个用户相邻两次浏览时间之差小于三分钟的次数。
* 要分清楚 排序1123 和 113 实现的区别。掌握这种思路基本就可以应对了
select user_id, count(*) from ( select user_id, time, row_number() over (partition by uder_id order by time) as l1 from user_time group by user_id ) a left join ( select user_id, time, row_number() over (partition by user_id order by time) as l2 from user_time group by user_id ) b on a.user_id = b.user_id where b.l2- a.l1 == 1 and a.time - b.time <=3 group by a.user_id
7. 统计学!计算样本样的公式方法,假设检验,错误类型要了解的比较透彻,滑动平均之类的。
8. 时间序列,arima模型的讲解
9. 金融杜邦分析(偶也不知道咋问到哈哈,可能我有金融的学习和实习在简历上)
10.tableau可视化
11.数据埋点的理解
12.剩下的就是 你最好了解一下hive,map reduce,用户模型之类,BI
tool,指标体系搭建(好像也是他们平时要实践的)等吧
😝阿里机器学习工程:
我是有点试错的心态投的很机器学习的岗位,因为毕业想往这个方向努力,所以暑假面试看看他们到底需要什么样的人。
阿里的感觉是比较重视工程的能力,你是不是可以应对量级较大的数据,很多模型的存在很依赖于要达到什么样的目的,数据的关注的重点:数据质量,数据你怎么处理,怎么使用,比模型调参更体现了你的能力。
笔试就网上搜索吧,每场考试两题一小时,题目不一样。
面试补充
1. 机器学习流程(越细越好)
2. 机器学习的一些底层原理推到也要了解,这是区分你和只会使用模型的人的一点。
3. 数据获取,爬虫的方面
4. 海量级数据储存问题
5. 海量数据的分析问题
7. 数据质量的问题
8. 数据泛化能力的问题
9. 数据抽取的代表性的问题
10. 数据特征选择,离散化等处理
😝德勤智慧债 – 算法方向
德勤我有点误打误撞,吸引我的是算法方向,又一次看看这个方向大家需要什么样的人。四个面试官和你在一个skype 里,面试官很nice。
德勤感觉注重工具和实际结合的应用能力。需要思维很开阔,很会解决问题(毕竟四大)
1. 必问的简历实习经历,机器学习项目
2. 算法的理解,要深入理解哦
等。。。。。。。。。。。。
基本问题参考以上贴分享吧
3. 风险预警指标体系
4. 怎么将你的能力,工具运用在金融一些供需链的构建
5. 怎么样去获取一些金融信息数据,比如舆情啊之类的
6. NLP 自然语言处理会不会的,理解了多少
7. 如果我只有4/5公司的财务数据指标和非财务数据指标,那你怎么做最终的分析
等,有点健忘
就是这种很偏实际应用的问题,怎么用你的算法,用工具,思维去解决。
这个岗位我是找人内推了一下,我以为我第一个字节网申凉了,hhhh,然后推上去给我匹配到了开放岗位,我也想不通哈哈哈。面试官还是结合我的简历去了解我的数据挖掘方面的情况,因为说也有这些需求。
基本数据处理机器学习等问题参考参考参考以上,以下补充:
1. 数据库一些建立的模型应用场景
2. ETL 数据仓库技术
3. 聊了一下我做过的反欺诈机器学习整个流程细节,楼主说了好久,就很细就对了
4. 接3,既然做了欺诈,就要了解有不同的欺诈模型
bb们最好做的时候,都要知道你为什么要用这个方法,用什么去量化结果,有的时候图可能没有数字方法准确。
4. 各种机器学习评估指标 什么 那些matrix得吃透昂
5. 归因分析是啥?应用场景(具体一些)
6. r 语言的使用
7. python 的使用
8. 主成分分析和因子分析 (用r咋用的,楼主说的是SAS)