凉经 24届 tx 软件开发-数据工程

摘要

数据工程的全流程(数仓建设-数据接入-数据运维-数据分析-数据挖掘)的各个阶段都有涉及...

  1. 自我介绍,问了我在百度和蔚来做的工作(数仓),对简历项目中对数据倾斜的发现、解决方法和效果
  2. 回答是通过sparkUi中task的输入量和运行时间发现,解决方法是用count估算不同维度下各value的数据条目,然后数量最多的top key进行再赋值后与其他表join
  3. 感觉这个地方可以从spark运行机制上讲数据倾斜造成的后果,以及面试官特别在意选取选取多少纬度值进行打乱的逻辑...难道是28原则?
  4. 继续追问数据分层的原因,ods dws dwd的区别(概念还是不清晰)

2. 解释xgboost、SVM、LR的模型原理以及区别

  1. 我就支支吾吾答出来SVM和LR的大致思想,面试官追问我看在简历上写用过机器学习包,让我解释随机森林作为分类模型优点和缺点(没答出来缺点)

3. 写出二叉树的数据结构,递归调用这类(我当然是不会....)

4. 用任意语言写出寻找数组最大自增队列的长度(指出我重复扫描的问题)

5. SQL题,a表和b表都有key和value,用b表中相同key的value替换a表,我以为是查询,就写了coalesce函数,谁知道要求的是update.....(这是个什么部门)

6. 继续深挖项目,看我做过国网的项目,问我用到的PCA是怎么降为的(说出计算过程)

7. 做没做过竞赛(我没敢说我参加过数模)

8. 是否了解推荐模型、NLP等(我把nlp了解的一些模型说了一下)

9. 什么时候和百度这边的实习结束,顺便问我是哪里人....我就说3月底就结束了,很快就可以投入到下一份实习,而且可以因为发完小论文了,可以全心投入实习

10. 问答环节,我问这个部门主要做什么,答案基本也是全栈,最终产出是产出label和特征,顺便问了下部门的hc,也是很坦诚说在收缩。最后问面试官如何看待chatgpt对于数分行业潜在的冲击,面试官说chatgpt目前更多的是nlp技术的发展,且数分最重要的是业务经验,反倒是可以辅助工作

面经也结束了,其实还是自己太菜了,只满足当sqlboy,结果人家完全不问,就尴尬了hh,但是奇怪的是全程没问任何业务问题....?

希望这份面经可以帮助到下一个面试的人。

#数据人的面试交流地#
全部评论
反手就是一键三连
点赞 回复 分享
发布于 2023-03-11 13:30 山东
多谢大佬的分享!!狠狠有用!
点赞 回复 分享
发布于 2023-03-11 13:33 上海
真难呀
点赞 回复 分享
发布于 2023-03-13 23:44 上海
我天,什么数据全栈岗
点赞 回复 分享
发布于 2023-03-16 12:17 美国
可以请问下是哪个部门吗
点赞 回复 分享
发布于 2023-03-18 05:57 荷兰

相关推荐

拉丁是我干掉的:把上海理工大学改成北京理工大学。成功率增加200%
点赞 评论 收藏
分享
周述安:这都能聊这么多。别人要是骂我,我就会说你怎么骂人?他要是继续骂我,我就把评论删了。
点赞 评论 收藏
分享
13 38 评论
分享
牛客网
牛客企业服务