互联网or深圳在编教师,这里有你想知道的一切!
背景:楼主本身也是一心找推荐算法岗位的21届老腊肉,但是互联网的一些弊端我们都知道,因此,楼主也尝试了深圳在编老师这个道路,最后也是成功收获老师在编offer,这前前后后自己做了很多调研,也查了很多帖子和资料。我相信有很多牛友也会有同样的疑惑,希望自己的经验可以帮助到你。有任何问题,欢迎留言,我会尽力一一回复,自己也写了很多经验帖放到个人公众号——《半愚》上边,
作为福利,去年各大厂的部分面经仅供参考。
趣头条(NLP日常实习,40多分钟)
(一面(过),2020.02.10面,2020.02.12过,感觉比较缺人那种)
1.自我介绍,各个项目
2.实验室项目,有没有做过NLP相关的,主题提取以及摘要提取
微信项目介绍下,word2vec
LSTM介绍,与RNN对比
介绍一下bert,bert对于长文本问题:效果不好
nlp的最新进展
transform 以及attention介绍
IF-TDF算法
文本增强的方法
机器学习方面:
1.分类模型
2.SVM
3.聚类算法有哪些,KNN是聚类算法吗?
4.介绍一下k-means
两道编程:1.青蛙跳台阶2.判断单链表是否有环
会用sql吗?
支付宝——行业技术部(提前批一面,46分钟)
1.简单自我介绍,介绍项目
2.问了腾讯赛和微信的项目经历
比赛中有没有遇到过拟合问题,怎么解决的?防止过拟合的方法
3.一个场景问题:如果想根据预测哈罗单车的日销售量(就是租赁交易额),应该要考虑哪方面的因素?
如果预测哈罗单车返工调度问题呢?怎么考虑?
阿里妈妈——定向算法团队(提前批一面,一小时40分钟)
1.简单自我介绍
2.挑一个自己最满意的项目来讲(这个地方自己先讲了微信实习,又讲了腾讯赛)
微信实习:
网络相关搜索:最大的改进点,创新点,提取完embedding后,后续是怎么处理的(这边被挖出来是做了session改写队列的工作而已,做的是扩召回的工作),如果继续做会有什么样的思路和创新点,可以考虑聚类吗?(这边答的是考虑利用graph构图提取embedding),遇到的最大的困难(以后可以往embedding上引,embedding相关性召回这一块,比如:秋葵炒蛋和秋葵教育,这个召回出来不太靠谱的,利用一个中心词投票的过滤操作)
指标是怎么获得的呢?(这边答的是利用对照组,都取10%的流量,然后现在的模型和之前的做对比)
大家都在搜:过程中最大的困难,是怎么处理的?( 1.异质节点问题(metapath2vec),着重游走路径的规划 2.别名采样的问题,内存占用太大,所以有了一个小的修改,加了些并行化,这里的别名采样的问题主要是取两个随机值,第一个是[0,N]之间的随机值判断是在哪个桶,第二个[0,1]之间的值判断这属于桶内那一类,一般一个桶里最多放一类或者两类,所以这里有个问题就是需要用空间存储这个别名矩阵)
腾讯赛:怎么解决不均衡二分类问题的,和冠军以及其他团队相比,最大的优势和不同
在二分类问题中有遇到负样本太多的问题,这边是怎么解决的,怎样保证不改变样本分布呢?
实验室目标跟踪项目:最大的收获(答跟踪的序列化问题,可以借鉴一些nlp的思想过来用,比如attention,学科间的交叉色彩比较重)
3.智力题:
现在有两条一样的粗细不均匀的绳子,已知绳子从一端点燃需要一个小时的时间燃烧完,那么请找出绳子可以燃烧到15分钟的点(让你卡出一个可以燃烧15分钟的绳子长度)
答:第一根绳子两头点,燃完时那个点记下来,然后第二根绳子按照第一次的点分成两半,再各自两头点,找燃完时后的那个点
4. 编程题:
白板编程:链表是否有环->链表环的起点
总结:面试官人挺好,会适当引导,最后的智力题和编程都会有引导。
阿里妈妈——淘宝联盟团队(提前批一面,一小时24分钟)
1.简单自我介绍
2.直接开始问基础
数据结构方面:平时主要用什么编程语言?答:python和C++
c++中的stl熟悉吗?map是怎么实现的,查找复杂度是怎么样的?为什么呢?
那python中的map呢?查找复杂度是多少?这里自己扯到哈希表,具体问哈希表是怎么实现
的,python中map查找是怎么实现的?
以上两个答得都不是很好,接着问vector的低层存储方式,说是动态数组,接着问动态数组是
具体怎么分配内存的?,接着问链表,链表的结构是怎样的,怎么连接的,然后问
递归,怎么用递归实现链表翻转。递归具体是适合哪种场景?(大问题细小化,然后通过解决
一系列细小的问题最终解决问题)
机器学习基础:机器学习都有了解哪些浅层模型和深层模型,说了lr,knn,k-menas,树模型等。
lr是指;逻辑斯提回归吗?,逻辑斯帝回归具体实现方式很细,
细到损失函数,非线性变化,损失函数,为什么可以用极大似然来等价逻辑斯帝回归?
这里的正则化是怎么实现的?L1和L2正则化的区别?为什么?
深度模型都有了解哪些?自己在结构上做过改进吗?BN,dropout的作用
树模型中的Rf和gbdt有了解么?说说两者的区别?(这个地方要从方差和偏差也就是数学的角
度进行说明)
3.项目:自己先随便挑选两个出来讲,挑的微信和目标跟踪的论文。项目中主要是微信这里问到中间处理数据有没有遇到什么问题?(感觉是在验证项目是不是自己做的)
还有问到nlp方面的模型有没有了解过,然后graph呢?后续在进行node2vec询问的时候问到一个游走方式,
还问了wide&deep模型有没有了解过?
最后腾讯赛也询问了一下,主要是自己做的哪一块?几个人做的?遇到什么问题,和其他队伍比较我们的不足,其他队伍的亮点?自己的贡献度?特征方面有提取到哪些有用的特征(主要还是集中在验证是不是自己做的)
总结:数据结构基础以及机器学习基础还是要打的,是刨根问底的打。这一次主要集中询问的是基础,项目没有问很细,整体不好。