已决定签百度凤巢,秋招结束,回馈牛客,一波面经

非科班渣硕不懂前路如何,执着要走算法,由于比较菜,前后也就只面了7家,最终拿了科大讯飞AI研究院nlp算法,银联数据挖掘、百度凤巢算法、华为算法口头四个offer,回馈一波面经,比较水,大佬勿喷……
ps:华为ssp要等到10月中下旬才面,因为已拿百度凤巢,就不太想面了,弃了,可能薪资会比百度高很多,但是毕竟凤巢,无脑百度-.-

1.科大讯飞(AI研究院nlp offer


科大一面2018.7.23

1.自我介绍

2.项目,百度点石,传统机器学习怎么做的,深度学习又是怎么做的,F1提升了多少,语料库怎么扩展的,爬虫扩展,扩展后效果提升了多少,是机器学习转化为深度学习对实验的提升多,还是语料库扩展的影响多

3.LSTM原理与流程,从dnn到rnn到lstm的转变,lstm的三个门控是如何设计的,具体的计算,上一时刻保留的加本时刻更新的传递给输出门,lstm如何解决梯度弥散的问题,为什么相乘变成相加就能解决

4.项目是怎么分工的,个人职责是什么

5.工作城市,成绩,女朋友,期望薪资等,会不会c++,喜欢科研类还是工程项目类多

科大二面2018.8.3

1.自我介绍,项目详细做的,工作职责,任务分配,smart的特征怎么提取的,包含哪几方面,有没有进行模型改进,创新点是啥

2.百度比赛怎么做的,机器学习和深度学习都用了哪些算法,哪个效果最好,lstm的流程,具体实现是用的框架还是什么,优化函数与方法用的哪些进行训练,调参怎么调,adam原理

3.Word2vec原理,损失函数,怎么优化,怎么训练模型的,用的什么语料库,如何扩充的

4.出租车轨迹数据的项目是怎么做的,用的什么方法

5.意向薪资,工作地,女朋友,家长等等

2.银联(数据挖掘offer

银联一面+二面2018.8.4

1.一面无领导小组,对互联网金融的几个因素进行危害性排序,中庸之道,不多说,不少说即可;

2.二面项目简历介绍

3.天池大数据怎么进行特征提取的,与业务相关,效果如何

4.汽车论坛文本挖掘的分工与任务调配是怎样的,在项目中的职责,如何处理矛盾的,个人意愿,薪资

5.两个技术性问题python中search和match区别(match从开头查找匹配,没有返回none,但search全局查找,没有返回0),c语言中sizeof和strlen区别(前者是单目运算符,求数据类型所占空间大小,后者为函数,求字符串长度)


3.阿里(挂)

阿里神马搜索一面2018.7.27

1.自我介绍,项目介绍

2.word2vec原理,cbow+skip-gram,采用softmax计算输出概率,为了减少计算量,采用层级sofemax即哈夫曼树以及负抽样方法改进,其中哈夫曼树的流程,叶子结点,跟节点,节点都代表了什么,为什么利用哈夫曼树,近的更便于找到,贪心思想,并且复杂度降低,哈夫曼树二分类,左右树怎么分的,为什么左为负1,右为正0,能不能换,可以换,只是一种定义,层级softmax不用可不可以,正常的softmax也可以,计算量亿万级而已

3.F1计算公式,BOW,tfidf的意义,对前沿论文的了解程度,pagerank与倒排索引,svm原理与推导,sas比赛

4.司机行为特征提取,用了什么方法,science上fast密度峰值聚类

5.在线编程,最长回文子串,冒泡排序,反序字符串

6.智力题,一根绳子剪三段,构成三角形概率,1/8,不均匀硬币,如何使之公平,连续两次正或者连续两次反不算,只考虑一正一反,即p(1-p)

7.L1和l2正则,为什么l1产生稀疏矩阵,l2可以防止过拟合

阿里神马搜索二面2018.8.14

1.自我介绍3分钟

2.SVM和gbdt区别,介绍了svm和gbdt原理,从集成学习角度讲的,gbdt为什么效果比svm效果好,能够构建高度非线性的分类函数,而svm采用rgb核函数人工固定核函数,后调节参数,gbdt不也要调参数吗,都有哪些参数需要调节,

3.与Gbdt相似的方法有哪些,rf,adaboost,xgboost,分别讲了区别与联系,其中xgboost用了列抽样,为什么列抽样就能防止过拟合,会不会lightgbm

4.深度学习了解哪些算法(dnn,rnn,lstm),对embedding了解么,嵌入式处理,word2vec?

5.算法编程,铺地板1xn铺1*1和1*2的地板,多少种方法,利用迭代,f(n)=f(n-1)+f(n-2),有序数组,有一个元素出现次数超过数组长度的一半,找到这个元素,二分查找,再二分前半部分,后半部分不需要再次二分查找,只需要利用索引,得到后半部分对应位置的值,

假如数组长度为n,前半部分一直二分查找找到了m次,则后半部分最少出现n/2-m次,直接找到对应中间位置后这么多次对应的索引位置,再向后查找即可,时间复杂度为log2n

阿里神马搜索三面2018.8.16

1.比赛:直接问项目,百度情感极性大赛怎么做的,流程思想等,用到的机器学习方法,怎么选特征,怎么分词,怎么构建用户词典,深度学习中用了什么,word2vec原理与思想,层级softmax与负采样的思想,负采样是随机采样的吗,会不会抽到同一个? LSTM的思想,门控消除梯度弥散,遗忘门输入门输出门等,传统DNN怎么改进梯度弥散的现象,更换激活函数ReLU,初始化参数,还有其他的方法么?加入BN层

2.项目:出租车LED广告投放,都做了什么,乘客的特征怎么提取,司机的怎么提取,都用了什么方法,功能区怎么划分与标注的(人工),一个地方出现多个功能区怎么办?加入模糊思想,构造隶属度函数,最后怎么进行广告投放的。

3.概率题:甲乙两人比赛,赢的概率分别为p和1-p,假定连续两次赢才算获胜,那最后甲获胜的概率为多大?考虑两种情况,第一种,甲直接两局获胜了,第二种,甲乙各赢了一次,重新回到开始状态,2p*(1-p)情况下重新开始游戏,迭代得到最终结果。

4.在线编程题:①n个乱序数组中取第k大的数字,快排一部分,堆排序取前k个,最坏时间复杂度分别为多少,建堆的复杂度呢?②n堆苹果,每堆的个数为An,求第k个苹果在哪一堆(可多次输入的),自己思路,顺序查找,从前到后查找,面试官提示复杂度高n*m,改进,二分查找logn,再改进,(An比较小的情况下)哈希查找

4.360(挂)

360大数据中心机器学习一面 2018.8.22

1.自我介绍

2.问比赛:百度点石情感极性判别,传统机器学习方法,改进深度学习方法,如何选取特征,只是利用了词语?分词怎么做的,自己调用的库还是api接口,分词精度怎么样,用户词典怎么构建的(左右熵互信息找新词),为什么不加入词性的判定(情感词大多为形容词副词等),传统机器学习方法效果不好时,怎么调节与改进?

word2vec维度怎么选的(窗口大小为5,设置为随机效果更好),有没有自己实现word2vec,在使用lstm训练时,用的框架还是自己实现的,网络设置了多少层,为什么?每一层都是什么含义,都调节了哪些参数,最后效果怎样。

3.问项目:汽车质量问题,怎么进行的文本分类,都选了哪些特征,不词汇特征怎么做的(BOW),算法用了哪些?

4.用没用过hadoop和spark?

360搜索算法一面2018.8.24

1.自我介绍

2.讲项目,百度比赛怎么做的,特征怎么选的

3.找实现的机器id,哈希查找,字典,如何优化

4.写快排代码

5.抓取网页,新抓取的怎么匹配与老的相似度,视频呢

360搜索算法二面2018.8.24

1.自我介绍

2.写开根号的函数

3.概率分布P(B>A)

4.找名人别称

5.网易云音乐(无hc,莫名挂)

网易机器学习一面2018.8.28

1.自我介绍

2.项目比赛课程怎么权衡,项目介绍

3.写SVM推导公式

4.概率题,54张扑克牌,分三堆,其中4张A在同一堆的概率

5.流数据n个中随机取k个数,每次只能取一个,怎么使取到每个的概率相等

6.百度(凤巢算法offer

百度数据挖掘一面2018.9.19

1.自我介绍

2.介绍项目:背景及数据类型特点,文本多分类问题,用的算法(SVM、RF、GBDT),效果如何,哪个算法效果最好,bagging和boosting区别,

3.深入学习怎么做的:word2vec怎么训练的,有没有没有得到的词向量,比例多少,word2vec原理,LSTM+CNN怎么做的,谁前谁后,为什么,效果提升多少,用的什么工具(TensorFlow),分词用的什么工具(jieba),怎么做的新词发现(左右熵互信息),写互信息的公式,为什么互信息可以进行新词发现,原理

4.写SVM常用核函数、LR的公式,损失函数类型,为什么用sigmoid函数进行非线性映射(从二项分布的伯努利方程角度)

5.天池大数据骗保现象的原因,数据比例分布,数据不平衡怎么做,SMOTE采样怎么做的,SMOTE原理,采样完的比例分布,用的算法(RF、xgboost),

6.评估指标,P、R、F1,还有哪些(ROC曲线,AUC值),为什么不平衡时用AUC,怎么算,代表含义,F值的公式,还有没有其他的F值。

7.KNN原理,kd树的构建与搜索,讲原理,还有没有其他的树结构能实现kd树的效果

8.Apriori关联规则怎么做的,原理介绍

9.代码题:从1-1000中找到缺失的值(用字典),一堆乱序数中找到第k大的数(快排或堆排序,如何实现,复杂度为多少klogn),传统快排复杂度,

10.代码题:读取文件(一行一个,有顺序a-z),统计元素词频

百度数据挖掘二面2018.9.20

1.  自我介绍

2.  科研项目(汽车之家)具体介绍,如何选取特征,进行文本分类过程、关联规则、语义kmeans聚类,原理;出租车轨迹数据的项目怎么做的(特征提取过程、用到的算法)

3.  都用哪些聚类算法(kmeans、层次聚类、谱聚类、dbscan、fast clustering、psla、lda),详细介绍密度峰值聚类算法,原理及运用,适用情况,优点,并介绍lda,画出原理图,讲思想与如何求解lda(gibbs采样或变分EM算法),为什么lda要用dirichlet分布,其他分布不行吗(dirichlet与多项式分布为共轭分布,即先验分布与似然分布求得的后验分布与先验分布是同种形式,故可将此次的后验作为下一次的先验),还有没有其他的共轭分布(beta和二项式分布)

4.  SVM多分类怎么做到的(OVR、OVO、层次SVM),分析各自的特点

5.  Word2vec原理,CBOW与Skip_gram,二者不同,传统使用softmax全连接的计算工作量大,改进方法层级softmax,负抽样,各自的原理,如何进行梯度上升迭代(过程类似LR),哈夫曼树的叶子结点概率怎么算,节点如何进行分裂的,最终所有叶子结点的概率和是否等于1,在使用过程中,负抽样使用多还是层级softmax多,为什么(负抽样,计算简单),哈夫曼树是如何构建出来的

6.  改进现有的分类算法、聚类算法等,提出一种新算法,从哪个角度切入(讲了感知机到SVM的改进,GBDT到xgb的改进,kmeans到结合语义的改进)以及从梯度优化的角度,提高迭代速度(梯度下降到牛顿法、拟牛顿法、SGD、MBGD,动量,NAG,自适应的Adagrad、RMSprop、Adam),问了Adam的特点,xgb的改进点

7.  实习经历,上线的产品在没在用等

8.  代码题:归并排序

百度机器学习三面2018.9.26

1.自我介绍,谈专业

2.挑比赛项目实习介绍,从头至尾讲背景、数据特点、用的算法、如何改进、优化过程、优化效果、最终排名

3.为什么把CNN结构放到LSTM之前,效果为什么比单独使用LSTM差,为什么不考虑CNN+LSTM+CNN,论文里提到CNN对单字特征提取效果较好(没考虑到,再调整)

4.分词时用的什么工具,引入互信息与左右熵的方法,考虑内部聚合度和外部聚合度,从而决定是否进行切分,从而实现新词发现,提高分词精度。

5.对于不平衡数据如何处理:上采样,下采样,分配权重,SMOTE采样的过程。

6.从头至尾介绍垃圾邮件识别的过程,从数据获取至生成报告,重点考察思考问题的广度,数据不平衡时怎么办(如数据量很大时怎么处理,数据量小时怎么处理,如何将文本数据转化为特征向量,用什么方法,对于邮件的标题及正文是否进行相同的处理,权重是否相同,如何找到关键特征等),数据特征维度远高于数据量时,从样本采样、向量维度降维、分类算法的重新选择三方面改进,尽量多考虑系统性设计的思想

7.面试官建议:夯实基本功,算法原理、数据结构、代码功底线上C++线下python,hadoop等工具,tf等框架的使用等,第二提高系统思维,从解决问题角度从头至尾分析,第三,了解业务方面。


7.华为(口头offer,放弃)
由于实习签了华为,由于导师不放就弃了,保留终面,面华为由于没赶上时间,去到的时候只剩开发岗了,只好面了,面的时候才知道面试官是做硬件的…额,索性运气不错,面试官给了A+(可能是听不懂我讲的是啥吧,尴尬ing)直接过,推荐北京去面ssp。


华为开发/硬件/算法面2018.9.21

1.  自我介绍,岗位意向到底是算法还是开发(算法)

2.  百度情感极性判别大赛经历,问题背景+数据介绍+计算机问题(文本多分类),分别使用传统机器学习的方法(BOW+SVM/RF/GBDT),深度学习的方法(word2vec+LSTM+cnn),大致介绍每个算法的适用性+最终结果

3.  实习+科研项目(汽车之家),涉及到的数据(问题库、原因库、解决方法库),分别对数据库的***作(汽车部件+失效模式抽取,人机料法环测—文本多分类、文本聚类),最终上线产品实际使用情况,和宝马总部怎么分配的

4.  科研项目(出租车轨迹数据)提取完特征之后做什么用(精准投放广告,怎么评判广告投放效果及收益)

5.  聊部门,聊华为、聊5G、聊开发与算法……


渣硕,大佬勿喷,后续继续学习,争取摘掉渣渣的帽子-.-

#秋招##面经##百度##科大讯飞##华为##算法工程师##网易#
全部评论
看了看感觉一是基础扎实,二是有比赛经验。。佩服大佬!
点赞 回复 分享
发布于 2018-10-02 22:05
咱能不这么谦虚吗。。。
点赞 回复 分享
发布于 2019-03-19 07:15
可以分享下学习路径吗
1 回复 分享
发布于 2019-08-24 11:52
膜拜大佬,E301发来贺电
点赞 回复 分享
发布于 2018-10-02 20:59
楼主那个部门,我是商业搜索智能富媒体
点赞 回复 分享
发布于 2018-10-02 21:05
这个大佬很优秀!
点赞 回复 分享
发布于 2018-10-02 21:51
膜拜一下,能简单分享一下学习路径吗
点赞 回复 分享
发布于 2018-10-11 17:15
楼主可以加个q么
点赞 回复 分享
发布于 2018-10-29 15:09
请问师兄,项目是比赛的意思吗?还是实验室的项目?
点赞 回复 分享
发布于 2018-12-17 23:32
哈?无脑百度?
点赞 回复 分享
发布于 2019-08-24 10:08
百度是发意向书了么?还是后面还有文化测评?
点赞 回复 分享
发布于 2019-08-24 10:19
膜拜一下同校的师兄,华为都是算法的项目可以面开发吗,怕简历都过不了。。感觉今天算法的坑好少
点赞 回复 分享
发布于 2019-08-27 15:41
请问楼主主要参加的哪方面的竞赛,就是nlp的吗?
点赞 回复 分享
发布于 2022-03-05 18:07

相关推荐

24 323 评论
分享
牛客网
牛客企业服务