2018-10-08 17:02 已编辑大连理工大学算法工程师

关注

已决定签百度凤巢，秋招结束，回馈牛客，一波面经

非科班渣硕不懂前路如何，执着要走算法，由于比较菜，前后也就只面了7家，最终拿了科大讯飞AI研究院nlp算法，银联数据挖掘、百度凤巢算法、华为算法口头四个offer，回馈一波面经，比较水，大佬勿喷……

ps:华为ssp要等到10月中下旬才面，因为已拿百度凤巢，就不太想面了，弃了，可能薪资会比百度高很多，但是毕竟凤巢，无脑百度-.-

1.科大讯飞（AI研究院nlp offer）

科大一面2018.7.23

1.自我介绍

2.项目，百度点石，传统机器学习怎么做的，深度学习又是怎么做的，F1提升了多少，语料库怎么扩展的，爬虫扩展，扩展后效果提升了多少，是机器学习转化为深度学习对实验的提升多，还是语料库扩展的影响多

3.LSTM原理与流程，从dnn到rnn到lstm的转变，lstm的三个门控是如何设计的，具体的计算，上一时刻保留的加本时刻更新的传递给输出门，lstm如何解决梯度弥散的问题，为什么相乘变成相加就能解决

4.项目是怎么分工的，个人职责是什么

5.工作城市，成绩，女朋友，期望薪资等，会不会c++，喜欢科研类还是工程项目类多

科大二面2018.8.3

1.自我介绍，项目详细做的，工作职责，任务分配，smart的特征怎么提取的，包含哪几方面，有没有进行模型改进，创新点是啥

2.百度比赛怎么做的，机器学习和深度学习都用了哪些算法，哪个效果最好，lstm的流程，具体实现是用的框架还是什么，优化函数与方法用的哪些进行训练，调参怎么调，adam原理

3.Word2vec原理，损失函数，怎么优化，怎么训练模型的，用的什么语料库，如何扩充的

4.出租车轨迹数据的项目是怎么做的，用的什么方法

5.意向薪资，工作地，女朋友，家长等等

2.银联（数据挖掘offer）

银联一面+二面2018.8.4

1.一面无领导小组，对互联网金融的几个因素进行危害性排序，中庸之道，不多说，不少说即可；

2.二面项目简历介绍

3.天池大数据怎么进行特征提取的，与业务相关，效果如何

4.汽车论坛文本挖掘的分工与任务调配是怎样的，在项目中的职责，如何处理矛盾的，个人意愿，薪资

5.两个技术性问题python中search和match区别(match从开头查找匹配，没有返回none,但search全局查找，没有返回0)，c语言中sizeof和strlen区别(前者是单目运算符，求数据类型所占空间大小，后者为函数，求字符串长度)

3.阿里（挂）

阿里神马搜索一面2018.7.27

1.自我介绍，项目介绍

2.word2vec原理，cbow+skip-gram，采用softmax计算输出概率，为了减少计算量，采用层级sofemax即哈夫曼树以及负抽样方法改进，其中哈夫曼树的流程，叶子结点，跟节点，节点都代表了什么，为什么利用哈夫曼树，近的更便于找到，贪心思想，并且复杂度降低，哈夫曼树二分类，左右树怎么分的，为什么左为负1，右为正0，能不能换，可以换，只是一种定义，层级softmax不用可不可以，正常的softmax也可以，计算量亿万级而已

3.F1计算公式，BOW，tfidf的意义，对前沿论文的了解程度，pagerank与倒排索引，svm原理与推导，sas比赛

4.司机行为特征提取，用了什么方法，science上fast密度峰值聚类

5.在线编程，最长回文子串，冒泡排序，反序字符串

6.智力题，一根绳子剪三段，构成三角形概率，1/8，不均匀硬币，如何使之公平，连续两次正或者连续两次反不算，只考虑一正一反，即p(1-p)

7.L1和l2正则，为什么l1产生稀疏矩阵，l2可以防止过拟合

阿里神马搜索二面2018.8.14

1.自我介绍3分钟

2.SVM和gbdt区别，介绍了svm和gbdt原理，从集成学习角度讲的，gbdt为什么效果比svm效果好，能够构建高度非线性的分类函数，而svm采用rgb核函数人工固定核函数，后调节参数，gbdt不也要调参数吗，都有哪些参数需要调节，

3.与Gbdt相似的方法有哪些，rf，adaboost,xgboost，分别讲了区别与联系，其中xgboost用了列抽样，为什么列抽样就能防止过拟合，会不会lightgbm

4.深度学习了解哪些算法（dnn,rnn,lstm），对embedding了解么，嵌入式处理，word2vec？

5.算法编程，铺地板1xn铺1*1和1*2的地板，多少种方法，利用迭代，f(n)=f(n-1)+f(n-2)，有序数组，有一个元素出现次数超过数组长度的一半，找到这个元素，二分查找，再二分前半部分，后半部分不需要再次二分查找，只需要利用索引，得到后半部分对应位置的值，

假如数组长度为n，前半部分一直二分查找找到了m次，则后半部分最少出现n/2-m次，直接找到对应中间位置后这么多次对应的索引位置，再向后查找即可，时间复杂度为log2n

阿里神马搜索三面2018.8.16

1.比赛：直接问项目，百度情感极性大赛怎么做的，流程思想等，用到的机器学习方法，怎么选特征，怎么分词，怎么构建用户词典，深度学习中用了什么，word2vec原理与思想，层级softmax与负采样的思想，负采样是随机采样的吗，会不会抽到同一个？ LSTM的思想，门控消除梯度弥散，遗忘门输入门输出门等，传统DNN怎么改进梯度弥散的现象，更换激活函数ReLU，初始化参数，还有其他的方法么？加入BN层

2.项目：出租车LED广告投放，都做了什么，乘客的特征怎么提取，司机的怎么提取，都用了什么方法，功能区怎么划分与标注的（人工），一个地方出现多个功能区怎么办？加入模糊思想，构造隶属度函数，最后怎么进行广告投放的。

3.概率题：甲乙两人比赛，赢的概率分别为p和1-p，假定连续两次赢才算获胜，那最后甲获胜的概率为多大？考虑两种情况，第一种，甲直接两局获胜了，第二种，甲乙各赢了一次，重新回到开始状态，2p*(1-p)情况下重新开始游戏，迭代得到最终结果。

4.在线编程题：①n个乱序数组中取第k大的数字，快排一部分，堆排序取前k个，最坏时间复杂度分别为多少，建堆的复杂度呢？②n堆苹果，每堆的个数为An，求第k个苹果在哪一堆（可多次输入的），自己思路，顺序查找，从前到后查找，面试官提示复杂度高n*m，改进，二分查找logn，再改进，（An比较小的情况下）哈希查找

4.360（挂）

360大数据中心机器学习一面 2018.8.22

1.自我介绍

2.问比赛：百度点石情感极性判别，传统机器学习方法，改进深度学习方法，如何选取特征，只是利用了词语？分词怎么做的，自己调用的库还是api接口，分词精度怎么样，用户词典怎么构建的（左右熵互信息找新词），为什么不加入词性的判定（情感词大多为形容词副词等），传统机器学习方法效果不好时，怎么调节与改进？

word2vec维度怎么选的（窗口大小为5，设置为随机效果更好），有没有自己实现word2vec，在使用lstm训练时，用的框架还是自己实现的，网络设置了多少层，为什么？每一层都是什么含义，都调节了哪些参数，最后效果怎样。

3.问项目：汽车质量问题，怎么进行的文本分类，都选了哪些特征，不词汇特征怎么做的（BOW），算法用了哪些？

4.用没用过hadoop和spark？

360搜索算法一面2018.8.24

1.自我介绍

2.讲项目，百度比赛怎么做的，特征怎么选的

3.找实现的机器id，哈希查找，字典，如何优化

4.写快排代码

5.抓取网页，新抓取的怎么匹配与老的相似度，视频呢

360搜索算法二面2018.8.24

1.自我介绍

2.写开根号的函数

3.概率分布P(B>A)

4.找名人别称

5.网易云音乐（无hc，莫名挂）

网易机器学习一面2018.8.28

1.自我介绍

2.项目比赛课程怎么权衡，项目介绍

3.写SVM推导公式

4.概率题，54张扑克牌，分三堆，其中4张A在同一堆的概率

5.流数据n个中随机取k个数，每次只能取一个，怎么使取到每个的概率相等

6.百度（凤巢算法offer）

百度数据挖掘一面2018.9.19

1.自我介绍

2.介绍项目：背景及数据类型特点，文本多分类问题，用的算法（SVM、RF、GBDT），效果如何，哪个算法效果最好，bagging和boosting区别，

3.深入学习怎么做的：word2vec怎么训练的，有没有没有得到的词向量，比例多少，word2vec原理，LSTM+CNN怎么做的，谁前谁后，为什么，效果提升多少，用的什么工具（TensorFlow），分词用的什么工具（jieba），怎么做的新词发现（左右熵互信息），写互信息的公式，为什么互信息可以进行新词发现，原理

4.写SVM常用核函数、LR的公式，损失函数类型，为什么用sigmoid函数进行非线性映射（从二项分布的伯努利方程角度）

5.天池大数据骗保现象的原因，数据比例分布，数据不平衡怎么做，SMOTE采样怎么做的，SMOTE原理，采样完的比例分布，用的算法（RF、xgboost），

6.评估指标，P、R、F1，还有哪些（ROC曲线，AUC值），为什么不平衡时用AUC，怎么算，代表含义，F值的公式，还有没有其他的F值。

7.KNN原理，kd树的构建与搜索，讲原理，还有没有其他的树结构能实现kd树的效果

8.Apriori关联规则怎么做的，原理介绍

9.代码题：从1-1000中找到缺失的值（用字典），一堆乱序数中找到第k大的数（快排或堆排序，如何实现，复杂度为多少klogn）,传统快排复杂度，

10.代码题：读取文件（一行一个，有顺序a-z），统计元素词频

百度数据挖掘二面2018.9.20

1. 自我介绍

2. 科研项目（汽车之家）具体介绍，如何选取特征，进行文本分类过程、关联规则、语义kmeans聚类，原理；出租车轨迹数据的项目怎么做的(特征提取过程、用到的算法)

3. 都用哪些聚类算法（kmeans、层次聚类、谱聚类、dbscan、fast clustering、psla、lda），详细介绍密度峰值聚类算法，原理及运用，适用情况，优点，并介绍lda，画出原理图，讲思想与如何求解lda(gibbs采样或变分EM算法)，为什么lda要用dirichlet分布，其他分布不行吗（dirichlet与多项式分布为共轭分布，即先验分布与似然分布求得的后验分布与先验分布是同种形式，故可将此次的后验作为下一次的先验），还有没有其他的共轭分布（beta和二项式分布）

4. SVM多分类怎么做到的（OVR、OVO、层次SVM），分析各自的特点

5. Word2vec原理，CBOW与Skip_gram，二者不同，传统使用softmax全连接的计算工作量大，改进方法层级softmax，负抽样，各自的原理，如何进行梯度上升迭代（过程类似LR），哈夫曼树的叶子结点概率怎么算，节点如何进行分裂的，最终所有叶子结点的概率和是否等于1，在使用过程中，负抽样使用多还是层级softmax多，为什么（负抽样，计算简单），哈夫曼树是如何构建出来的

6. 改进现有的分类算法、聚类算法等，提出一种新算法，从哪个角度切入（讲了感知机到SVM的改进，GBDT到xgb的改进，kmeans到结合语义的改进）以及从梯度优化的角度，提高迭代速度（梯度下降到牛顿法、拟牛顿法、SGD、MBGD，动量，NAG，自适应的Adagrad、RMSprop、Adam），问了Adam的特点，xgb的改进点

7. 实习经历，上线的产品在没在用等

8. 代码题：归并排序

百度机器学习三面2018.9.26

1.自我介绍，谈专业

2.挑比赛项目实习介绍，从头至尾讲背景、数据特点、用的算法、如何改进、优化过程、优化效果、最终排名

3.为什么把CNN结构放到LSTM之前，效果为什么比单独使用LSTM差，为什么不考虑CNN+LSTM+CNN，论文里提到CNN对单字特征提取效果较好（没考虑到，再调整）

4.分词时用的什么工具，引入互信息与左右熵的方法，考虑内部聚合度和外部聚合度，从而决定是否进行切分，从而实现新词发现，提高分词精度。

5.对于不平衡数据如何处理：上采样，下采样，分配权重，SMOTE采样的过程。

6.从头至尾介绍垃圾邮件识别的过程，从数据获取至生成报告，重点考察思考问题的广度，数据不平衡时怎么办（如数据量很大时怎么处理，数据量小时怎么处理，如何将文本数据转化为特征向量，用什么方法，对于邮件的标题及正文是否进行相同的处理，权重是否相同，如何找到关键特征等），数据特征维度远高于数据量时，从样本采样、向量维度降维、分类算法的重新选择三方面改进，尽量多考虑系统性设计的思想

7.面试官建议：夯实基本功，算法原理、数据结构、代码功底线上C++线下python，hadoop等工具，tf等框架的使用等，第二提高系统思维，从解决问题角度从头至尾分析，第三，了解业务方面。

7.华为（口头offer，放弃）

由于实习签了华为，由于导师不放就弃了，保留终面，面华为由于没赶上时间，去到的时候只剩开发岗了，只好面了，面的时候才知道面试官是做硬件的…额，索性运气不错，面试官给了A+（可能是听不懂我讲的是啥吧，尴尬ing），直接过，推荐北京去面ssp。

华为开发/硬件/算法面2018.9.21

1. 自我介绍，岗位意向到底是算法还是开发（算法）

2. 百度情感极性判别大赛经历，问题背景+数据介绍+计算机问题（文本多分类），分别使用传统机器学习的方法（BOW+SVM/RF/GBDT），深度学习的方法（word2vec+LSTM+cnn），大致介绍每个算法的适用性+最终结果

3. 实习+科研项目（汽车之家），涉及到的数据（问题库、原因库、解决方法库），分别对数据库的***作（汽车部件+失效模式抽取，人机料法环测—文本多分类、文本聚类），最终上线产品实际使用情况，和宝马总部怎么分配的

4. 科研项目（出租车轨迹数据）提取完特征之后做什么用（精准投放广告，怎么评判广告投放效果及收益）

5. 聊部门，聊华为、聊5G、聊开发与算法……

渣硕，大佬勿喷，后续继续学习，争取摘掉渣渣的帽子-.-

#秋招##面经##百度##科大讯飞##华为##算法工程师##网易#