已决定签百度凤巢,秋招结束,回馈牛客,一波面经
科大一面2018.7.23
1.自我介绍
2.项目,百度点石,传统机器学习怎么做的,深度学习又是怎么做的,F1提升了多少,语料库怎么扩展的,爬虫扩展,扩展后效果提升了多少,是机器学习转化为深度学习对实验的提升多,还是语料库扩展的影响多
3.LSTM原理与流程,从dnn到rnn到lstm的转变,lstm的三个门控是如何设计的,具体的计算,上一时刻保留的加本时刻更新的传递给输出门,lstm如何解决梯度弥散的问题,为什么相乘变成相加就能解决
4.项目是怎么分工的,个人职责是什么
科大二面2018.8.3
1.自我介绍,项目详细做的,工作职责,任务分配,smart的特征怎么提取的,包含哪几方面,有没有进行模型改进,创新点是啥
2.百度比赛怎么做的,机器学习和深度学习都用了哪些算法,哪个效果最好,lstm的流程,具体实现是用的框架还是什么,优化函数与方法用的哪些进行训练,调参怎么调,adam原理
3.Word2vec原理,损失函数,怎么优化,怎么训练模型的,用的什么语料库,如何扩充的
4.出租车轨迹数据的项目是怎么做的,用的什么方法
2.银联(数据挖掘offer)
银联一面+二面2018.8.4
1.一面无领导小组,对互联网金融的几个因素进行危害性排序,中庸之道,不多说,不少说即可;
2.二面项目简历介绍
3.天池大数据怎么进行特征提取的,与业务相关,效果如何
4.汽车论坛文本挖掘的分工与任务调配是怎样的,在项目中的职责,如何处理矛盾的,个人意愿,薪资
5.两个技术性问题python中search和match区别(match从开头查找匹配,没有返回none,但search全局查找,没有返回0),c语言中sizeof和strlen区别(前者是单目运算符,求数据类型所占空间大小,后者为函数,求字符串长度)
3.阿里(挂)
阿里神马搜索一面2018.7.27
1.自我介绍,项目介绍
2.word2vec原理,cbow+skip-gram,采用softmax计算输出概率,为了减少计算量,采用层级sofemax即哈夫曼树以及负抽样方法改进,其中哈夫曼树的流程,叶子结点,跟节点,节点都代表了什么,为什么利用哈夫曼树,近的更便于找到,贪心思想,并且复杂度降低,哈夫曼树二分类,左右树怎么分的,为什么左为负1,右为正0,能不能换,可以换,只是一种定义,层级softmax不用可不可以,正常的softmax也可以,计算量亿万级而已
3.F1计算公式,BOW,tfidf的意义,对前沿论文的了解程度,pagerank与倒排索引,svm原理与推导,sas比赛
4.司机行为特征提取,用了什么方法,science上fast密度峰值聚类
5.在线编程,最长回文子串,冒泡排序,反序字符串
6.智力题,一根绳子剪三段,构成三角形概率,1/8,不均匀硬币,如何使之公平,连续两次正或者连续两次反不算,只考虑一正一反,即p(1-p)
阿里神马搜索二面2018.8.14
1.自我介绍3分钟
2.SVM和gbdt区别,介绍了svm和gbdt原理,从集成学习角度讲的,gbdt为什么效果比svm效果好,能够构建高度非线性的分类函数,而svm采用rgb核函数人工固定核函数,后调节参数,gbdt不也要调参数吗,都有哪些参数需要调节,
3.与Gbdt相似的方法有哪些,rf,adaboost,xgboost,分别讲了区别与联系,其中xgboost用了列抽样,为什么列抽样就能防止过拟合,会不会lightgbm
4.深度学习了解哪些算法(dnn,rnn,lstm),对embedding了解么,嵌入式处理,word2vec?
5.算法编程,铺地板1xn铺1*1和1*2的地板,多少种方法,利用迭代,f(n)=f(n-1)+f(n-2),有序数组,有一个元素出现次数超过数组长度的一半,找到这个元素,二分查找,再二分前半部分,后半部分不需要再次二分查找,只需要利用索引,得到后半部分对应位置的值,
阿里神马搜索三面2018.8.16
1.比赛:直接问项目,百度情感极性大赛怎么做的,流程思想等,用到的机器学习方法,怎么选特征,怎么分词,怎么构建用户词典,深度学习中用了什么,word2vec原理与思想,层级softmax与负采样的思想,负采样是随机采样的吗,会不会抽到同一个? LSTM的思想,门控消除梯度弥散,遗忘门输入门输出门等,传统DNN怎么改进梯度弥散的现象,更换激活函数ReLU,初始化参数,还有其他的方法么?加入BN层
2.项目:出租车LED广告投放,都做了什么,乘客的特征怎么提取,司机的怎么提取,都用了什么方法,功能区怎么划分与标注的(人工),一个地方出现多个功能区怎么办?加入模糊思想,构造隶属度函数,最后怎么进行广告投放的。
3.概率题:甲乙两人比赛,赢的概率分别为p和1-p,假定连续两次赢才算获胜,那最后甲获胜的概率为多大?考虑两种情况,第一种,甲直接两局获胜了,第二种,甲乙各赢了一次,重新回到开始状态,2p*(1-p)情况下重新开始游戏,迭代得到最终结果。
4.360(挂)
360大数据中心机器学习一面 2018.8.22
1.自我介绍
2.问比赛:百度点石情感极性判别,传统机器学习方法,改进深度学习方法,如何选取特征,只是利用了词语?分词怎么做的,自己调用的库还是api接口,分词精度怎么样,用户词典怎么构建的(左右熵互信息找新词),为什么不加入词性的判定(情感词大多为形容词副词等),传统机器学习方法效果不好时,怎么调节与改进?
word2vec维度怎么选的(窗口大小为5,设置为随机效果更好),有没有自己实现word2vec,在使用lstm训练时,用的框架还是自己实现的,网络设置了多少层,为什么?每一层都是什么含义,都调节了哪些参数,最后效果怎样。
3.问项目:汽车质量问题,怎么进行的文本分类,都选了哪些特征,不词汇特征怎么做的(BOW),算法用了哪些?
360搜索算法一面2018.8.24
1.自我介绍
2.讲项目,百度比赛怎么做的,特征怎么选的
3.找实现的机器id,哈希查找,字典,如何优化
4.写快排代码
360搜索算法二面2018.8.24
1.自我介绍
2.写开根号的函数
3.概率分布P(B>A)
5.网易云音乐(无hc,莫名挂)
网易机器学习一面2018.8.28
1.自我介绍
2.项目比赛课程怎么权衡,项目介绍
3.写SVM推导公式
4.概率题,54张扑克牌,分三堆,其中4张A在同一堆的概率
6.百度(凤巢算法offer)
百度数据挖掘一面2018.9.19
1.自我介绍
2.介绍项目:背景及数据类型特点,文本多分类问题,用的算法(SVM、RF、GBDT),效果如何,哪个算法效果最好,bagging和boosting区别,
3.深入学习怎么做的:word2vec怎么训练的,有没有没有得到的词向量,比例多少,word2vec原理,LSTM+CNN怎么做的,谁前谁后,为什么,效果提升多少,用的什么工具(TensorFlow),分词用的什么工具(jieba),怎么做的新词发现(左右熵互信息),写互信息的公式,为什么互信息可以进行新词发现,原理
4.写SVM常用核函数、LR的公式,损失函数类型,为什么用sigmoid函数进行非线性映射(从二项分布的伯努利方程角度)
5.天池大数据骗保现象的原因,数据比例分布,数据不平衡怎么做,SMOTE采样怎么做的,SMOTE原理,采样完的比例分布,用的算法(RF、xgboost),
6.评估指标,P、R、F1,还有哪些(ROC曲线,AUC值),为什么不平衡时用AUC,怎么算,代表含义,F值的公式,还有没有其他的F值。
7.KNN原理,kd树的构建与搜索,讲原理,还有没有其他的树结构能实现kd树的效果
8.Apriori关联规则怎么做的,原理介绍
9.代码题:从1-1000中找到缺失的值(用字典),一堆乱序数中找到第k大的数(快排或堆排序,如何实现,复杂度为多少klogn),传统快排复杂度,
百度数据挖掘二面2018.9.20
1. 自我介绍
2. 科研项目(汽车之家)具体介绍,如何选取特征,进行文本分类过程、关联规则、语义kmeans聚类,原理;出租车轨迹数据的项目怎么做的(特征提取过程、用到的算法)
3. 都用哪些聚类算法(kmeans、层次聚类、谱聚类、dbscan、fast clustering、psla、lda),详细介绍密度峰值聚类算法,原理及运用,适用情况,优点,并介绍lda,画出原理图,讲思想与如何求解lda(gibbs采样或变分EM算法),为什么lda要用dirichlet分布,其他分布不行吗(dirichlet与多项式分布为共轭分布,即先验分布与似然分布求得的后验分布与先验分布是同种形式,故可将此次的后验作为下一次的先验),还有没有其他的共轭分布(beta和二项式分布)
4. SVM多分类怎么做到的(OVR、OVO、层次SVM),分析各自的特点
5. Word2vec原理,CBOW与Skip_gram,二者不同,传统使用softmax全连接的计算工作量大,改进方法层级softmax,负抽样,各自的原理,如何进行梯度上升迭代(过程类似LR),哈夫曼树的叶子结点概率怎么算,节点如何进行分裂的,最终所有叶子结点的概率和是否等于1,在使用过程中,负抽样使用多还是层级softmax多,为什么(负抽样,计算简单),哈夫曼树是如何构建出来的
6. 改进现有的分类算法、聚类算法等,提出一种新算法,从哪个角度切入(讲了感知机到SVM的改进,GBDT到xgb的改进,kmeans到结合语义的改进)以及从梯度优化的角度,提高迭代速度(梯度下降到牛顿法、拟牛顿法、SGD、MBGD,动量,NAG,自适应的Adagrad、RMSprop、Adam),问了Adam的特点,xgb的改进点
7. 实习经历,上线的产品在没在用等
百度机器学习三面2018.9.26
1.自我介绍,谈专业
2.挑比赛项目实习介绍,从头至尾讲背景、数据特点、用的算法、如何改进、优化过程、优化效果、最终排名
3.为什么把CNN结构放到LSTM之前,效果为什么比单独使用LSTM差,为什么不考虑CNN+LSTM+CNN,论文里提到CNN对单字特征提取效果较好(没考虑到,再调整)
4.分词时用的什么工具,引入互信息与左右熵的方法,考虑内部聚合度和外部聚合度,从而决定是否进行切分,从而实现新词发现,提高分词精度。
5.对于不平衡数据如何处理:上采样,下采样,分配权重,SMOTE采样的过程。
6.从头至尾介绍垃圾邮件识别的过程,从数据获取至生成报告,重点考察思考问题的广度,数据不平衡时怎么办(如数据量很大时怎么处理,数据量小时怎么处理,如何将文本数据转化为特征向量,用什么方法,对于邮件的标题及正文是否进行相同的处理,权重是否相同,如何找到关键特征等),数据特征维度远高于数据量时,从样本采样、向量维度降维、分类算法的重新选择三方面改进,尽量多考虑系统性设计的思想
7.面试官建议:夯实基本功,算法原理、数据结构、代码功底线上C++线下python,hadoop等工具,tf等框架的使用等,第二提高系统思维,从解决问题角度从头至尾分析,第三,了解业务方面。
华为开发/硬件/算法面2018.9.21
1. 自我介绍,岗位意向到底是算法还是开发(算法)
2. 百度情感极性判别大赛经历,问题背景+数据介绍+计算机问题(文本多分类),分别使用传统机器学习的方法(BOW+SVM/RF/GBDT),深度学习的方法(word2vec+LSTM+cnn),大致介绍每个算法的适用性+最终结果
3. 实习+科研项目(汽车之家),涉及到的数据(问题库、原因库、解决方法库),分别对数据库的***作(汽车部件+失效模式抽取,人机料法环测—文本多分类、文本聚类),最终上线产品实际使用情况,和宝马总部怎么分配的
4. 科研项目(出租车轨迹数据)提取完特征之后做什么用(精准投放广告,怎么评判广告投放效果及收益)
5. 聊部门,聊华为、聊5G、聊开发与算法……
渣硕,大佬勿喷,后续继续学习,争取摘掉渣渣的帽子-.-
#秋招##面经##百度##科大讯飞##华为##算法工程师##网易#