算法渣硕面经(阿里、腾讯、美团等),攒人品
360浏览器事业部 推荐算法工程师
一面
1.项目
2.关键字怎么提取的,TF-IDF有改进么,怎么改进的
3.命名实体怎么得到的,原理了解
4.LDA的原理是什么,使用了哪个框架
5.狄利克雷分布能具体说说么
6.深度学习了解么
7.RNN LSTM了解么
8.有什么比较熟悉的算法
9.xgboost的原理
10.有10个排好序的数据库,那么我要找整个的中位数,怎么找
11.一个路口,一个小时通过一个车的概率是0.9,那么20分钟内通过车的概率是多少
二面
1.项目
2.SVM原始问题为什么要转化为对偶问题,为什么对偶问题就好求解,原始问题不能求解么
3.K-means 中我想聚成100类 结果发现只能聚成98类,为什么
4.进程中的内存分段是怎样的
5.每个线程有哪些东西是自己独享的
6.一枚不均匀的硬币,我抛了100次,有70次朝上,那么第101次朝上的概率是多少
这个概率怎么样,公示是如何推导出来的
7.给你个字符串,字符串是个数字,怎么转换为int型,不用库函数的话
8.4个海盗,100个金币,每个人轮流提方案,如果你的方案有半数以上通过,那么久可以,否则就会被杀掉,如果你是第一个人,那么你怎么提方案比较好
9.你的优点是什么
............................................................................................................1.先聊了半天项目,从细节创新点,讲到了整体的架构。聊了大概15分钟左右。。
2.GBDT的原理,以及常用的调参的参数
3.xgboost的跟GBDT比优点都有哪些
4.一道SQL题,count(1),count(*),count(列名) 这三个有什么区别
然后问了下什么时候能来实习,实习多久
二面
1.L1、L2正则化,区别
2.项目,长短期兴趣,如何验证,时间敏感
3.文本内容推荐中有哪些内容可以应用到商品团购推荐当中去
4.Xgboost中的行抽样,可以起到哪些作用
5.样本少了不是会过拟合么,为什么行抽样可以防止过拟合
6.算法题,一个数组,找出第k大的数
这些方法的时间复杂度是多少
接下来都是我问他的
算法工程师的工作模式大概是什么
他这边推荐主要是基于传统机器学习还是深度学习
可以不可以将深度学习关于图像方面的东西加入到推荐系统中去
接下来大概还有几次面试
............................................................................................................腾讯IEG安全部门一面(提前批)
你的亮点是什么,你都会什么
1.说一下构建模型的过程
2.特征选择方法都有哪些
3.常用的损失函数和适用场景
4.LR和SVM原理
5.LR和SVM这两个应用起来有什么不同
6.PCA说一下
7.你都会什么聚类方法
8.模型的评价方法有哪些
9.ROC怎么画
10.你知道SoftMax么
11.野指针是什么意思
12.快排的思想是什么
13.Linux中查找符合一定规则的文件名怎么查找,或者用脚本也行
14.C++会不会 虚函数是什么意思
15.我有一个文本,那么我要统计每个词出现的频率,Python上应该怎么做
16.编代码的时候如何申请内存,有哪些方法
腾讯沈阳现场一面
1.项目
2.特征选择方法都有用过哪些
3.随机森林怎么进行特征选择
4.用过哪些机器学习算法
5.加密方法知道哪些
6.MD5可逆么
7.word2vec用过么
8.极大似然估计是什么意思
9.上过哪些课
10.排序算法哪些时间复杂度比较低
11.计算机网络了解多少
20分钟,问题除了加密的部分其他应该都答得还可以
然后出来之后被秒挂了
1.然后介绍了项目的框架和主要创新点;
2.说一下随机森林和Adaboost,以及区别
3.说一下GBDT和Adaboost,以及区别
4.说一下LDA的原理
5.对于PCA,会有第一主成分、第二主成分,怎么为什么第一主成分是第一,原因是什么?
二面
先是简单问了一些关于什么时候可以实习,学校这边的状况如何的问题。
然后开始聊项目,项目聊得比较细,我做了哪些创新点,具体怎么做的,有问题面试官都会追问清楚。
1.说一下SVM
2.聊了一下之前本科的实习经历
3.面向对象的三要素
4.对深度学习了解多少
5.你觉得深度学习的方法和传统机器学习比,有什么大的优势
1.项目
2.当我们要求准确率很高,但是不在意召回率的时候,可以怎样处理。
3.回归算法用于分类的阈值如何确定呢
二面,总监面
这次的二面问的问题都很open,都是一些如何让我的推荐系统可以更好的应用于大数据的实际场景当中去的问题。
首先是一个1分钟的简短的自我介绍。
还是聊项目,创新点,以及系统架构和实现。
1.k-means中的k如何确定呢?
2.除了k-means,还可以用什么聚类方法,或者你还熟悉什么聚类方法
3.层次聚类的话,你又如何判断聚成多少类合适?
............................................................................................................1.用过什么语言,用没用过R,语言都干什么用的
2.朴素贝叶斯原理
3.TF-IDF原理
4.性能评价指标,准确率召回率是怎么回事,二分类 和多分类的评价方法
5.除了推荐方面的东西,你还做过一些别的事情么
6.用过scikit-learn numpy么
7.LDA你是怎么用的,LDA的表现如何,主题分的效果好不好
8.你觉得基于内容的方法和协同过滤有什么不同
9.还有就是一些基本情况了,用没用过数据库啊之类的,数据库用的怎么样 sql会不会
............................................................................................................1.数据库 三范式
2.bagging 和boosting 哪个可以让结果的方差更小一些,为什么?
3.你都知道哪些分类算法
4.bagging 和boosting的区别是什么
5.排序算法都有什么?当一个数据特别乱序的时候使用哪个排序算法更好一些
6.你论文都怎么搜索的,如何保证质量?
7.面向对象 多态 继承 的关系
8.面对大数据量的推荐 应该如何实现
9.说说协同过滤是怎么回事
10.你常用的推荐算法都有什么
11.集成学习为什么要用简单的基学习器,不用一个复杂一点的学习器
先问项目,然后
1.LDA的原理是什么?
5.推荐的时候矩阵一定是稀疏的,对于这个稀疏矩阵应该如何处理?
6.如何从文档中提取关键字?
7.讲一讲tf-idf是什么意思
8.hashmap你用过么,底层是如何实现的?
9.计算机网络你有学过吧,还记得什么么?
10. Android 的生命周期是什么?
11.你用过Python 那么你Python都用过哪些机器学习的库?
主要问的都是项目
手撸代码,不用库函数求一个数的立方根,要求误差小于0.01