2021实习算法的一点面经
个人不是很喜欢记录,写代码都很少写注释,所以将就看一下,参考吧。
个人介绍:名字很长院校211本硕,统计专业。
无实习,kaggle上两个比赛,没有好成绩,跟着导师在在线学习有点研究,没有论文。掌握机器学习和深度学习中NLP的相关知识
3月底开始,投了BAT和字节、快手、美团。四月京东、网易,携程和其他
字节、快手估计投早了,没有笔试和面试;
美团笔试题没做好,一直在池子里;携程要全部出来才有结果,当时不知道做了1.8/2就玩去了。
腾讯一面,还没做笔试,方向是音频;后来做了笔试,也没有再被捞起来。
百度两面,也是题没做好(当场回溯不会),基础不牢(lr推导失败),方向是进去后再选。
阿里三面,领导面的时候被问到了奇怪的点,后面就全崩了。淘宝特价版,推荐方向
网易一面,方向是虚拟电商平台交易,好像也是推荐。
京东两面+HR,貌似深圳大部分都被刷了,大概不缺人吧。方向据说是纯NLP
武汉两家小企业,都是面试后很快有结果,一个NLP的协助做项目,一个机器学习方向做预测。
最后估计要去oppo做推荐了,只有一面,应该能进(hr已经联系)
总体感觉就是阿里缺人,所以进度走的很快,一天一面,但是可惜吧;
百度很正式,每面都可以做题,感受不错;
腾讯很看面试部门吧,第一场面试面的腾讯,确实也没有很好的准备。
美团还是要做题,笔试太早,不了解情况。
京东希望下次能有岗位,网易考察了统计的一些点。
——————下面是一些面试的记录,肯定不全,仅供参考————————
腾讯一面
问了一点模型,整体
position encoder做什么用
有没有外部数据集
文本分类如何做的
encoder部分产生特征的作用
输出是什么
机器学习中有哪些分类算法
贝叶斯学派和统计学派区别
特征值分解,SVD如何实际用
因子模型和主成分差别
朴素贝叶斯,为什么朴素
正则化方法有哪些
预测销量怎么做的
gru能不能用gpu
公司做的语音识别
百度公司一面和二面
不会的问题:
1.LR现场推导目标函数和梯度
注意p和1-p先求导
2.GBDT和XGBOOST差别
A:利用二阶信息;处理缺失值;弱分类器选择;列抽样和行抽样;正则项做预剪枝,并行化处理(特征排序等)
3.Batch Normalization 缺点
A:batch太小,会造成波动大;对于文本数据,不同有效长度问题;测试集上两个数据均值和方差差别很大就不合适了
附:LN是对一个样本的一个时间步上的数据进行减均除标准差,然后再回放(参数学习)对应到普通线性回归就是一层节点求均除标准差。
4.分词如何做
基于规则(超大词表);基于统计(两字同时出现越多,就越可能是词);基于网络LSTM+CRF词性标注,也可以分词
5.softmax值太小
计算非张量,所以计算量很大
6.Adam缺点
后期梯度很小,几乎不动了,没有SGD好,前期快是优点;泛化能力不强,
其他想到的:
1.各类优化算法sgd等
2.各类激活函数优缺点(非中心化,梯度消失,神经元死亡,幂计算量比较大)
3.各种分类算法
4.有哪些attention方法
1-100
扩张性(lr能做但是xgboost不能做)
京东:
从左往右升序,从上往下升序,找到那个值
bagging和boosting
rnn,lstm,gru区别
大数据方向:
groupbykey,reducebykey,combinebykey
groupbykey按照key来分成group
reducebykey按照key来进行操作combFunc
aggregateByKey按照key操作,多了一个zerovalue
combinebykey每个分区计数,不同分区再计数
udf函数?
数据倾斜问题解决?https://zhuanlan.zhihu.com/p/64240857
什么是数据倾斜?在shuffle操作时,按照key进行value的输出、拉取和聚合
对于有的key需要分配reduce task来处理,但是太多了,所以某些task处理很慢
1.哪里会出现shuffle,groupByKey、countByKey、reduceByKey、join
对于拿到的hive数据,本身就是key|value1,value2,value3,不再有shuffle操作,直接map
2.聚合数据,用的粒度粗一点,不要直接80w计算,而是多分几个类型再聚合
3.指定shuffle的并行度,给任务大的task多一些worker
4.小数据和大数据做的时候,小数据复制很多份
网上参考NLP链接:
1.rnn真的就梯度消失了吗?
2.lstm到底解决了什么?解决了梯度消失?
3.LSTM三种门以及sigmoid函数对每个门的作用
4.Self-attention的Query,Key,Value分别是什么
5.Slef-attention的乘法计算和加法计算有什么区别?什么时候乘比较好,什么时候加?为什么要除以一个根号?
6.LSTM中各模块分别使用什么激活函数,可以使用别的激活函数码?
7.多头注意力机制的原理是什么?
8.Transformer用的是哪种attention机制?
9.画一下Transformer结构图
10.word2vector 如何做负采样?是在全局采样?还是在batch采样?如何实现多batch采样?怎么确保采样不会采到正样本?word2vector负采样时为什么要对频率做3/4次方?
11.W2V经过霍夫曼或者负采样之后,模型与原模型相比,是等价的还是相似的?
12.介绍一下sigmoid 和 relu,relu有什么缺点?
13.深层神经网络为什么不好训?除了梯度消失还有哪些原因?
京东二面:
1.负采样
2.分层softmax
3.预测还是训练
网易一面:
GBDT优化是怎么做的,梯度下降如何做选择
虚拟电商平台
#2021届秋招进度交流##算法工程师##面经##实习##腾讯##百度##京东##网易#问了一点模型,整体
position encoder做什么用
有没有外部数据集
文本分类如何做的
encoder部分产生特征的作用
输出是什么
机器学习中有哪些分类算法
贝叶斯学派和统计学派区别
特征值分解,SVD如何实际用
因子模型和主成分差别
朴素贝叶斯,为什么朴素
正则化方法有哪些
预测销量怎么做的
gru能不能用gpu
公司做的语音识别
百度公司一面和二面
不会的问题:
1.LR现场推导目标函数和梯度
注意p和1-p先求导
2.GBDT和XGBOOST差别
A:利用二阶信息;处理缺失值;弱分类器选择;列抽样和行抽样;正则项做预剪枝,并行化处理(特征排序等)
3.Batch Normalization 缺点
A:batch太小,会造成波动大;对于文本数据,不同有效长度问题;测试集上两个数据均值和方差差别很大就不合适了
附:LN是对一个样本的一个时间步上的数据进行减均除标准差,然后再回放(参数学习)对应到普通线性回归就是一层节点求均除标准差。
4.分词如何做
基于规则(超大词表);基于统计(两字同时出现越多,就越可能是词);基于网络LSTM+CRF词性标注,也可以分词
5.softmax值太小
计算非张量,所以计算量很大
6.Adam缺点
后期梯度很小,几乎不动了,没有SGD好,前期快是优点;泛化能力不强,
其他想到的:
1.各类优化算法sgd等
2.各类激活函数优缺点(非中心化,梯度消失,神经元死亡,幂计算量比较大)
3.各种分类算法
4.有哪些attention方法
1-100
扩张性(lr能做但是xgboost不能做)
京东:
从左往右升序,从上往下升序,找到那个值
bagging和boosting
rnn,lstm,gru区别
大数据方向:
groupbykey,reducebykey,combinebykey
groupbykey按照key来分成group
reducebykey按照key来进行操作combFunc
aggregateByKey按照key操作,多了一个zerovalue
combinebykey每个分区计数,不同分区再计数
udf函数?
数据倾斜问题解决?https://zhuanlan.zhihu.com/p/64240857
什么是数据倾斜?在shuffle操作时,按照key进行value的输出、拉取和聚合
对于有的key需要分配reduce task来处理,但是太多了,所以某些task处理很慢
1.哪里会出现shuffle,groupByKey、countByKey、reduceByKey、join
对于拿到的hive数据,本身就是key|value1,value2,value3,不再有shuffle操作,直接map
2.聚合数据,用的粒度粗一点,不要直接80w计算,而是多分几个类型再聚合
3.指定shuffle的并行度,给任务大的task多一些worker
4.小数据和大数据做的时候,小数据复制很多份
网上参考NLP链接:
1.rnn真的就梯度消失了吗?
2.lstm到底解决了什么?解决了梯度消失?
3.LSTM三种门以及sigmoid函数对每个门的作用
4.Self-attention的Query,Key,Value分别是什么
5.Slef-attention的乘法计算和加法计算有什么区别?什么时候乘比较好,什么时候加?为什么要除以一个根号?
6.LSTM中各模块分别使用什么激活函数,可以使用别的激活函数码?
7.多头注意力机制的原理是什么?
8.Transformer用的是哪种attention机制?
9.画一下Transformer结构图
10.word2vector 如何做负采样?是在全局采样?还是在batch采样?如何实现多batch采样?怎么确保采样不会采到正样本?word2vector负采样时为什么要对频率做3/4次方?
11.W2V经过霍夫曼或者负采样之后,模型与原模型相比,是等价的还是相似的?
12.介绍一下sigmoid 和 relu,relu有什么缺点?
13.深层神经网络为什么不好训?除了梯度消失还有哪些原因?
京东二面:
1.负采样
2.分层softmax
3.预测还是训练
网易一面:
GBDT优化是怎么做的,梯度下降如何做选择
虚拟电商平台