拼多多武汉开奖了(NLP面经)
感谢拼多多offer call 昨天美团一面面自闭了,今天时来运转,终于消灭0offer了,来反馈下牛客。
说下自己情况,本科传播学(二学位计算机),底子不太好,研究生转到本校计算机,但是是专硕,没实习没论文,在实验室做NLP但是也是实验室的边缘小组,氛围很差,自己也只有一个项目和一个kaggle比赛(kaggle比赛还没牌子),一度以为自己要失业了。
所以呢,没有实习和论文还做算法的朋友也不要丧气,把基础知识答好,深挖自己简历上的每一个细节点,总会上岸的。这两天还有很多笔试面试,一起加油!
一面 HR:
查户口
二面:
- 讲项目怎么做的,针对项目提了不少问题,label怎么获得的,loss的形式等
- 说说你理解的LSTM(RNN到LSTM 讲LSTM的缺点,引出transformer)
- 讲transformer如何并行化运算,self-attention和普通seq2seq的attention区别
- LSTM如何调参
- 讲一下DSSM(CNN-DSSM,LSTM-DSSM,负样本)
- 看你写了多种方式组合词向量,怎么个组合法(相加和连接,讲了一下证明这两个效果差不多的论文)
- 文本匹配的一些像ESIM的模型了解吗(不了解,这方向不是我做的)
- 说一下词嵌入,讲了word2vec,层级softmax和负采样这些,和fasttext词向量做了比较,面试官看我在kaggle比赛里面组合了glove和fasttext词向量,问我glove,glove的推导太绕了,我只说了共现矩阵(这里实际上可以答得更多,后来看了glove的推导觉得也没那么绕,并且我还有一些自己的想法)
- HMM和CRF的区别(抛弃了HMM的两个假设,然后判别式和生成式什么的)
- lstm+CRF层中CRF的作用
- 机器学习哪些算法了解吗(说boost)
- Adaboost,gbdt,xgboost,从损失函数,基学习器,训练方式等方面说明,写了xgboost的泰勒展开
- Gbdt是怎么选择特征的,答借助于CART树模型进行选择,类似于ID3,C4,5用信息增益和信息增益率。GBDT还可以构建特征什么的
- 写一个堆排序
三面: - 讲项目怎么做的(这次主要问的kaggle)
- 讲了下数据的问题,自定义损失函数,文本预处理,一些模型优化这些
- 数据不平衡怎么做(这里我只从数据的角度来讲了,从数据量是否充足和正负样本比例来讲,但是应该还从模型和评测的指标来讲的,菜了)
- 讲一下beam_search吧。讲完之后还说了下beam search的优化,除以长度平均每个词的概率,diverse beam_search啥的
- 代码题,Pattern 匹配 判断字符串S是否匹配Pattern (如’abbc’) 我开始说构建一个字典,同时遍历S和P,但是会出现两个字符同时代表一个S中的字母,遂加了个set对S中出现过的字符串进行记录