【一面】1. word2vec的原理,skip-gram训练的具体流程,使用的损失函数,是怎么选择正负样本的,选择样本上有哪些优化算法,负采样的原理,还有哪些优化方法2. 贝叶斯调优,机器学习中有哪些优化参数的方法,为什么交叉熵会作为softmax结果的损失函数?梯度下降为什么有效,关于损失求一阶导数为什么有效?刚你提到了泰勒一阶展开,泰勒二阶展开有哪些相关的优化方法呢?3. SGD的原理,计算公式是什么,4. 在图的那个项目中担任了什么角色,做出了哪些贡献5. 介绍一下LSTM,seq2seq和transformer,介绍一下attention的原理6. Linux,bash这些有用过吗7. auc的计算方式(使用(FPR,TPR)算,排序公式去算),为什么这两种都可以计算出auc呢?它们之间有什么联系?然后就是使用sql写出auc的计算公式8. 有1000部电影,想要给人推荐,你有什么思路9. 手撕:接雨水,使用sql写auc【二面】1. cnn做bn的方式,rnn是怎么做的,bn的好处2. gpt和transformer的区别3. 机器学习中方差和偏差的理解4. bagging和boosting的区别5. 位置编码的理解,attention的理解6. transformer和rnn的区别7. lstm为什么可以缓解梯度消失8. 异构图,GCN,word2vec,fasttext,9. SGD和adam的区别,在DNN中分别适用于什么样的情形10. 用过哪些DNN模型,11. 贝叶斯在推荐中的应用12. bagging和boosting的方法有哪些13. 手撕:三数之和,柱状图中的最大矩形面积【三面】1. 会C和C++吗2. 数据结构的掌握程度3. 平常使用的技术栈有哪些4. 对推荐的了解5. 有哪些召回算法6. 对于推荐中排序的理解7. 排序算法,稳定性和时间复杂度8. 互联网每天都有很多用户搜索数据,在一天的日志中找到搜索频次最高的10个query,怎么实现(topk问题,使用堆)9. 堆排序稳定吗,时间复杂度(刚才在回答排序算法的时候,没有说到堆排序)10. 搜索的词条补全 是根据什么数据结构实现11. 现有的春招推进情况12. base地点倾向许愿许愿!!!