金山办公9.26一面 一个半小时自我介绍项目,两个都问了transformer mask如何实现,位置在哪 无限小self attention结构bert和gpt区别如果没有位置编码二者哪个可能能输出正确结果多核跑python脚本是多线程还是多进程bn原理及实现pytorch 的data模块的dataloader dataset samlpe怎么实现及联动大模型了解多少对于一个样本极度不均衡的数据,比如正负1:10000,如何设计方法,从数据,采样,模型三个方面解释手撕算法,难度应该是中10.12 二面 72分钟自我介绍介绍项目 为什么用bert + bilstm + crf 直接用bert微调行不行负采样除了全局负采样还有什么采样方式(不会)RLHF 原理CRF原理位置编码公式为什么位置编码要用sin cos(我就答了周期性和有界性,也不会啊呜呜)bert 的MASK在预测阶段怎么变化LSTM对比RNN有哪些方面的提升fasttext 对比 word2vec有哪些提升(忘了..)深度学习出来之前的语言模型了解过没,就说了个隐马感觉要寄了,祈祷一波hr