一面面经 30min 自我介绍 问项目 为什么项目中采用了albert,不是用bert,albert怎么实现降低参数量,除了Albert还了解其他根据bert改进的模型吗 bert的效果为什么那么好?(mask机制) transformer跟bert在position embedding上有什么区别 了解GPT吗,讲一下 CRF跟HMM的区别,CRF的损失函数是什么 数据不均衡怎么解决 了解textCNN吗,为什么可以在NLP领域取得成功 了解过模型压缩方面的吗(没有) 讲一下attention机制,有哪几种attention机...