上海电信一面
#电信# 邮件说的只面十分钟,我以为是hr面,都准备进去吹牛逼了,结果是技术面。
2~3分钟自我介绍,讲研究方向,讲实习,讲论文。
然后问了一些宽泛的问题
1.简单讲下bert(我感觉光掰扯bert掰扯不出来啥,结合gpt这种解码器模型对比说明bert这种编码器模型区别)
2.为啥bert的mask比例是15%,其他的不行吗(最抽象的问题,不会回答,给他掰扯了一下mask的比例,这15%的mask有80%会被mask,10%会被随机替换,剩下的10%不动)
3.transform和cnn区别(大概是掰扯权值共享,参数量区别,局部和全局特征提取,顺便掰扯了一下transformer参数量大产生了模型的涌现)
4.大模型微调用过吗(我说我就用过lora,其他的没用过,顺便掰扯了一下预训练的内容凑时常)
然后时间到了,没有反问,让我等邮件,过了有邮件通知
2~3分钟自我介绍,讲研究方向,讲实习,讲论文。
然后问了一些宽泛的问题
1.简单讲下bert(我感觉光掰扯bert掰扯不出来啥,结合gpt这种解码器模型对比说明bert这种编码器模型区别)
2.为啥bert的mask比例是15%,其他的不行吗(最抽象的问题,不会回答,给他掰扯了一下mask的比例,这15%的mask有80%会被mask,10%会被随机替换,剩下的10%不动)
3.transform和cnn区别(大概是掰扯权值共享,参数量区别,局部和全局特征提取,顺便掰扯了一下transformer参数量大产生了模型的涌现)
4.大模型微调用过吗(我说我就用过lora,其他的没用过,顺便掰扯了一下预训练的内容凑时常)
然后时间到了,没有反问,让我等邮件,过了有邮件通知
全部评论
哦还问了大模型幻觉问题,我说我项目就是解决这个问题的,然后讲了下rag(检索增强生存)
相关推荐
11-08 14:46
门头沟学院 Java 点赞 评论 收藏
分享