京东技术一面大模型
一面 HR,这是二面,技术一面。
面试官人很好,聊了很久,总结一下问题吧。
1.自我介绍
2.项目介绍
3.你这个 prompt 是怎么调整的?
4.你如何评估你们这个效果呢?(我从数据评估和模型评估两方面讲)
5.你们的训练数据怎么构造的?用的什么格式?
6.全参微调训练一次多久?
7.主要是 SFT 吗?没考虑强化学习?
8.你觉得为什么现在大模型都是 only decoder?有什么好处?
9.lora 做过吗?讲一下原理
10.lora 你对哪些层次加 adapter?怎么定的?print model 看吗?(面试官后面说对不同层加 lora 效果影响还蛮大的,不仅仅是参数大小)
11. 对训练精度了解吗?(fp16 bf16 我讲的不太对,这部分不是很记得了,要复习一下)
12.attention 里面的注意力分数是什么?为什么要 Q 乘以 Kt?什么含义?
13. 位置编码了解吗?讲一下
代码题:类似于 topk 但是不要求复杂度,更像是数据处理场景题。
反问:聊了很多,面试官人确实很好,泪目。只能说面试确实看缘分。
面试官人很好,聊了很久,总结一下问题吧。
1.自我介绍
2.项目介绍
3.你这个 prompt 是怎么调整的?
4.你如何评估你们这个效果呢?(我从数据评估和模型评估两方面讲)
5.你们的训练数据怎么构造的?用的什么格式?
6.全参微调训练一次多久?
7.主要是 SFT 吗?没考虑强化学习?
8.你觉得为什么现在大模型都是 only decoder?有什么好处?
9.lora 做过吗?讲一下原理
10.lora 你对哪些层次加 adapter?怎么定的?print model 看吗?(面试官后面说对不同层加 lora 效果影响还蛮大的,不仅仅是参数大小)
11. 对训练精度了解吗?(fp16 bf16 我讲的不太对,这部分不是很记得了,要复习一下)
12.attention 里面的注意力分数是什么?为什么要 Q 乘以 Kt?什么含义?
13. 位置编码了解吗?讲一下
代码题:类似于 topk 但是不要求复杂度,更像是数据处理场景题。
反问:聊了很多,面试官人确实很好,泪目。只能说面试确实看缘分。
全部评论
请问一面结果大概多久出的呀
东子一面是HR面么,为什么邮件通知一面都安排到了10号了
我勒个豆,咱俩好像一样,我二面也是这个岗
相关推荐
OfferJiaYi:9.22线下面,没消息+1
点赞 评论 收藏
分享
投递淘天集团等公司10个岗位
点赞 评论 收藏
分享