tengxunyun一面自用
一个项目+八股+代码
八股:
1.gpt和bert在文本表示上的区别,都侧重哪类任务
2.高效微调方法有哪些,介绍lora原理
3.为什么transformers结构比lstm在长程依赖上效果更好
4.微调后模型复读的原因,如何解决
5.区分sft和强化学习,介绍ppo
6.梯度下降是什么
7.如何优化有信息更新的rag,如法律法规rag
8.梯度消失和梯度爆炸是什么,为什么出现,怎么解决(查了一下,发现这个知识点很细)
问了挺多的,其余的不记得了,有大佬可以补充
代码题:带有优先级的括号匹配
一天出结果,一面挂(废废😢)
八股:
1.gpt和bert在文本表示上的区别,都侧重哪类任务
2.高效微调方法有哪些,介绍lora原理
3.为什么transformers结构比lstm在长程依赖上效果更好
4.微调后模型复读的原因,如何解决
5.区分sft和强化学习,介绍ppo
6.梯度下降是什么
7.如何优化有信息更新的rag,如法律法规rag
8.梯度消失和梯度爆炸是什么,为什么出现,怎么解决(查了一下,发现这个知识点很细)
问了挺多的,其余的不记得了,有大佬可以补充
代码题:带有优先级的括号匹配
一天出结果,一面挂(废废😢)
全部评论
相关推荐
点赞 评论 收藏
分享