作业帮提前批 解题方向 二面面经

1.自我介绍
2.拷打实习

3.给一个huggingface的模型的config算一下我下载下来需要多少磁盘空间(就是假设一下模型的结构,层数,维度什么的都用参数代替,算一下参数量,再转实际大小)
4.前向推理的时候,attention的计算量/时间复杂度(简单的给分析了一下,算了个大概)
5.softmax的时间复杂度
6.flash attention计算的时候为什么每个块都要减去最大值(这块答的不太对,我确实没仔细思考过这个问题
7.实习有没有做LLM 强化学习的研究/实验(答基本上研究DPO系列了,比较方便应用,学校项目训练过RM)

8.手撕 给定严格递增序列,求最大斐波那契子序列的长度

面试官感觉水平挺高的,今天感觉回答的不是很好,整体有点磕绊,希望能过吧,孩子真的很需要第一个offer

-------------
更新,刚写完这篇打电话约HR面了,我去第一次秒过!
全部评论
我超,***了,经提醒,才发现面试官其实就是想问为什么softmax要减去最大值,为了防止值溢出,确实是常规softmax实现的时候都操作,我一直在想为什么flash attention要这样操作,淦!
点赞 回复 分享
发布于 08-19 15:40 北京
问 flash att 是因为简历上有吗? 我都没咋复习过推理训练框架相关的东西。今天刚作业帮 HR 面完。
点赞 回复 分享
发布于 08-19 21:17 北京
校友赢麻了
点赞 回复 分享
发布于 08-23 00:16 江苏

相关推荐

挣K存W养DOG:他真的很中意你,为什么不回他
点赞 评论 收藏
分享
3 17 评论
分享
牛客网
牛客企业服务