作业帮提前批 解题方向 二面面经
1.自我介绍
2.拷打实习
3.给一个huggingface的模型的config算一下我下载下来需要多少磁盘空间(就是假设一下模型的结构,层数,维度什么的都用参数代替,算一下参数量,再转实际大小)
4.前向推理的时候,attention的计算量/时间复杂度(简单的给分析了一下,算了个大概)
5.softmax的时间复杂度
6.flash attention计算的时候为什么每个块都要减去最大值(这块答的不太对,我确实没仔细思考过这个问题)
7.实习有没有做LLM 强化学习的研究/实验(答基本上研究DPO系列了,比较方便应用,学校项目训练过RM)
8.手撕 给定严格递增序列,求最大斐波那契子序列的长度
面试官感觉水平挺高的,今天感觉回答的不是很好,整体有点磕绊,希望能过吧,孩子真的很需要第一个offer
-------------
更新,刚写完这篇打电话约HR面了,我去第一次秒过!
2.拷打实习
3.给一个huggingface的模型的config算一下我下载下来需要多少磁盘空间(就是假设一下模型的结构,层数,维度什么的都用参数代替,算一下参数量,再转实际大小)
4.前向推理的时候,attention的计算量/时间复杂度(简单的给分析了一下,算了个大概)
5.softmax的时间复杂度
6.flash attention计算的时候为什么每个块都要减去最大值(这块答的不太对,我确实没仔细思考过这个问题)
7.实习有没有做LLM 强化学习的研究/实验(答基本上研究DPO系列了,比较方便应用,学校项目训练过RM)
8.手撕 给定严格递增序列,求最大斐波那契子序列的长度
面试官感觉水平挺高的,今天感觉回答的不是很好,整体有点磕绊,希望能过吧,孩子真的很需要第一个offer
-------------
更新,刚写完这篇打电话约HR面了,我去第一次秒过!
全部评论
我超,***了,经提醒,才发现面试官其实就是想问为什么softmax要减去最大值,为了防止值溢出,确实是常规softmax实现的时候都操作,我一直在想为什么flash attention要这样操作,淦!
问 flash att 是因为简历上有吗? 我都没咋复习过推理训练框架相关的东西。今天刚作业帮 HR 面完。
校友赢麻了
相关推荐