字节大模型一面面经(强度真高!!
面试问题:
- 聊聊对transformer的理解,整体结构是怎样的?几个部分组成
- Attention的公式里为什么要除以根号dk?这个操作有什么作用?另外,为什么在训练过程中容易出现梯度消失或梯度爆炸的问题?
- (针对简历提问)在sft中遇到了哪些问题?最后是怎么解决的?能不能分享一下你的经验?(好好好套方案?)
- (针对简历提问)领域大模型数据配比是如何考虑的?不同领域的数据比例如何确定?
- 为什么现在的LLM都是Decoder-only?这种结构有什么优势?
- ADAM优化器比SGD好在哪?简单介绍一下梯度下降的原理,ADAM是怎么改进的?
。。。
代码题:
- 给定一个互不相同的整数数组 nums,求其所有子集(幂集)。(类似leetcode78)
- (第二个题好像是个字符串的题,忘了)
- 聊聊对transformer的理解,整体结构是怎样的?几个部分组成
- Attention的公式里为什么要除以根号dk?这个操作有什么作用?另外,为什么在训练过程中容易出现梯度消失或梯度爆炸的问题?
- (针对简历提问)在sft中遇到了哪些问题?最后是怎么解决的?能不能分享一下你的经验?(好好好套方案?)
- (针对简历提问)领域大模型数据配比是如何考虑的?不同领域的数据比例如何确定?
- 为什么现在的LLM都是Decoder-only?这种结构有什么优势?
- ADAM优化器比SGD好在哪?简单介绍一下梯度下降的原理,ADAM是怎么改进的?
。。。
代码题:
- 给定一个互不相同的整数数组 nums,求其所有子集(幂集)。(类似leetcode78)
- (第二个题好像是个字符串的题,忘了)
全部评论
感觉还行,是暑期吗?
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享