字节跳动 算法工程师 一二面凉经
一面
时长:1h
1.自我介绍
2.项目拷打,其中提到了常见的激活函数
3.手撕:self-attention,写完代码后根据代码问问题
1)bert中随机mask了一些词,在代码中是如何体现的
2)代码中e的x次方特别大的时候,模型不是很平滑,这个时候怎么处理?
3)你那样处理为什么不会影响最终的结果?
反问
1)部门业务?直播的图文生成,内容理解
2)看重校招生的什么能力?思考能力和学习能力
3)我还需要加强什么能力?涉及面评,后续再说
二面
时长:1h
1.自我介绍
2.项目拷打
3.拷打八股:
1)尽可能介绍transformer结构
2)decoder的输入有哪些?
3)decoder的attention和encoder的有什么不同?
4)decoder在训练和推理的时候有什么不同?
5)推理策略有哪些?
6)top-k,top-p,温度参数做了些什么?
7)温度T怎么实现的?为什么这样做能达到这种效果?T是怎么影响这个差异的?
8)你怎么看待长距离依赖?
9)如果位置编码按照1 2 3 4 5这样编码会出现什么问题?现在主流的位置编码有哪些?
10)常见的分词方式?
4.反问
面试官很忙,中间两次打断说有事要处理,问了一个我的实习没听懂,然后拷打八股,无手撕,今天就收到感谢信了
话说二面挂了还有机会打复活赛吗
时长:1h
1.自我介绍
2.项目拷打,其中提到了常见的激活函数
3.手撕:self-attention,写完代码后根据代码问问题
1)bert中随机mask了一些词,在代码中是如何体现的
2)代码中e的x次方特别大的时候,模型不是很平滑,这个时候怎么处理?
3)你那样处理为什么不会影响最终的结果?
反问
1)部门业务?直播的图文生成,内容理解
2)看重校招生的什么能力?思考能力和学习能力
3)我还需要加强什么能力?涉及面评,后续再说
二面
时长:1h
1.自我介绍
2.项目拷打
3.拷打八股:
1)尽可能介绍transformer结构
2)decoder的输入有哪些?
3)decoder的attention和encoder的有什么不同?
4)decoder在训练和推理的时候有什么不同?
5)推理策略有哪些?
6)top-k,top-p,温度参数做了些什么?
7)温度T怎么实现的?为什么这样做能达到这种效果?T是怎么影响这个差异的?
8)你怎么看待长距离依赖?
9)如果位置编码按照1 2 3 4 5这样编码会出现什么问题?现在主流的位置编码有哪些?
10)常见的分词方式?
4.反问
面试官很忙,中间两次打断说有事要处理,问了一个我的实习没听懂,然后拷打八股,无手撕,今天就收到感谢信了
话说二面挂了还有机会打复活赛吗
全部评论
字节只要面评没事就可以无限复活
transformer问的好细啊
l
佬,能问下二面结束,多长时间收到感谢信吗?我二面完一直没消息,大概率是无了
是LLM岗吗
我去,我一个都答不上来
没事,我字节搜推都7面了
没事 我都面了快十次了 123面都挂过 会一直捞
相关推荐