字节 大模型算法 一二三面 面经

不得不说字节效率真高

一面
拷打论文
transformer和llama的LN有什么区别,手写RMSNorm
FFN有什么不同,写Relu和SwiGLU
数据清洗流程
质量过滤用什么模型
PPL公式是什么
BERT的预训练任务、embedding
讲讲位置编码
你认为好的prompt的范式是什么
开放性问题:端到端的大模型和多个小模型,各自的优缺点是什么
手撕:两道easy
当天约面

二面
拷打论文
介绍模型
数据清洗流程
采用什么样的策略、什么样的数据才会便于模型学习
数据配比能说下思路吗
主流LLM模型结构设计有什么特点
如何评估LLM
训LLM最大的困难是什么
前沿LLM有了解哪些
工具调用怎么实现
国内LLM有了解哪些
LLM推理能力的天花板现在是什么程度
无手撕
面我1h,口干舌燥
当天约面

三面
问硬件、硬件利用率
讲讲deepspeed几个阶段,分别分片什么、代价是什么
模型训练时间如何估计
DP和DDP的区别
最多用过多少张卡
训练过程如何做模型监控
数据配比怎么量化才是一个好的方案
讲一下预训练数据处理
预训练和SFT如何评估
encoder-decoder、encoder、decoder区别
讲一下文本输入大模型到输出的过程
decoding策略
大模型结构有哪些变化
拷打论文
手撕:cross-attention

部门就不开盒了,仅供参考
另外,秋招真是太耽误打游戏了
不说了,猿神,启动!
全部评论
这个 RMS NORM 和 reliable swilu 手写是写代码还是公式呀
2 回复 分享
发布于 08-21 01:52 北京
字节的一面还是这么爱问八股😄
2 回复 分享
发布于 08-21 11:39 北京
天翼云科技有限公司
校招火热招聘中
官网直投
猜是电商
2 回复 分享
发布于 08-21 23:32 黑龙江
请问是电商吗
点赞 回复 分享
发布于 08-21 14:46 广东
几天速通啊佬😂
点赞 回复 分享
发布于 08-21 21:10 北京
太强了
点赞 回复 分享
发布于 08-21 23:12 广东
优秀
点赞 回复 分享
发布于 08-23 18:40 北京
代码占比大吗,感觉除了手撕部分,其他都蛮简单😂,手撕估计得稍微看下底层源码了
点赞 回复 分享
发布于 08-24 10:16 广东
求问prompt范式是什么
点赞 回复 分享
发布于 08-26 20:40 天津
请问质量过滤是用什么模型呢
点赞 回复 分享
发布于 08-27 23:07 上海
数据配比这个怎么答呀
点赞 回复 分享
发布于 09-04 21:02 北京

相关推荐

44 214 评论
分享
牛客网
牛客企业服务