字节 大模型算法 一二三面 面经
不得不说字节效率真高
一面
拷打论文
transformer和llama的LN有什么区别,手写RMSNorm
FFN有什么不同,写Relu和SwiGLU
数据清洗流程
质量过滤用什么模型
PPL公式是什么
BERT的预训练任务、embedding
讲讲位置编码
你认为好的prompt的范式是什么
开放性问题:端到端的大模型和多个小模型,各自的优缺点是什么
手撕:两道easy
当天约面
二面
拷打论文
介绍模型
数据清洗流程
采用什么样的策略、什么样的数据才会便于模型学习
数据配比能说下思路吗
主流LLM模型结构设计有什么特点
如何评估LLM
训LLM最大的困难是什么
前沿LLM有了解哪些
工具调用怎么实现
国内LLM有了解哪些
LLM推理能力的天花板现在是什么程度
无手撕
面我1h,口干舌燥
当天约面
三面
问硬件、硬件利用率
讲讲deepspeed几个阶段,分别分片什么、代价是什么
模型训练时间如何估计
DP和DDP的区别
最多用过多少张卡
训练过程如何做模型监控
数据配比怎么量化才是一个好的方案
讲一下预训练数据处理
预训练和SFT如何评估
encoder-decoder、encoder、decoder区别
讲一下文本输入大模型到输出的过程
decoding策略
大模型结构有哪些变化
拷打论文
手撕:cross-attention
部门就不开盒了,仅供参考
另外,秋招真是太耽误打游戏了
不说了,猿神,启动!
一面
拷打论文
transformer和llama的LN有什么区别,手写RMSNorm
FFN有什么不同,写Relu和SwiGLU
数据清洗流程
质量过滤用什么模型
PPL公式是什么
BERT的预训练任务、embedding
讲讲位置编码
你认为好的prompt的范式是什么
开放性问题:端到端的大模型和多个小模型,各自的优缺点是什么
手撕:两道easy
当天约面
二面
拷打论文
介绍模型
数据清洗流程
采用什么样的策略、什么样的数据才会便于模型学习
数据配比能说下思路吗
主流LLM模型结构设计有什么特点
如何评估LLM
训LLM最大的困难是什么
前沿LLM有了解哪些
工具调用怎么实现
国内LLM有了解哪些
LLM推理能力的天花板现在是什么程度
无手撕
面我1h,口干舌燥
当天约面
三面
问硬件、硬件利用率
讲讲deepspeed几个阶段,分别分片什么、代价是什么
模型训练时间如何估计
DP和DDP的区别
最多用过多少张卡
训练过程如何做模型监控
数据配比怎么量化才是一个好的方案
讲一下预训练数据处理
预训练和SFT如何评估
encoder-decoder、encoder、decoder区别
讲一下文本输入大模型到输出的过程
decoding策略
大模型结构有哪些变化
拷打论文
手撕:cross-attention
部门就不开盒了,仅供参考
另外,秋招真是太耽误打游戏了
不说了,猿神,启动!
全部评论
这个 RMS NORM 和 reliable swilu 手写是写代码还是公式呀
字节的一面还是这么爱问八股😄
猜是电商
请问是电商吗
几天速通啊佬😂
太强了
优秀
代码占比大吗,感觉除了手撕部分,其他都蛮简单😂,手撕估计得稍微看下底层源码了
求问prompt范式是什么
数据配比这个怎么答呀
主流LLM模型结构设计有什么特点
这个怎么回答呀,大佬?
想问一下:LLM推理能力的天花板现在是什么程度
这个怎么回答好一些呀
相关推荐
11-04 15:36
复旦大学 资产管理 点赞 评论 收藏
分享