智谱 GLM预训练 二面
询问项目:
预训练数据清洗流程
爬虫数据来源
数据挖掘流程
继续预训练策略选择
评测集是怎么合成的
数据配比对模型能力的提升
大模型与小模型之间的scaling law
图文模型怎么收集数据,怎么制作评测集,怎么数据增强
八股问了
1F1B的流程,解决了dreampipe什么问题
microbatch的意义
空泡时间怎么算
zero123的区别
如果是3D并行zero最多开多少,如果开到2会怎么样
他们好像很想要提前实习,从一面到二面一直在提。
一天后约HR面。
#牛客创作赏金赛#
预训练数据清洗流程
爬虫数据来源
数据挖掘流程
继续预训练策略选择
评测集是怎么合成的
数据配比对模型能力的提升
大模型与小模型之间的scaling law
图文模型怎么收集数据,怎么制作评测集,怎么数据增强
八股问了
1F1B的流程,解决了dreampipe什么问题
microbatch的意义
空泡时间怎么算
zero123的区别
如果是3D并行zero最多开多少,如果开到2会怎么样
他们好像很想要提前实习,从一面到二面一直在提。
一天后约HR面。
#牛客创作赏金赛#
全部评论
跟并行训练杠上了啊
请问一面和二面之间相差几天?面试不满意的话会有通知吗?谢谢
相关推荐
mamazi00:智谱是这样的,对大家的经历都不太感兴趣,尤其是如果只做过sft的基本就不用浪费时间投递了。
点赞 评论 收藏
分享