智谱 GLM预训练 二面

询问项目:
预训练数据清洗流程
爬虫数据来源
数据挖掘流程
继续预训练策略选择
评测集是怎么合成的
数据配比对模型能力的提升
大模型与小模型之间的scaling law
图文模型怎么收集数据,怎么制作评测集,怎么数据增强

八股问了
1F1B的流程,解决了dreampipe什么问题
microbatch的意义
空泡时间怎么算
zero123的区别
如果是3D并行zero最多开多少,如果开到2会怎么样

他们好像很想要提前实习,从一面到二面一直在提。

一天后约HR面。
#牛客创作赏金赛#
全部评论
跟并行训练杠上了啊
点赞 回复 分享
发布于 09-20 13:46 北京
请问一面和二面之间相差几天?面试不满意的话会有通知吗?谢谢
点赞 回复 分享
发布于 09-25 12:57 美国

相关推荐

09-11 19:36
已编辑
门头沟学院 算法工程师
mamazi00:智谱是这样的,对大家的经历都不太感兴趣,尤其是如果只做过sft的基本就不用浪费时间投递了。
点赞 评论 收藏
分享
6 6 评论
分享
牛客网
牛客企业服务