智谱大模型应用三面
昨天三面推到了今天,面试官比较忙。
1.自我介绍
2.聊了一会蚂蚁的实习,联邦学习安全之类的,说了一下落地难的情况,面试官感觉对这个也是有了解的,以前面试官基本上都是跳过这个 hh。
3.聊暑期实习的项目。聊了一会。
问我前两面做了题没有,我说没有。
1. 写一个 self atten, 只需要写 forward
触发八股为什么要除以根号 dk?不能是 dk?或者其他的吗?
多头是头越多越好还是越少越好?
头越多计算越快还是越少越快?
2.最长公共子串
反问了
1.自我介绍
2.聊了一会蚂蚁的实习,联邦学习安全之类的,说了一下落地难的情况,面试官感觉对这个也是有了解的,以前面试官基本上都是跳过这个 hh。
3.聊暑期实习的项目。聊了一会。
问我前两面做了题没有,我说没有。
1. 写一个 self atten, 只需要写 forward
触发八股为什么要除以根号 dk?不能是 dk?或者其他的吗?
多头是头越多越好还是越少越好?
头越多计算越快还是越少越快?
2.最长公共子串
反问了
全部评论
还没思考过头多少跟计算快慢的问题,头多了可以并行计算,所以快?🤔
佬,你智谱这边怎么样了,我这边四轮技术面好像是你的面试官,你现在啥状态呀?
相关推荐