瞳zoe level
获赞
808
粉丝
208
关注
12
看过 TA
6709
上海交通大学
2025
算法工程师
IP属地:上海
暂未填写个人简介
私信
关注
guda0327:95 100 14,第一题不知道为啥有5%运行错误?很迷惑
投递华为等公司10个岗位
0 点赞 评论 收藏
分享
王淳平:笔试完第二天早上8点直接发感谢信,现在2个志愿都挂了
投递蚂蚁集团等公司10个岗位
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
一面时长:1h1.自我介绍2.项目拷打,其中提到了常见的激活函数3.手撕:self-attention,写完代码后根据代码问问题    1)bert中随机mask了一些词,在代码中是如何体现的    2)代码中e的x次方特别大的时候,模型不是很平滑,这个时候怎么处理?    3)你那样处理为什么不会影响最终的结果?反问    1)部门业务?直播的图文生成,内容理解    2)看重校招生的什么能力?思考能力和学习能力    3)我还需要加强什么能力?涉及面评,后续再说二面时长:1h1.自我介绍2.项目拷打3.拷打八股:    1)尽可能介绍transformer结构    2)decoder的输入有哪些?    3)decoder的attention和encoder的有什么不同?    4)decoder在训练和推理的时候有什么不同?    5)推理策略有哪些?    6)top-k,top-p,温度参数做了些什么?    7)温度T怎么实现的?为什么这样做能达到这种效果?T是怎么影响这个差异的?    8)你怎么看待长距离依赖?    9)如果位置编码按照1 2 3 4 5这样编码会出现什么问题?现在主流的位置编码有哪些?    10)常见的分词方式?4.反问面试官很忙,中间两次打断说有事要处理,问了一个我的实习没听懂,然后拷打八股,无手撕,今天就收到感谢信了话说二面挂了还有机会打复活赛吗
0 点赞 评论 收藏
分享
泡了一个半月终于约面了时长:1h1.自我介绍(面试官看我简历不太匹配问我为什么投)2.项目拷打,涉及到的八股:    1)模型中用了什么优化器?常见的优化器有哪些?sgd和adam的区别是?    2)训练模型的过程中,训练集、验证集、测试集的作用是什么?    3)模型中用到了resnet和注意力机制,介绍一下    4)resnet中残差是怎么实现的?    5)自注意力机制中为什么要除以根号dk?(基本上每个面试官都问到了)    6)哪些方法可以避免梯度消失和梯度爆炸?    7)sigmod靠近0和1是什么意思?    8)droupout如何防止梯度消失和梯度爆炸    9)relu函数存在什么问题?如何改进?3.之后问了我会的语言,继续拷打八股    1)c++中的传参方式?(值,引用,指针)引用和指针的区别?    2)python中的传参更接近哪种?    3)常见的数据结构?    4)数组和链表的区别?    5)提到了哈希表,在python中对应什么?    6)python的数据类型?    7)列表和元组的区别?    8)列表和字典访问value的时候有什么区别?复杂度是多少?4.反问:    1)部门内容:推理优化还有个啥来着没听清    2)介意没有相关背景的同学吗?介意,但是更看重基础    3)后续流程:3-4轮面试,具体问HR
查看21道真题和解析
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务