顶顶
点赞 2

相关推荐

一面时长:1h1.自我介绍2.项目拷打,其中提到了常见的激活函数3.手撕:self-attention,写完代码后根据代码问问题    1)bert中随机mask了一些词,在代码中是如何体现的    2)代码中e的x次方特别大的时候,模型不是很平滑,这个时候怎么处理?    3)你那样处理为什么不会影响最终的结果?反问    1)部门业务?直播的图文生成,内容理解    2)看重校招生的什么能力?思考能力和学习能力    3)我还需要加强什么能力?涉及面评,后续再说二面时长:1h1.自我介绍2.项目拷打3.拷打八股:    1)尽可能介绍transformer结构    2)decoder的输入有哪些?    3)decoder的attention和encoder的有什么不同?    4)decoder在训练和推理的时候有什么不同?    5)推理策略有哪些?    6)top-k,top-p,温度参数做了些什么?    7)温度T怎么实现的?为什么这样做能达到这种效果?T是怎么影响这个差异的?    8)你怎么看待长距离依赖?    9)如果位置编码按照1 2 3 4 5这样编码会出现什么问题?现在主流的位置编码有哪些?    10)常见的分词方式?4.反问面试官很忙,中间两次打断说有事要处理,问了一个我的实习没听懂,然后拷打八股,无手撕,今天就收到感谢信了话说二面挂了还有机会打复活赛吗
点赞 评论 收藏
分享
牛客网
牛客企业服务