6.26一面:1.自我介绍2.介绍论文(数据集,输入,输出,模型架构,评测指标,创新点,motivation)3.transformer比rnn/lstm这些有什么好处?除了并行计算还有呢4. decoder和encoder有什么区别5. QKV怎么来的,除了selfattention还有什么attention?4.prompt为什么在大模型中起作用5.手撕:查找有序数组中小于k的最大索引(k=2, [0,1,2,3,4,5]=>result=1)6.28二面:1. 两个地点,有一些位置和名称还有其他信息,设计模型(模型架构+损失函数+训练方法)来判断是否它俩的距离远近2. (x,y)地点位置怎么embedding?3.归一化有哪几种?为什么要归一化4.sigmoid进入饱和区梯度变化值小,怎么解决5.多标签分类任务的损失函数怎么设计?6.手撕:字符串的排列发面经 dream一个oc更新一下:7.3催了一下 7.4部门面试官发了offer message ?加了微信 7.6正式邮件offer啦#滴滴#