字节 算法 一二三面 面经
一面:
1. QK的放缩因子
2. decoder的mask层是如何设计的
3. 为什么需要多头注意力
4. transformer的Position-wise Feed-Forward Networks为什么需要降维升维。
5. 过拟合、欠拟合怎么处理
笔试:[1,2,3,4,54,56,5] 不能相隔偷,最多能投多少
2. decoder的mask层是如何设计的
3. 为什么需要多头注意力
4. transformer的Position-wise Feed-Forward Networks为什么需要降维升维。
5. 过拟合、欠拟合怎么处理
笔试:[1,2,3,4,54,56,5] 不能相隔偷,最多能投多少
二面:
1.encoder层介绍一下。
2.dropout介绍一下,训练和推理有什么区别。
3.dropout、normalazation、激活函数的先后顺序。
三面:
先笔试:
括号匹配,三数之和组合数
1.MMoE伪代码
2.attention,相关系数,交叉熵伪代码
3.loss weight调参的经验
4.attention的踩坑经验
5.不确定性加权怎么做,为什么不work。
许愿HR面!!许愿!!!