10.14更新,已经挂了 一面,全程30分钟,主要问项目,稍微问了点八股 手撕:1~20的阶乘和 追问:如果要加上算0的阶乘,你怎么算 面试官1 实习拷打 大模型的基本结构 说了Transformer 结构:encoder、decoder embedding、多头注意、norm、前向反馈、输入输出 RNN与Transformer的区别是什么?序列长度呢? 梯度消失与梯度爆炸 Pytorch与TensorFlow区别 损失函数用过哪些? L1、L2、MSE、二元分类交叉熵 写一下二元分类交叉熵的公式 面试官2 RNN与LSTM的关系与区别 LSTM 结构,详细...