惯例:自我介绍+讲项目 考察问题: 介绍下transformer(语言组织不好,虽然知道原理但是讲的很乱) 为什么需要multi head attention 介绍下layernorm和batchnorm 为什么layernorm在NLP下有效,batchnorm则不是? pytorch的model.train()和model.eval()的区别 介绍一下集成学习 算法题:二维网格求左上到右下的最小路径和,用动态规划