四月很多面试都推掉了,所以只面了两个厂,字节和虹软。顺便问下,华为暑期实习不推进的话会影响秋招吗?字节一面:自我介绍分类和回归常见的损失函数? 逻辑斯蒂,hingeloss,l1,BCE,focal等等BCE的公式是什么,和KL散度的关系和区别? 一部分log的系数不一样selfattention的原理和过程为什么selfattention能注意该注意的地方,你能数学证明出来吗? 我能证明不就去发论文了。。关于时序预测的论文,应用背景是什么、有其他用diffusion做时序预测的模型吗有落地产出吗?我说这是篇论文。。如果batch内的数据对不齐怎么办?我说一定能对齐。。机器学习了解吗?集成树模...