面试一开始,没让我自我介绍,直接技术问题的提问。第一个问题是:为什么在二分类任务中不用均方误差(MSE),而是使用交叉熵(cross entropy)?如果用于多分类训练,该如何处理?问了关于batch normalization的问题:在训练和推理过程中,batch normalization有什么不同?然后让我证明一个数学命题:任意大于3的两个相差2的质数,它们之间的数是6的倍数。手撕代码,题目是:给定一个数组,在其中一个位置划分成两个数组,求这两个数组方差之和的最大值。感觉面试官专业水平似乎一般,对一些概念的理解也不够深入。他不清楚multiple cross entropy的具体含义,...