10.25 镁佳(北京)科技有限公司—一面14:001.Dropout机制2.Self-attention中的计算方法3.Kv/squr(t)为什么要除以squr(t)4.为什么要有position embedding5.如何解决decoder-attention中无法看到后面信息的问题:mask matrix6.Bert主要用来干什么?Next sentence perdiction 和 Mask 位置填补总体来说就是死扣transformer编码题:二分查找用2个栈实现队列10.25 镁佳(北京)科技有限公司—二面17:00查看CPU使用情况:top(实时监控工具)查看端口占用情况:netstat -tuln # -tuln:列出所有监听的 TCP 和 UDP 端口显示系统内存的总量、已用量、空闲量以及缓存和缓冲区的使用情况:free -h查看GPU使用情况:nvidia-smi特别细致地提问上一段的经历,算法让我输入每一步骤的输入和输出logistic回归:y=1/(1+e(wx+b) 其中y也可以表示成P(X编码题:将列表中的0元素,其他按正常的顺序排列,提到列表前面10.27 货拉拉——一面11:00询问项目经历聚类方法K means支持向量机对过拟合的理解,以及如何解决过拟合。编码题:快速排序(找基准的那个排序方法)感觉货拉拉的面试还是挺中规中矩的