蒋豆芽

2021-08-10 11:58 已编辑五邑大学 C++

关注

payphone_lx-阿里妈妈-面经——解答

从今天起，豆芽有空也尽己所能，帮助一下大家。

面经来源：https://www.nowcoder.com/discuss/702074?source_id=discuss_experience_nctrack&channel=-1

1. 牛顿法和拟牛顿法介绍一下

牛顿法可由二阶泰勒展开求导可近似得到牛顿法迭代公式： $x_{n+1}=x_n-\frac{f(x_n)}{f^{'}(x_n)}$

但是在实际应用过程中，我们会发现海塞矩阵的逆矩阵往往计算比较复杂，于是又有了拟牛顿法来简化这一过程。

在拟牛顿法中，考虑优化出一个n阶矩阵D来代替海塞矩阵的逆矩阵。可以发现海塞矩阵逆矩阵的近似矩阵D(x)的选择条件比较灵活，可以有多种具体的实现方法。比较常用的算法是DFP算法替代海塞矩阵逆矩阵的迭代公式

2. 有哪些优化方法使用了二阶动量？

Adagrad法、Adadelta法、RMSProp法、Adam法

3. 描述一下过拟合现象

过拟合：训练集效果很好，测试集效果较差

欠拟合：训练集效果差，测试集效果也差。

4. 抑制过拟合的方法有哪些？

扩充数据集、l1、l2，dropout、BN、验证集、模型集成

5. 介绍一下BatchNorm。

BN（Batch Normolization）是Google提出的用于解决深度网络梯度消失和梯度爆炸的问题，可以起到一定的正则化作用。我们来说一下它的原理：

批规范化，即在模型每次随机梯度下降训练时，通过mini-batch来对每一层卷积的输出做规范化操作，使得结果（各个维度）的均值为0，方差为1。

BN操作共分为四步。输入为 $x_i$ ，第一步计算均值：

$\mu_{\beta} = \frac{1}{m} \sum_{i=1}^m x_i \\ \tag{.}$

第二步计算数据方差：

$\sigma_{\beta}^2 = \frac{1}{m} \sum_{i=1}^m (x_i-\mu_{\beta})^2 \\ \tag{.}$

第三步进行规范化：

$x_i^* = \frac{x_i-\mu_{\beta}}{\sqrt{\sigma_{\beta}^2 +\epsilon}} \\ \tag{.}$

第四步尺度变换和偏移：

$y_i = \gamma \cdot x_i^* + \beta = BN_{\gamma,\beta}(x_i) \\ \tag{.}$

$m$ 表示mini-batch中的数据个数，可以看出，BN实际就是对网络的每一层都进行白化操作。白化操作是线性的，最后的“尺度变换和偏移”操作是为了让BN能够在线性和非线性之间做一个权衡，而这个偏移的参数 $\gamma$ 和 $\beta$ 是神经网络在训练时学出来的

经过BN操作，网络每一层的输出小值被“拉大”，大值被“缩小”，所以就有效避免了梯度消失和梯度爆炸。总而言之，BN是一个可学习、有参数（γ、β）的网络层。

6. BN在测试阶段使用的mean、var是如何获得的？

训练时，均值和方差针对一个Batch。

测试时，均值和方差针对整个数据集而言。因此，在训练过程中除了正常的前向传播和反向求导之外，我们还要记录每一个Batch的均值和方差，以便训练完成之后按照下式计算整体的均值和方差：

上面简单理解就是：测试模型中，对于均值来说直接计算所有batch $\mu_{\beta}$ 值的平均值；然后对于标准偏差采用每个batch $\sigma_{\beta}$ 的无偏估计（无偏估计是用样本统计量来估计总体参数时的一种无偏推断）。

最后测试阶段，BN的使用公式就是：

以上所有题的答案其实都来源于我的博客面经，欢迎大家围观：https://blog.nowcoder.net/jiangwenbo

#阿里巴巴22届秋招面试##面经##阿里巴巴##算法工程师#

全部评论

推荐最新楼层

下一个我201904261108464

阿里巴巴_测试开发工程师

需要妈妈内推的可以联系我，任何岗位都可以内推

2 回复分享

发布于 2021-08-10 14:28

Egotistic

哈尔滨工程大学 Java

干货满满，蟹蟹楼主~

1 回复分享

发布于 2021-08-10 12:14

beautiful走了

安徽大学 Java

赞！

1 回复分享

发布于 2021-08-10 12:15

我家的狗不咬人

山东大学运营

1 回复分享

发布于 2021-08-10 17:22

时不我待a

门头沟学院项目经理

博主您好，能讲一下L1.L2正则化的区别和适用场景吗？

点赞回复分享

发布于 2021-08-16 20:42

Kekemama

门头沟学院营销

求问楼主阿里妈妈今年秋招什么时候发意向书，等了超过一周了🙏🙏🙏🙏🙏🙏

点赞回复分享

发布于 2021-09-08 06:56

03-11 21:23

美的集团_美的一匹_java实习生(实习员工)

腾讯wxg-一面

查看19道真题和解析牛客在线求职答疑中心牛客创作赏金赛

点赞评论收藏

昨天 18:39

已编辑

哈尔滨工业大学 Java

字节财经面经

3.11 一面 1.http状态码 2.put，post，get，delete区别及使用 3.tcp三次握手原因 4.Mysql事务的特性，实现原理 5.redis的一致性的实现，原理 6.redis实现乐观锁 7.项目拷打：xfg的大营销项目 a.介绍一下项目 b.项目是怎么协作的，协作的过程中有没有遇到问题 c.介绍一下库存扣减过程 d.当库存扣减时，redis中的库存扣减完成了，如果此时系统挂掉了，往mysql同步数据 失败了，怎么办？ e.库存扣减成功后，将中奖信息和task记录写入mysql失败，如何处理？ 8.算法题： LCR 014 字符串的排列 3.13 二面 1....

投递字节跳动等公司10个岗位 >

点赞评论收藏

02-17 02:34

武汉理工大学数据分析师

四段实习秋招0offer，求问方向

Dream_coding：你是不是只投大厂了

点赞评论收藏

昨天 20:40

已编辑

福州大学 Java

淘天电话面面经

简历写了项目，对项目拷打比较多1、自我介绍，询问笔试和测评的情况。2、对项目进行拷打，问项目的功能，部署情况等。3、项目里有哪些实现上的难点？4、项目里的缓存是怎么做的？为什么要做缓存？会出现缓存短时间内大量过期的情况吗？以及缓存三剑客怎么解决。5、你的项目用到了rabbitmq，你知道消息队列一般有什么功能吗？6、项目里的消息队列起了什么作用？7、消息队列有推和拉的模式，有了解过吗？（我表示不是很了解，我用的是消费者主动拉取的模式）8、你觉得推和拉这俩种模式分别可能出现什么问题？9、kafka有了解过吗？和rabbitmq有什么区别？10、你项目提到的这个功能（抢一个库存为1的东西），除了在...

投递淘天集团等公司10个岗位 >

点赞评论收藏

招聘动态

携程集团

25届校招+26届实习

26届实习软件笔试必刷题单

26届【实习】投递合集

26届实习生双选会报名开启

交银金科

2025届春季招聘

满帮集团

2025春季校园招聘

EA China

2026暑期实习招聘

滴滴

2025届春季校园招聘

腾讯音乐娱乐集团

2025实习生招聘

26届简历拷打辅导交流

全站热榜

创作者周榜

正在热议

# 实习/项目/竞赛奖项，哪个对找工作更重要？ #

# 正在春招的你，也参与了去年秋招吗？ #