2023-06-18 10:42 知乎_产品

关注

Day58：反向传播与优化算法

alt

在上一节中，我们介绍了全连接神经网络，也完成了搭建任务。但是这样的矩阵参数并不能达到我们的要求，因此这一节中我们就讲一讲优化算法。在深度神经网络中，反向传播算法是一种用于优化网络参数的关键算法。它通过计算损失函数对每个参数的梯度，然后使用梯度下降或其他优化算法来更新参数，以最小化损失函数。

1. 数学推导

反向传播算法的数学推导涉及到链式法则和梯度计算。下面是反向传播算法的算法步骤：

步骤1：前向传播计算每一层的输出。
步骤2：计算输出层的损失函数关于输出的梯度。
步骤3：使用链式法则逐层计算每个参数的梯度。
步骤4：使用梯度下降或其他优化算法更新参数。

详细的推导过程如下：

假设我们有一个具有L层的神经网络，每一层的输出为 $a^{[l]}$ ，参数为 $W^{[l]}$ 和 $b^{[l]}$ ，损失函数为 $L$ 。

在前向传播中，我们根据当前的参数计算每一层的输出： $Z^{[l]} = W^{[l]} \cdot A^{[l-1]} + b^{[l]}A^{[l]} = g^{[l]}(Z^{[l]})$

其中， $g^{[l]} ()$ 表示第l层的激活函数。

在反向传播中，我们首先计算输出层的梯度： $dZ^{[L]} = \frac{\partial L}{\partial A^{[L]}} \cdot g'^{[L]}(Z^{[L]})$

然后，使用链式法则逐层计算每个参数的梯度： $dW^{[l]} = \frac{1}{m} dZ^{[l]} \cdot A^{[l-1]T}db^{[l]} = \frac{1}{m} \sum_{i=1}^{m} dZ^{[l]}dA^{[l-1]} = W^{[l]T} \cdot dZ^{[l]}$

其中，m表示训练样本的数量。

最后，使用梯度下降或其他优化算法更新参数：

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大模型-AI小册文章被收录于专栏

1. AI爱好者，爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生，给实验室搬砖的uu，强烈建议你花时间学完这个，后续搬砖比较猛 4. 任何对编程感兴趣的，且愿意掌握一门技能的人

全部评论

推荐最新楼层

昨天 14:13

中南大学 C++

双非秋招0 offer，真该放弃C++吗？是转行做测试还是考公？

今天给大家分享的是一位粉丝的提问，双非秋招0 offer，真该放弃C++吗？是转行做测试还是考公？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：我是江苏大学(双非)控制工程硕士，本科食品科学与工程，走的cpp方向，第一个项目主要是Linux环境下开发的客户端服务器之间的一个数据安全传输的项目，使用到了套接字通信，protobuf,base64以及openssl,以及qt编写的客户端信息的管理工具;第二个项目就是纯qt开发的云存储浏览器，就是一个本地客户端工具,实现了登录，存储桶的增删改查以及云存储对象下载和上传等功能我秋招用这两个项目没找...

投递深信服等公司10个岗位 > 计算机就业职业规划辅导考公VS就业，你怎么选？

点赞评论收藏

昨天 15:32

顺丰集团_大数据挖掘与分析工程师(准入职员工)

顺丰内推顺丰面经

顺丰前端面经base：武汉一面时长：27min自我介绍实习、负责内容与收获挑一个能体现能力的需求说为什么换实习、不转正如何学习前端项目是否上线、人员配比说说原型和原型链Object.porotype 的父级是什么，porotype 上有什么属性跨域问题如何解决TS 内置映射类型用过哪些一个类型要取出某些字段如何实现说说 TS 的泛型说说哈希表，什么情况使用对顺丰的了解反问面试流程：听 hr 安排部门业务：有许多业务板块，本质都属于物流领域的某个环节，协作关系，app、小程序、微前端、pc、h5、bff、低代码、可视化都有技术栈：React、Vue 为主，看部门二面时长：34min自我介绍说说前...

点赞评论收藏

01-30 14:23

浙江工业大学 Java

求内推 没工作了我😭

牛客965593684号：非985,211院校还是不要标注了.....虽然浙工确实很牛逼。字体调一下。

点赞评论收藏

2024-12-29 15:37

已编辑

西华大学图像识别

各位大佬帮小弟瞅瞅，这个简历能去大厂实习吗

程序员牛肉：去不了，大厂算法卡学历吧

点赞评论收藏

昨天 15:40

已编辑

Fibocom广和通_助理工程师(准入职员工)

嵌入式操作系统（五）

目录：1.你了解IO模型吗？请你介绍一下？2.BIO、NIO有什么区别？3.Reactor、Proactor模式是什么？有什么区别？4.你了解socket中select、epoll吗？请你说说区别？5.linux零拷贝的原理？内容：1.你了解IO模型吗？请你介绍一下？阻塞IO：调用IO操作时，程序会阻塞（即等待），调用者期间什么 也不做，不停检查这个函数有没有返回，必须等待这个函数返回后才能进行下一个动作。但可能导致程序在等待IO操作时效率低下。非阻塞IO：IO操作会立即返回，如果数据不可用，程序会继续执行，不会等待。程序可以通过轮询来检查IO操作是否完成，但需要手动管理数据的状态和进程调度。...

嵌入式/C++八股

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 运营人的第一份offer应该如何选 #

102941次浏览 963人参与

# 硬件/芯片公司工作体验 #

55217次浏览 548人参与