深度学习:第三章 概率与信息论
概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明(statement)的公理。在人工智能领域,概率论主要有两种用途。首先,概率法则告诉我们AI 系统如何推理,据此我们设计=一些算法来计算或者估算由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI 系统的行为。
几乎所有的活动都需要一些在不确定性存在的情况下进行推理的能力。事实上,除了那些被定义为真的数学声明,我们很难认定某个命题是千真万确的或者确保某件事一定会发生。
不确定性有三种可能的来源:
1、被建模系统内在的随机性。例如,大多数量子力学的解释,都将亚原子粒子的动力学描述为概率的。我们还可以创建一些我们假设具有随机动态的理论情境,例如一个假想的纸牌游戏,在这个游戏中我们假设纸牌被真正混洗成了随机顺序。
2、不完全观测。即使是确定的系统,当我们不能观测到所有驱动系统行为的变量时,该系统也会呈现随机性。例如,在Monty Hall 问题中,一个游戏节目的参与者被要求在三个门之间选择,并且会赢得放置在选中门后的奖品。其中两扇门通向山羊,第三扇门通向一辆汽车。选手的每个选择所导致的结果是确定的,但是站在选手的角度,结果是不确定的。
3、不完全建模。当我们使用一些必须舍弃某些观测信息的模型时,舍弃的信息会导致模型的预测出现不确定性。例如,假设我们制作了一个机器人,它可以准确地观察周围每一个对象的位置。在对这些对象将来的位置进行预测时,如果机器人采用的是离散化的空间,那么离散化的方法将使得机器人无法确定对象们的精确位置:因为每个对象都可能处于它被观测到的离散单元的任何一个角落。
概率可以被看作是用于处理不确定性的逻辑扩展。逻辑提供了一套形式化的规则,可以在给定某些命题是真或假的假设下,判断另外一些命题是真的还是假的。概率论提供了一套形式化的规则,可以在给定一些命题的似然后,计算其他命题为真的似然。
随机变量
随机变量(random variable)是可以随机地取不同值的变量。我们通常用无格式字体(plain typeface) 中的小写字母来表示随机变量本身,而用手写体中的小写字母来表示随机变量能够取到的值。例如,x1 和x2 都是随机变量x 可能的取值。对于向量值变量,我们会将随机变量写成x,它的一个可能取值为x。就其本身而言,一个随机变量只是对可能的状态的描述;它必须伴随着一个概率分布来指定每个状态的可能性。
随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数;它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。
概率分布
概率分布分为离散型变量和连续型变量两种。
如果一个函数P 是随机变量x 的PMF,必须满足下面这几个条件:
• P 的定义域必须是x 所有可能状态的集合。
连续型变量的概率密度:
边缘概率密度
有时候,我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probabilitydistribution)。
条件概率
在很多情况下,我们感兴趣的是某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率。我们将给定x = x,y = y 发生的条件概率记为P(y = y j x = x)。这个条件概率可以通过下面的公式计算:
条件概率只在P(x = x) > 0 时有定义。我们不能计算给定在永远不会发生的事件上的条件概率。
条件概率的链式法则
独立性和条件独立性
两个随机变量x 和y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含x 另一个因子只包含y,我们就称这两个随机变量是相互独立的(independent):
期望、方差和协方差
函数f(x) 关于某分布P(x) 的期望(expectation) 或者期望值(expectedvalue)是指,当x 由P 产生,f 作用于x 时,f(x) 的平均值。对于离散型随机变量,这可以通过求和得到:
方差(variance)衡量的是当我们对x 依据它的概率分布进行采样时,随机变量x 的函数值会呈现多大的差异:
当方差很小时,f(x) 的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差(standard deviation)。
协方差(covariance)在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度:
常用概率分布
1、Bernoulli 分布
2、Multinoulli 分布
3、高斯分布
第一,我们想要建模的很多分布的真实情况是比较接近正态分布的。中心极限定理(central limit theorem)说明很多独立随机变量的和近似服从正态分布。这意味着在实际中,很多复杂系统都可以被成功地建模成正态分布的噪声,即使系统可以被分解成一些更结构化的部分。第二,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。
4、指数分布和Laplace 分布
在深度学习中,我们经常会需要一个在x = 0 点处取得边界点(sharp point) 的分布。为了实现这一目的,我们可以使用指数分布(exponential distribution):
指数分布使用指示函数(indicator function)1x>=0 来使得当x 取负值时的概率为零。
一个联系紧密的概率分布是Laplace 分布(Laplace distribution),它允许我们在任意一点 处设置概率质量的峰值
5、Dirac 分布和经验分布
6、分布的混合
通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布(mixture distribution)。混合分布由一些组件(component)分布构成。每次实验,样本是由哪个组件分布产生的取决于从一个Multinoulli 分布中采样的结果:
这里P(c) 是对各组件的一个Multinoulli 分布。
常用函数的有用性质
贝叶斯规则
信息论
信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。
我们想要通过这种基本想法来量化信息。特别地,
• 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。
• 较不可能发生的事件具有更高的信息量。
• 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍
结构化概率模型
机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常,这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的(无论是计算上还是统计上)。我们可以把概率分布分解成许多因子的乘积形式,而不是使用单一的函数来表示概率分布。例如,假设我们有三个随机变量a; b 和c,并且a 影响b 的取值,b 影响c 的取值,但是a 和c 在给定b 时是条件独立的。我们可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式:
这种分解可以极大地减少用来描述一个分布的参数数量。每个因子使用的参数数目是它的变量数目的指数倍。这意味着,如果我们能够找到一种使每个因子分布具有更少变量的分解方法,我们就能极大地降低表示联合分布的成本。
有两种主要的结构化概率模型:有向的和无向的。两种图模型都使用图G,其中图的每个节点对应着一个随机变量,连接两个随机变量的边意味着概率分布可以表示成这两个随机变量之间的直接作用。