offer牵好

2018-07-19 14:57 成都信息工程大学算法工程师

关注

《数学之美》四五六章阅读笔记

第4章 谈谈分词

1 中文分词方法

词是表达语义的最小单位，对于一些亚洲语言，词之间没有明确的分界符，因此需要先对句子进行分词处理，才能做进一步的自然语言处理。

·分词方法

<查字典>

查字典：把一个句子从左向右扫一遍，遇到字典里有的词就标识出来，遇到复合词就找最长的词匹配，遇到不认识的字串就分割成单字词。

特点：这是最简单的方法，适用于复杂性不高的句子。

发展成最少词数的分词理论，即一句话应该分成数量最小的词串。不足之处是无法处理分词二义性。

<统计语言模型>

统计语言模型：假设一个句子可以有多种分词方法，每种分词方法结果产生不同数量的词串，利用统计语言模型计算出每种分词后句子出现的概率，其中概率最大的就是最好的分词方法。

穷举所有可能的分词方法不太可行，可以利用维特比算法（后续介绍）快速找到最佳分词。词语定义出现不同时，在分词的同时找到复合词的嵌套结构，先作为复合词处理，再进一步找出细分词。

不同的应用，分词的颗粒度大小应该不同。

针对亚洲语言的分词技术可以应用到英语的手写体识别中，帮助判别英语单词的边界。

2 分词结果衡量

针对不同的应用，分词颗粒度大小不同，但是构造不同的分词器没有必要，可以让一个分词器同时支持不同层次的词的切分，即可以分为复合词，也可以分为更小的词。

首先需要一个基本词表和一个复合词表，然后根据基本词表和复合词表各建立一个语言模型，再分别根据词表和语言模型对句子进行分词。

分词的不一致性：错误——越界型错误、覆盖型错误；颗粒度不一致。

第5章隐含马尔可夫模型

1 通信模型

·典型的通信系统：

几乎所有的自然语言处理问题都可以等价成通信的解码问题。

在通信中，从所有的源信息中找到最可能产生出观测信号的信息，就能根据接收到的观测信号来推测信号源发送的信息。

·概率论描述

在已知的情况下，求得令条件概率达到最大值的信息串，即

其中Arg表示能获得最大值的那个信息串。

根据贝叶斯公式，上式等价变换成

一旦信息产生就不会改变，因此是一个可以忽略的常数。因此，公式最终简化为

这个公式可以用隐含马尔可夫模型来估计。

2 隐含马尔可夫模型

·背景

发明者：美国数学家鲍姆等人（20世纪六七十年代）

马尔可夫链：随机过程中各个状态的概率分布，只与它前一个状态有关，即

符合这个假设的随机过程就是马尔可夫过程，即马尔可夫链。

在马尔可夫链中，每个状态可能转移到其他状态，存在转移概率。随机选择一个状态作为初始状态，运行一段时间之后产生一个状态序列：。统计某个状态出现的次数和转换到的次数，从而估计出从到的转移概率。

·隐含马尔可夫模型

隐含马尔可夫模型是马尔可夫链的一个扩展。任一时刻的状态是不可见的，无法通过状态序列来推测转移概率等参数，但是在每个时刻会输出一个仅跟相关的符号。其中隐含的状态是一个典型的马尔可夫链。

某个特定的状态序列产生出输出符号的概率

上式和通信解码问题的公式（5.3）相似，通信的解码问题可以用隐含马尔可夫模型来解决。利用维特比算法可以找出上式最大值，进而找出。

在公式（5.3）中，是语言模型。在语音识别中叫“声学模型”，在机器翻译中是“翻译模型”，在拼写校正中是“纠错模型”。

·应用

最早成功：语音识别

其他应用：机器翻译、纠错拼写、手写体识别、图像处理、基因序列分析、股票预测和投资。

3 隐含马尔可夫模型的训练

关于隐含马尔可夫模型的三个基本问题：

①给定一个模型，计算某个特定的输出序列的概率；

解决：Forward-Backward算法

②给定一个模型和某个特定的输出序列，找出最可能产生该输出的状态序列；

解决：维特比算法

③给定足够量的观测数据，估计隐含马尔可夫模型的参数，即模型训练。

·隐含马尔可夫模型的参数：

转移概率：前一状态进入当前状态的概率

生成概率：每个状态产生相应输出符号的概率

·计算或估计参数

<有监督的训练方法>

状态输出概率：

转移概率：

前提：需要大量人工标注的数据

<无监督的训练方法>

通过大量观测到的信号就能推算模型参数的和方法，主要使用鲍姆-韦尔奇算法。

鲍姆-韦尔奇算法思想：找到一组能够产生输出序列的模型参数，构成初始模型。需要在此基础上找到一个更好的模型。算出这个模型产生的概率，找出该模型产生的所有可能路径以及这些路径的概率。根据公式（5.6）和（5.7）计算出一组新的模型参数，从到的过程称为一次迭代。

接下来，从出发，找到一个更好的模型，并且不断地进行迭代，直到模型的质量不再有明显的提高。

鲍姆-韦尔奇算法的每一次迭代都是不断地估计新的模型参数，使得输出的概率（目标函数）达到最大化，这个过程被称为期望值最大化，简称EM过程。

隐含马尔可夫模型是机器学习的主要工具之一，需要一个训练算法（鲍姆-韦尔奇算法）和解码算法（维特比算法）。

第6章信息的度量和作用

1 信息熵

提出：1948年，香农

对于任意一个随机变量，熵的定义如下：

其中，表示信息出现的概率。熵用表示，单位为比特。

信息量等于不确定性的多少，变量的不确定性越大，熵也就越大，所需信息量也就越大。

2 信息的作用

一个事物内部存在随机性，即不确定性，假定为，从外部消除不确定性唯一的办法是引入信息，需要。当时，这些信息可以消除一部分不确定性，剩余不确定性：。如果没有信息，任何公式或者数字的游戏都无法排除不确定性。

·条件熵

假定和是两个随机变量，是需要了解的。假定已知的随机分布，那么也就知道的熵：，不确定性就为熵。

假定已知和一起出现的概率，即联合概率分布，还已知在取不同值得前提下的概率分布，即条件概率分布。

定义在的条件下的条件熵为：

定义有两个条件的条件熵为：

信息的作用在于消除不确定性，自然语言处理的问题就是寻找相关的信息。

3 互信息

互信息：两个随机事件“相关性”的量化度量

假定和是两个随机事件，互信息定义如下：

等价于

所谓两个事件相关性的量化度量，就是在了解其中一个的前提下，对消除另一个不确定性所提供的信息量。

互信息是一个取值在0到之间的函数，当和完全相关时，取值为，同时；完全无关时，取值为0。

应用：机器翻译中的词义的二义性

4 相对熵

相对熵：即交叉熵，用来衡量两个取值为正数的函数的相似性。

定义如下：

相对熵是不对称的，即。

改进的相对熵计算方法：

·结论：

①对于两个完全相同的函数，相对熵等于0；

②相对熵越大，两个函数的差异越大；反之，相对熵越小，差异越小；

③对于概率分布或概率密度函数，如果取值均大于0，相对熵可以度量两个随机分布的差异性。

应用：信号处理、自然语言处理

#笔记#

全部评论

推荐最新楼层

四月童话

很棒

点赞回复分享

发布于 2018-07-19 16:18

昨天 14:08

水滴科技_HR

水滴公司2025春季校园招聘正式启动！

水滴2025校园招聘正式启动为什么选择加入水滴你可能想问的问题投递方式：PC端：搜索水滴校招官网或直接进入链接：水滴招聘移动端：关注水滴招聘微信公众号点击「加入水厂-校园招聘」菜单栏可跳转官网进行投递如有疑问，欢迎邮件咨询水滴校招组campus@shuidi-inc.com

投递水滴等公司10个岗位 >

点赞评论收藏

今天 08:51

西安电子科技大学 Java

腾讯实习基地-ieg-Level Infinite-一面

2.14面，50min自我介绍，项目没问，都是八股，计网偏多TCP 建立连接，断开连接，中间会发送什么样的报文，客户端服务端分别处于什么状态服务器 TIME_WAIT 状态过多会对你的服务产生什么影响？有什么办法能减少这种影响？怎么查服务器建立了多少个 TCP 连接TCP 四次挥手能不能简化为三次？TCP 流量控制，拥塞控制TCP 全连接队列，半连接队列有使用并了解过吗IO 多路复用，select，epoll 优缺点，两种模式 ET, LT一个包到网卡以后，操作系统怎么处理？这个包怎么被上层应用接收到？算法：大数相除，保留两位小数十亿个数，找前 100 个，用什么算法，时间复杂度是多少？图里面...

查看11道真题和解析

点赞评论收藏

02-14 12:00

北京理工大学机械设计/制造

喂喂喂，有点意思~

情人节转账电话号码都能记错，你是这个👍👍🤣

会飞的猿：本人来了，手一抖转错了，我是学生，能还给我吗

点赞评论收藏

02-13 14:20

大连理工大学 Java

26届字节生活服务后端开发实习一面面经

bg末九本，无实习，项目很烂（面试官基本上没问），面试50min+，面试官全程没开摄像头（估计是被kpi了）实习计划（以后升学还是就业、什么时候可以到岗、可以实习多久）语言相关（是否接受转Go)因为简历上提了一嘴python数据挖掘项目（是刚做完的课设）聊了相关能力以及git能力简历上写了竞赛获奖，问了具体情况static的具体作用？可不可以修饰类或方法？JVM的垃圾回收？具体如何实现？问课程相关，浮点数的具体实现?算法题出了最小覆盖子串鼠鼠因为是处女面很紧张，面试前猛看的mysql和redis八股基本上没问，回答也比较稀碎，好在面试官人还算不错，一直说没事没事。个人感觉自己还是太菜了，需要继...

带带杨巅峰：处女面字节有点狠了校友

查看8道真题和解析我的实习日记面试中的破防瞬间

点赞评论收藏

招聘动态

26届实习生双选会报名开启

26届实习软件笔试必刷题单

全站热榜

创作者周榜

正在热议

# 一人推荐一个值得去的通信/硬件公司 #

160844次浏览 1734人参与

# 长光卫星求职进展汇总 #

27342次浏览 180人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #