首页 > 试题广场 >

N-gram是一种简单有效的统计语言模型，通常n采用1-3之

[单选题]

N-gram是一种简单有效的统计语言模型，通常n采用1-3之间的值，它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下：
D1： John read Moby Dick
D2： Mary read a different book,
D3： She read a book by Cher
利用bigram求出句子“John read a book”的概率大约是（）

```
1
```
```
0.06
```
```
0.09
```
```
0.0008
```

查看答案及解析

Henryhust头像

Henryhust

2-gram公式

P(s1,s2,s3...) = P(s1)*P(s2|s1)*P(s3|s2).....

解：

john在文章开头的概率：P（john） = 1/3

P（read | John） = 1

P(a|read) = 2/3

P(book|a) = 1/2

P(尾巴|book) = 1/2, book出现两次，其中一次是在句子结尾处

P("John read a book") = 1/3 * 1 * 2/3 * 1/2 * 1/2 = 1/18 ≈ 0.06，故选择B

发表于 2019-08-30 18:44:26 回复(3)

无聊的咸鱼瘫头像

无聊的咸鱼瘫

unigram,bigram,trigram,是自然语言处理（NLP）中的问题。父词条：n-gram.

unigram: 单个word

bigram: 双word

trigram:3 word

比如：

西安交通大学：

unigram 形式为：西/安/交/通/大/学

bigram形式为：西安/安交/交通/通大/大学

trigram形式为：西安交/安交通/交通大/通大学

（来源百度百科）

发表于 2019-08-15 16:45:17 回复(1)

81192_J头像

81192_J

发表于 2019-08-15 17:08:05 回复(4)

陈福林头像

陈福林

bigram的语言模型：P(w1w2w3...wn)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1)
P(wn|wn-1)=count(wn,wn-1)/count(wn-1)

发表于 2018-12-26 13:41:32 回复(0)

付*君头像

付*君

我咋没懂题目的意思呢

发表于 2020-08-16 17:08:46 回复(0)

牛客828855060号头像

牛客828855060号

book作为结尾的概率是1/2

发表于 2020-05-05 23:18:31 回复(0)

睡不醒的夏不烦头像

睡不醒的夏不烦

<p>词袋模型的极大似然估计</p>

发表于 2020-06-10 15:42:39 回复(0)

提交观点

问题信息

算法工程师数理统计机器学习概率统计 2019 360集团

来自：360公司-2019校...

上传者：小小

难度：

7条回答 1469收藏 9658浏览

热门推荐

相关试题

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号