2019-07-28 13:09 已编辑门头沟学院算法工程师

关注

Stochastic Answer Networks for Natural Language Inference阅读笔记

文章目录

概述
模型
实验
- 实现细节
- 实验结果

概述

作者提出一种随即回答网络(stochastic answer network)来解决NLI问题.
和之前的模型根据输入直接预测结果不同, 该模型维护一个状态并迭代地改进其预测.
与单步推理相比, 这种多步推理方法可以对更复杂的推理任务进行建模.

模型

single-step inference architecture
单步推理网络结构就是利用输入的premise和hypothesis直接预测结果.

Multi-step inference with SAN

定义了一个新的循环状态 $s_{t}$ , 模型在生成最终输出之前, 每个时间步迭代生成 $s_{t}$ , 将 $s_{T}$ 作为最终的输出.

模型结构分为四部分:

Lexicon encoding layer: compute word representation
contextual encoding layer: modifie word representation in context
memory generation layer: gather information from premise and hypothesis, form a “working memory” for the final answer module
final answer module: type of multi-step network, predicts the relation between the premise and hypothesis.

Lexicon Encoding layer

首先, 将词向量和字向量做拼接, 这样可以比较好的解决OOV问题.
之后将拼接向量输入到两层Position-wise前馈网络得到最终的lexicon embedding $E^{p} \in R^{d \times m}, E^{h} \in R^{d \times n}$ .

Contextual Encoding layer

两层的BiLSTM
因为双向lstm输出是单向的2倍, 作者在每层LSTM加了maxout层来对BiLSTM进行压缩.
然后, 对两层LSTM的输出做一个拼接, 得到P和H的表示 $C^{p} \in R^{2 d \times m}, C^{h} \in R^{2 d \times n}$

Memory Layer

同样利用了注意力机制.
首先, 也是先进行向量点乘. 之后, 作者并没有对点乘结果进行softmax而是加了一层映射.

这里, A就是attention矩阵, ${<mover accent="true">}^{C^</mover> p}$ 和 ${<mover accent="true">}^{C^</mover> h}$ 是通过一层全连接 $R e L U (W \cdot x)$ 得到的.
然后, 分别进行拼接
$U^{p} = [C^{p}; C^{h} A]$ $U^{h} = [C^{h}; C^{p} A^{'}]$
接着,
$M^{p} = B i L S T M ([U^{p}; C^{p}])$ $M^{h} = B i L S T M ([U^{h}; C^{h}])$

Answer module

answer module计算T个时间步的关系标签.
在最开始, 初始化状态 $s_{0}$

之后对于各个时间步的状态 $s_{t}$ ,

计算每个时间步的匹配结果 $P_{t}^{r}$ ,

之后, 对各个时间步结果进行平均,

另外, 为了提高鲁棒性, 在训练期间使用stochastic prediction dropout.

实验

实现细节

分词: spaCy
word embedding: GloVe 300D
character encoding: 利用CNN训练, embedding size设为20. windows设为1,3,5 hidden size设为50, 100, 150
word embedding和character embedding拼接, 最终的lexicon embedding就是600维.
LSTM hidden size: 128
注意力层的projection size: 256
dropout: 0.2
batch size: 32
optimizer: Adamax
learning rate: 0.002

实验结果

全部评论

推荐最新楼层

今天 16:35

门头沟学院 Java

《炸裂！黑马程序员居然拿我打广告》

震惊了兄弟们，打开手机一看，黑马竟然用我打上广告了，不过本人还是非常荣幸的，毕竟有很大一部分内容也是跟着黑马的课学下来的，黑马的课实话实说质量不错而且免费，但是其中有一点我不太认可~现在大环境我觉得是非常差的，能拿下快手offer也是在将近30场面试中摸爬滚打出来的，有一些幸存者偏差成分，不妨放眼整个互联网圈子，26届27届找不到实习的大有人在，后端在大环境也是越来越难，我们28届还凭空多了2k多个211软工，大家学习进度也越来越卷，以前大二开学能学到javaWeb就已经是第一批人，而我知道的我们本届很多人已经开始做项目了，可见大环境的恶劣作为双非更是地狱界别的，哪怕是我本人，秋招时凭借2年多...

双非有机会进大厂吗

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-04 18:15

逆天hr，不是985就不配有双休？？

因为没有双休，没两句我就直接拒绝了，没想到对面直接登鼻子上脸PUA，不多说了，直接上图

点赞评论收藏

分享

06-14 19:09

门头沟学院 Java

能去这种小厂实习吗？

mes，erp，crm是什么意思，不太懂

darius_：给制造业搞的，什么物料管理生产管理，设备管理点检，最最关键的就是一堆报表看板。个人觉得没啥技术含量都是些基本的crud，但是业务很繁琐那种

点赞评论收藏

分享

05-09 14:45

门头沟学院 Java

现在的HR，说话都这么冲的吗？

一个小公司hr，在上海就给10k+，说话语气这么冲？是不会好好说话吗？现在太卷了，让这种🤡hr都能挑三拣四。

已成为🐬孝子：小公司就是容易碰到奇葩，之前投过浦东一家小厂，到那里先让我做一个小时高中数学题

找工作时遇到的神仙HR

点赞评论收藏

分享

07-01 18:13

曼伦商贸_供应链管理(准入职员工)

【品牌市场岗位】 我面的是曼伦·杜蕾斯品牌市场岗位，跟面试官聊下来，我这个岗主要是做媒体投放执行以及Campaign支持。 ⌚️【面试流程】 面试官有：HR和LEADER，一开始HR就明确说明面试分为三个阶段：1️⃣3-5分钟自我介绍2️⃣针对过往经历提问3️⃣岗位问题探讨。 🙋‍♀️【问题汇总】 1️⃣请简单介绍一下你自己。 2️⃣能详细讲一下你在某个项目中的具体角色和负责的工作内容吗？ 3️⃣你最近有看到哪些杜蕾斯广告吗？ 4️⃣怎么看待品牌仍然在做大型户外媒体投放？ 5️⃣最近在户外媒体看到哪些印象深刻的广告？ 6️⃣户外媒体形式及差异？ 7️⃣如何看待从创意岗转向渠道沟通和媒体投放多...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得实习能学到东西吗 #

33640次浏览 673人参与

# 百度工作体验 #

221636次浏览 1967人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

27043次浏览 213人参与

# 秋招什么时候开投比较合适？ #

21427次浏览 299人参与

# 机械人与华为的爱恨情仇 #

116661次浏览 945人参与

# 实习，不懂就问 #

44406次浏览 666人参与

# 发工资后，你做的第一件事是什么 #

67915次浏览 229人参与

# 机械人集合！你是什么工程师？ #

15601次浏览 89人参与

# 如何准备秋招 #

19332次浏览 369人参与

# 找不到好工作选择GAP真的丢人吗 #

77974次浏览 938人参与

# 工作中哪个瞬间让你想离职 #

25695次浏览 177人参与

# 快手求职进展汇总 #

546769次浏览 6001人参与

# 硬件应届生薪资是否普遍偏低？ #

73852次浏览 514人参与

# 你们公司几号发工资 #

20847次浏览 140人参与

# 不考虑转正，实习多久合适 #

31938次浏览 145人参与

# 多益网络求职进展汇总 #

29021次浏览 134人参与

# 软开人，秋招你打算投哪些公司呢 #

102739次浏览 958人参与

# 每个月的工资都是怎么分配的？ #

26999次浏览 422人参与

# 面试中，你被问过哪些奇葩问题？ #

68338次浏览 796人参与

# 元戎启行求职进展汇总 #

32535次浏览 240人参与

# 你觉得现在还能进互联网吗？ #

8117次浏览 132人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务