Stochastic Answer Networks for Natural Language Inference阅读笔记

概述

作者提出一种随即回答网络(stochastic answer network)来解决NLI问题.
和之前的模型根据输入直接预测结果不同, 该模型维护一个状态并迭代地改进其预测.
与单步推理相比, 这种多步推理方法可以对更复杂的推理任务进行建模.

模型

single-step inference architecture
单步推理网络结构就是利用输入的premise和hypothesis直接预测结果.

Multi-step inference with SAN

定义了一个新的循环状态 s t s_t st, 模型在生成最终输出之前, 每个时间步迭代生成 s t s_t st, 将 s T s_T sT作为最终的输出.

模型结构分为四部分:

  1. Lexicon encoding layer: compute word representation
  2. contextual encoding layer: modifie word representation in context
  3. memory generation layer: gather information from premise and hypothesis, form a “working memory” for the final answer module
  4. final answer module: type of multi-step network, predicts the relation between the premise and hypothesis.

Lexicon Encoding layer

首先, 将词向量和字向量做拼接, 这样可以比较好的解决OOV问题.
之后将拼接向量输入到两层Position-wise前馈网络得到最终的lexicon embedding E p R d × m , E h R d × n E^p\in \R^{d\times m}, E^h\in \R^{d\times n} EpRd×m,EhRd×n.

Contextual Encoding layer

两层的BiLSTM
因为双向lstm输出是单向的2倍, 作者在每层LSTM加了maxout层来对BiLSTM进行压缩.
然后, 对两层LSTM的输出做一个拼接, 得到P和H的表示 C p R 2 d × m , C h R 2 d × n C^p\in \R^{2d\times m}, C^h\in \R^{2d\times n} CpR2d×m,ChR2d×n

Memory Layer

同样利用了注意力机制.
首先, 也是先进行向量点乘. 之后, 作者并没有对点乘结果进行softmax而是加了一层映射.

这里, A就是attention矩阵, <mover accent="true"> C ^ </mover> p \hat C^p C^p <mover accent="true"> C ^ </mover> h \hat C^h C^h是通过一层全连接 R e L U ( W x ) ReLU(W\cdot x) ReLU(Wx)得到的.
然后, 分别进行拼接
U p = [ C p ; C h A ] U^p=[C^p;C^hA] Up=[Cp;ChA] U h = [ C h ; C p A ] U^h=[C^h;C^pA&#x27;] Uh=[Ch;CpA]
接着,
M p = B i L S T M ( [ U p ; C p ] ) M^p=BiLSTM([U^p;C^p]) Mp=BiLSTM([Up;Cp]) M h = B i L S T M ( [ U h ; C h ] ) M^h=BiLSTM([U^h;C^h]) Mh=BiLSTM([Uh;Ch])

Answer module

answer module计算T个时间步的关系标签.
在最开始, 初始化状态 s 0 s_0 s0


之后对于各个时间步的状态 s t s_t st,



计算每个时间步的匹配结果 P t r P^r_t Ptr,

之后, 对各个时间步结果进行平均,

另外, 为了提高鲁棒性, 在训练期间使用stochastic prediction dropout.

实验

实现细节

  • 分词: spaCy
  • word embedding: GloVe 300D
  • character encoding: 利用CNN训练, embedding size设为20. windows设为1,3,5 hidden size设为50, 100, 150
  • word embedding和character embedding拼接, 最终的lexicon embedding就是600维.
  • LSTM hidden size: 128
  • 注意力层的projection size: 256
  • dropout: 0.2
  • batch size: 32
  • optimizer: Adamax
  • learning rate: 0.002

实验结果

全部评论

相关推荐

昨天 22:54
武汉大学 Java
点赞 评论 收藏
分享
bg:双非本,一段中小厂6个月测开实习今天发这个帖子主要是想聊一聊我秋招以来的一个发展我是在8月底辞职,打算秋招,可是看网上都说金九银十就想着自己就是一个普通本科生,现在九月份都是一些大神在争抢,所以9月份基本上没投,等到了10月份才开始秋招,可是这个时间好像已经有些晚了,今年秋招开启的格外早,提前到了7,8月份,我十月才开始,官网投了很多公司,没有任何一个面试机会,这个情况一直到了十月底才有了第一个面试,当时没有面试经验,所以不出意外的挂了后续就是漫长的投递,但是毫无例外没有面试,没有办法我只能另辟蹊径开始在BOSS上边投递,然后顺便也根据BOSS上边这个公司名称去浏览器搜索看看有没有官网投递渠道,毕竟官网上投递后还是可以第一时间被HR看到的,然后一直不停投递,一开始第一个星期基本上都是投的正式秋招岗位到了第二个星期才开始实习和正式一起投,到十一月底的时候已经沟通了700➕才有一共1个正式的,5个要提前实习的,3个实习的面试,最后结果是过了1个要提前实习的和2个实习的每次面试我都会复盘,发现这些小公司面试官问的五花八门,有的专问基础,有的专问项目,有的啥都问,不过自己也是看出来了一下门道,就是小公司不像大公司面试官那样能力比较强基本上你简历上边的他都会,然后会根据简历来问,小公司面试官他们更多的是看自己会什么,然后看看你简历上边哪些他也是会的然后来问,经过不断的复盘加上背各种各样面试题,到了11月底12月初才有了1个要提前实习的offer还有2个实习的offer,而且薪资待遇对我来说已经很可观了可是啊,人总是这样得了千钱想万钱,我又开始不满现状,但是此时的我面试能力经过这么多面试和复盘已经很强了,然后在十二月份运气爆棚,被极兔和小鹏补录捞起来面试,还有个百度测开的实习面试,这个时候因为有了offer所以感觉有了底气,面试也很自信,最后结果是全部都过了那个时候我感觉自己真的很厉害,我问了极兔那边的HR像我这样的双非本收到offer的在极兔有多少?他告诉我产研岗90%都是硕士,10%里边基本上都是211,985,想我这样的很少很少,那一刻感觉自己超级牛逼,小鹏就更不用说了,最后也是不出意外选择了小鹏所以我就我个人经历想对和我学历履历差不多的牛友一些建议第一:秋招一定要趁早,真到了9,10月,那个时候可能你投的结果可能还不如7,8,11月,第二:最好先拿小公司实习或者正式练练手,提升一下面试能力,我个人觉得因为小公司问的五花八门所以你会更加横向去提升自己能力,而且大公司其实面试没有那么难,除了一些非常卷的岗位,公司大神比较多会问的很难,一般好点的公司都不会问的那么难,他们也知道都是应届生不会要求那么高第三:当有一定能力后,就是坚持了,对于我们这样的学历,没有特别强的履历情况下,就是要抓住提前批和补录的机会,这个时候各方面不会卡的很严,是我们很好很好的一个机会第四:就是运气也是很重要的一部分,不过这个很难去说什么最后祝各位牛友都能收获自己满意的offer😁😁😁
秋招,不懂就问
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务