2020-04-02 18:20 已编辑华东师范大学算法工程师

关注

[ACL18]基于Self-Attentive的成分句法分析

原文链接：

Constituency Parsing with a Self-Attentive Encoder

论文地址： Constituency Parsing with a Self-Attentive Encoder

代码地址： github

今天要介绍的这篇论文是成分句法分析领域目前的state-of-the-art，结果最高的几篇paper可以参见ruder在github整理的列表：github。
下面就是成分句法分析目前排名：

摘要

本篇论文将之前A Minimal Span-Based Neural Constituency Parser这篇论文中模型的编码器部分由LSTM替换为了Self-Attentive，来捕捉句子单词内容(content)与位置(position)之间的联系。实验结果可以达到93.55%的F1值，如果再加上预训练的词向量ELMo，那么F1值可以提升到95.13%。这是目前效果最好的一个模型了。

Attention的主要想法借鉴了谷歌的神作：Attention Is All You Need，这篇论文网上也有很多讲解了，我挑选了一篇讲解比较好的，大家可以先看看：Attention Is All You Need。

基本模型

这部分详见我之前写的一篇笔记：A Minimal Span-Based Neural Constituency Parser，解码器部分和之前模型基本一致。本文主要探讨的是编码器的构造，也就是如何求出每个span的向量表示，从而得到span的得分 $s(i,j,l)$ ，然后应用解码器进行解码，生成成分句法分析树。

词向量表示

第 $t$ 个单词的词向量由三个部分组成：

word embdding： $w_t$ ，这部分可以用随机初始化的向量，也可以用CharLSTM，也可以用预训练的词向量。
tag embdding： $m_t$
位置向量： $p_t$

最终词向量为三部分的加和：
$z_t = w_t + m_t + p_t$

Self-Attentive

模型结构如下图所示：

这一部分是不同位置单词互相联系的唯一方式，采用谷歌Attention Is All You Need中的Self-Attentive模型。

模型一共由8个SingleHead组成，每个SingleHead结构如下图：

计算方式如下：
${\rm{SingleHead}}(X) = \left[ { {\rm{Softmax}}\left( {\frac{ {Q{K^{\rm{T}}}}}{ {\sqrt { {d_k}} }}} \right)V} \right]{W_o}$
其中 $Q = X{W_Q};K = X{W_K};V = X{W_V}$ ，而 $W_O$ 用来将输出映射到与输入相同的维度。

详细分析一下计算过程，首先输入矩阵 $X = [{z_1},{z_2}, \ldots ,{z_T}]$ 是由一个句子中所有词向量组成的矩阵，拼接在一起是为了并行，加快计算速度， $X \in {\mathbb{R}^{T \times {d_{ {model}}}}}$ 。

然后将 $X$ 映射为三个矩阵，query矩阵 $Q$ ，key矩阵 $K$ ，value矩阵 $V$ ，其中 $Q,K \in {\mathbb{R}^{ {d_{ {model}}} \times {d_k}}}$ 。

我们想要计算单词 $i$ 和单词 $j$ 之间的Attention大小，可以用两者query向量和key向量元素乘得到：
$p(i \to j) \propto \exp \left( {\frac{ { {q_i} \cdot {k_j}}}{ {\sqrt { {d_k}} }}} \right)$
所有单词的value向量乘以单词 $i$ 对它的Attention值，加权求和之后得到的结果就是单词 $i$ 最后的向量表示：
${\bar v_i} = \sum\nolimits_j {p(i \to j){v_j}}$
最后乘以 $W_O$ 映射到与输入 $X$ 相同的维度。

整个过程如果写成矩阵形式就是最开始的那个矩阵式子。注意到式子中 $Q{K^{\rm{T}}} \in {\mathbb{R}^{ {\rm{T \times T}}}}$ ，矩阵中的每个元素恰好就是Attention值 $p(i \to j)$ 。 $\sqrt { {d_k}}$ 是归一化因子。

最后将8个SingleHead的结果求和得到MultiHead结果，注意这8个SingleHead参数不共享：
${\rm{MultiHead(}}X) = \sum\limits_{i = 1}^8 { {\rm{SingleHea}}{ {\rm{d}}^{(i)}}(X)}$

注意到Attention模型有一个很严重的问题，就是无论单词的顺序是怎么样的，都不影响最终的结果。所以在输入中要添加位置向量 $p_t$ ，否则之后会有实验表明，不加的话效果大大下降。

图一中还有一个前馈神经网络的部分，使用的是一个双层前馈神经网络：
${\rm{FeedForward}}(x) = {W_2}{\rm{relu}}({W_1}x + {b_1}) + {b_2}$

Span得分

最终的span得分计算方式如下：
$s(i,j, \cdot ) = {M_2}{\rm{relu}}({\rm{LayerNorm}}({M_1}v + {c_1})) + {c_2}$
其中 $v$ 就是短语的向量表示，由之前的每个单词的向量输出得到：
$v = [{ {\vec y}_j} - { {\vec y}_i},{ {\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over y} }_{j + 1}} - { {\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over y} }_{i + 1}}]$
在之前的LSTM模型中前向后向表示很容易得到，在这里只能通过将输出向量一分为二，一半作为前向表示，一半作为后向表示，实际实现中，偶数维度作为前向表示，奇数维度作为后向表示。

Content vs Position Attention

之前的模型中，我们采用元素加将三个输入向量求和作为输入，期待模型自己训练出它们之间的权重，将它们很好地分开，但是实际上效果并不好。

下面论文做了许多实验来探讨content和position的重要性。

首先修改模型输入，令 $Q=PW_Q,K=PW_K$ ，也就是丢弃了content信息，但是最后结果只下降了0.27个百分点，说明了content信息对模型影响不是很大。

然后为了验证是不是元素加导致content和position信息混合在一起模型无法分开，实验将输入向量显示分开，输入改为
$z_t=[w_t+m_t;p_t]$
但是实验结果只下降了0.07个百分点，说明不是这个因素导致的。事实上元素加和拼接操作在高维度上面是相似的，特别是之后立即乘上了一个矩阵，这就会混合里面的信息。

所以最好的解决办法就是将content和position向量分开计算attention，最后求和。这样attention矩阵就可以表示为：
$QK^{\rm{T}} = {Q_c}K_c^{\rm{T}} + {Q_p}K_p^{\rm{T}}$
这时的权重矩阵 $W$ 就可以写为
$W = \left[ {\begin{array}{\*{20}{c}}{ {W_c}}&0\\0&{ {W_p}}\end{array}} \right]$