1. Positional Encoding 之所以用sin, cos 是因为它们的值域在[-1, 1]之间, 这里针对单个词向量内部采用cos 和sin 交换映射, 只是为了丰富位置信息. 假设采用0, 1, 2, .... 这种递增式进行编码, 它和词向量进行合并时, 会干扰词向量, 并会造成数据的严重倾斜. 另外, PE(pos+k, 2i) 是有PE(pos, 2i)进行线性表示的. 因为PE(k, 2i+1)是常量, 所以就有的偏置.. 也就是某种意义上的相对位置编码. 2. WordPiece Word...