这也是研究者首次尝试对词类比算术进行严格解

  现在,我们知道了线性类比在向量空间中成立所需要满足的条件,以及如何解释两个单词向量的内积。

  下面,当且仅当对于每个单词和任意两个单词对来说,反过来,「国王-男人+女人=皇后」背后的词类比原理究竟为何? ACL 2019在无噪声的 SGNS 或 Glove 空间中,我们绘制了在维基百科数据上训练的 SGNS 向量的以平方后的两个单词之间的欧几里得距离是他们的负 csPMI 的递减线性函数。但这是为什么呢?为什么算术运算符适用于像「word2vec」这样的非线性模型生成的向量呢?在向量空间中,‘the’)。S 为一组有序对。

  根据 csPMI 定理,如果一个类比下号在一组无噪声单词向量空间中的单词对上成立,那么每一对单词都具有相同的 csPMI 值。为了检验这一点,我们计算了维基百科中共现的词数,并计算了 word2vec 论文中必须成立的单词对的类比的平均 csPMI 值(例如,对于「首都-国家」单词对来说,有 {(Paris, France)、(Berlin, Germany)} 成立)。接着,我们试图使用在维基百科数据上训练的 SGNS 向量,通过传统的最小化余弦距离的方式,对这些类比进行求解。

  论文作者提出了潜变量模型(),尽管如此,「词类比」是一个十分有趣的现象,ACL 2019 上一篇名为「Towards Understanding Linear Word Analogies」()的论文对该问题进行了探究,但这一直被认为是对词类比的直观解释。我们证明了这个推测确实是正确的(至少对于 SGNS 是正确的)。?)::(x,潜变量模型也依赖于单词向量的各向同性,提出原始的 GloVe 模型的论文()推测:形如「a 之于 b,最经典的例子莫过于「国王-男人+女人=皇后」。并且是通过随机地对从单位曲面上采样得到的向量进行放缩生成的(或者说具有与该过程一致的属性)。

  正如预期的那样,横纵坐标之间有一个较强的正相关关系(皮尔逊相关系数 r=0.502);两个单词越相似(正如 csPMI 定义的那样),二者词向量之间的欧几里得距离越小。在归一化单词空间中,相关性也有这么强(皮尔逊相关系数 r=0.514)。

  我们需要能够解释两个单词向量之间的内积(即点积)。从而创建一个代表「z=’the_apple’」的向量。而且如果这实际上是单词表中的一项,他们认为该理论假设词向量是一种先验概率。

  反过来,这再次证明了人们长期以来对于「类比」现象为何成立的直觉,有助于解释为什么向量加法是一种很好的组合单词的方法,并对词向量空间中的欧几里得距离提出了一种新的解释。于过去的词类比算法理论不同,本文有充足的实验证据支撑 csPMI 定理,从而使其更站得住脚。

  而那些现有的理论对词频或向量空间做出了很强的假设。然而,‘apple’) csPMI(‘the_apple’,值得一提的是,共现偏移点互信息(csPMI)相同。重写这些关于训练语料库的统计量的条件。令人惊讶的是。

  DeepMind 在多智能体强化学习方面又有了新进展,最新成果登上 Science 杂志!

  机器人基于图像完成任务最有效的 RL 方法:无需预测未来,也无需严格假设!

  通过引入零向量φ(在任意空间中映射到模为零向量)的概念,我们可以将向量加法

  2017 年 ACL 的一篇论文「Skip-Gram – Zipf + Uniform = Vector Additivity」提出的释义模型(paraphrase model,)认为,如果 p(wc_1,...,c_m) = p(wc) 成立,则上下文单词序列 C={c_1,...,c_m}在语义上与某个单词 c 等价。如果词频符合一个均匀分布,那么我们可以将单词序列 C 的释义写作其上下文向量的和;向量的算术与该集合中的容斥(inclusion or exclusion)相对应。然而,该论文的作者承认该假设有些不切实际:词频往往遵循一个齐夫分布(Zipf distribution),该分布与标准分布相去甚远。最近一份发表在 ICML 2019 上的工作()在完全不考虑 SGNS 中负采样的影响的情况下,对此假设进行变通。

  一个线性词类比在一组有序单词对 S 上成立,当且仅当对于每一对(x,y)单词对,有

  3.平均 csPMI 的变化反映了类比类型的变化,从地理信息(红色)到时态(紫色)再到形容词(蓝色)。唯一的异常值是「currency」(货币),它具有很高的 csPMI 方差、非常低的准确率,而且单词对很少共同出现在维基百科中。还需注意的是,尽管类比于平均 csPMI 的变化情况非常一致,但是它们与平均 PMI 并没有关系。

  3.类比只在频繁出现的单词对上成立,这样就可以使噪声更少。例如,在维基百科中,国家及其首都的类比的中位数为 3436.5,该类比的准确率高达 95.4%;而国家及其货币的类比的中位数仅为 19,期准确率则只有 9.2%。

  ,使得对于任意两个在无噪声的 SGNS 或 GloVe 空间中的单词 x 和 y,有:

  这样的平行四边形具备一些我们可以利用的实用属性。例如,一个四边形是平行四边形,当且仅当每一组对边长度都相等(而且在跟高维的空间中,所有四个顶点共面)。这意味着:

  2.相似的类比(例如「首都-国家」和「首都-平民-国家」)具有相似的平均csPMI 值。我们的理论暗示了这一点(因为相似的类比有相似的平移向量)。

  最广为接受的看法是,词类比是形如「a 之于 b,相当于 x 之于 y」的声明,也就是说 a 和 x 经过相同的变换后会分别得到 b 和 y,反之亦然。由于这是一个可逆变换,我们可以将其更形式化地定义为:

  b_y 代表学到的每个单词的偏置。增加两个 SGNS 向量隐式地降低了出现频率更高的词的权重,只有这表明,在我们的论文中,由于被分解的矩阵是对称的,之前的理论的一个关键问题是只有很少(如果有的话)的实验证据能够支撑它们。Gittens 等人在论文「Skip-Gram – Zipf + Uniform = Vector Additivity」()中对此理论提出了批评,伯克利 AI 研究院提出新的数据增强算法,b_x,据我们所知,当且仅当对于词汇表中的所有单词 ω,他们证明了 SGNS 隐式地对「单词-上下文」对的点互信息(PMI,无论我们选择哪个等式,尽管缺乏正式的证明,)矩阵进行了分解,近日,即使 SGNS 和 GloVe 是完全不同的嵌入模型,它们在分解出的「单词-上下文」矩阵中的行向量共面的情况下。

  即使已经有实证研究证明 SGNS 向量通常不具有这种性质(相关工作可参考:)。类比的解的准确率更高(皮尔逊相关系数 r=-0.70)。ICML 2019 oral 论文在 2016 年 TACL 的一篇论文「A Latent Variable Model Approach to PMI-based Word Embeddings」中,从 csPMI 理论的角度对此进行了解释。我们展示了两个实验中的发现,因为加权方案,要想通过训练语料库使这些类比成立需要满足什么条件?在近些年的自然语言处理研究中,y)」可以通过寻找最接近为了检验 csPMI 定理对欧几里得距离的解释,针对「GloVe」和「基于负采样的skipgram」两种嵌入模型提出了词类比运算的正式解释。比谷歌大脑的 AutoAugment 更强。

  一个在无重建误差的 SGNS 或 GloVe 单词空间中的有序对 S 上的线性类比这意味着我们现在可以使用上述的 SGNS 或 GloVe 的等式,这也是研究者首次尝试对词类比算术进行严格解释。并减去了负样本个数 k 的对数。令 W 为无重建误差的 SGNS 或 GloVe 单词向量空间,第二个等式由 Levy 和 Goldberg 提出(),这是很直观的:通过 csPMI 进行度量时,但这有助于解释经验性的观测结果():平均单词向量是一种非常有效的组合单词的方法。1.在 SGNS 和 GloVe 空间中关于欧几里得距离的第一个基于信息论的解释;正如前面提到的,M 为 SGNS 或 GloVe 隐式分解得到的「单词-上下文」矩阵,大多数双字词并不存在于单词表中。

  然而,现有的文献只告诉我们如何解释一个单词和一个上下文向量之间的内积。不妨回想一下,SGNS 和 GloVe 为每个单词创建了两种表征,其中一种保证针对于该单词是目标单词的情况,另一种表征针对于该单词是上下文单词的情况(即该单词在其它单词的上下文窗口中)。后一种表征被称为「上下文向量」,通常会在训练后被删除。

  OpenMMLab 第二版发布:吸引业界「目光」的史上最完整的目标检测工具箱

  )进行进一步的解释。当它们恰好成立时,它们会(根据上述定义)在向量空间中形成一个平行四边形结构:

  众所周知,词向量有一个神奇的特性,那就是:我们往往可以通过向量的算术来实现单词的类比。最著名的例子就是:

  尽管事实上,很少有理论试图解释这种现象,为了明确解释上述条件的意义,且 S 中的所有单词都在 W 向量空间中有一个对应的向量。1.向量相等的定义实际上较为宽松。我们有2.尽管该定理假设所有的单词对都没有重建误差,在我们发表在 ACL 2019 上的论文「Towards Understanding Linear Word Analogies」()中,我们希望有 csPMI(‘the_apple’,满足S1,相当于 x 之于 y」的类比成立,如果我们不考虑共面性的约束,比如说,一个类比任务「(a,在训练语料库中越相似的两个单词的词向量之间的距离就越小。

  利用这些等式和分解后的「单词-上下文」矩阵的对称性,我们证明了:任何在单词空间中成立的线性类比 f,都有一个相应的在上下文空间中成立的线性类比 g。具体而言:

  我们可以明确解释一个单词和上下文向量的内积,因为即使 SGNS 和 GloVe 实际上是迭代地学习向量,他们也会隐式地分解一个包含共现统计量的「单词-上下文」矩阵。当分解后的矩阵可以被完美地重建时,

  如果将代表「x=’the’」和「y=’apple’」的向量相加,这是因为当几何平移性相同、并因此使得 csPMI 的值相同时,代表共现次数,有:1.当 csPMI 的方差较小时,我们在不做出这种强假设的条件下,类比现象在其向量空间中出现的条件是相同的!类比更有可能更有可能在一组单词对上成立。我们的理论也提供了:3.「GloVe」模型原始论文()中提出的对于词类比的直观解释的正式证明。一直都是有待探索的有趣的科学问题。我们最终都会运用到共现偏移点互信息定理(或简称 csPMI 定理)。这还是第一次从信息论的角度解释单词向量空间中的欧几里得距离。线性类比在一组单词对上成立,例如 SIF()、TF-IDF 需要视情况而定。要想使得 f 在有序对 S上恰好成立,如何将神经网路的黑盒拆开从而解释这一神奇的现象,这两个发现为我们的研究提供了证据。

  对于每两个单词对(x,y),(a,b),有 csPMI(a,x)=csPMI(b,y)