我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:王中王 > 定理证明器 >

学界 超越Softmax瓶颈:一种高秩RNN语言模型

归档日期:05-14       文本归类:定理证明器      文章编辑:爱尚语录

  原标题:学界 超越Softmax瓶颈:一种高秩RNN语言模型 选自arXiv 机器之心编译 参与

  卡内基梅隆大学计算机科学学院最近一篇正在评议阶段的ICLR2018论文在arXiv上公开,该论文证明使用分布式词嵌入的Softmax实际上没有足够的能力来建模自然语言,他们为此也提出了自己的解决方法。本论文的并列第一作者是ZhilinYang和ZihangDai。杨植麟(ZhilinYang)本科就读于清华大学计算机系,现就读于CMU。曾在清华 4 年保持全年级第一,同时也是清华大学 2014 年本科生特奖获得者。此外,领导苹果公司的人工智能技术研究的CMU教授RuslanSalakhutdinov也是该论文的作者之一。本文由浙江大学博士生杨海宏推荐,他的研究方向为知识图谱问答。

  在因式分解(factorization)的基础上,基于循环神经网络(RNN)的语言模型在多项基准上都达到了当前最佳的水平。尽管RNN作为通用近似器有出色的表达能力,但点积和Softmax的组合是否有能力建模条件概率(会随语境的变化而发生巨大的变化),这个问题还没有得到清楚的解答。

  在这项工作中,我们从矩阵分解的角度研究了前面提到的基于Softmax的循环语言模型的表达能力。我们表明使用标准公式学习基于Softmax的循环语言模型等价于求解矩阵分解问题。更重要的是,因为自然语言高度依赖于语境,所以被分解的矩阵可能是高秩的(high-rank)。这进一步表明带有分布式(输出)词嵌入的基于标准Softmax的语言模型没有足够的能力建模自然语言。我们称之为Softmax瓶颈(Softmaxbottleneck)。

  我们提出了一种解决Softmax瓶颈的简单且有效的方法。具体而言,我们将离散隐变量(discretelatentvariable)引入了循环语言模型,并且将next-token概率分布形式化为了MixtureofSoftmaxes(MoS)。MixtureofSoftmaxes比Softmax和以前的研究考虑的其它替代方法有更好的表达能力。此外,我们表明MoS可以学习有更大的归一化奇异值(normalizedsingularvalues)的矩阵,因此比Softmax和基于真实世界数据集的其它基准有高得多的秩。

  我们有两大贡献。首先,我们通过将语言建模形式化为矩阵分解问题而确定了Softmax瓶颈的存在。第二,我们提出了一种简单且有效的方法,可以在当前最佳的结果上实现显著的提升。

  摘要:我们将语言建模形式化了矩阵分解问题,并且表明基于Softmax的模型(包括大多数神经语言模型)的表达能力受限于Softmax瓶颈。鉴于自然语言高度依赖于语境,这就进一步表明使用分布式词嵌入的Softmax实际上没有足够的能力来建模自然语言。我们提出了一种解决这一问题的简单且有效的方法,并且在PennTreebank和WikiText-2上分别将当前最佳的困惑度水平改善到了47.69和40.68。

  在PTB和WT2上的语言建模结果分别在表1和表2中给出。在参数数量差不多的情况下,MoS的表现超越了所有使用了或没使用动态评估(dynamicevaluation)的基准,并且在当前最佳的基础上实现了显著的提升(困惑度改善了高达3.6)。

  为了进一步验证上面所给出的改善确实源自MoS结构,而不是因为增加了额外的隐藏层或找到了一组特定的超参数,我们在PTB和WT2上执行了ablationstudy(是指移除模型和算法的某些功能或结构,看它们对该模型和算法的结果有何影响)。

  我们绘制了归一化的奇异值的累积百分比,即归一化的奇异值低于某个阈值的百分比。

  ✄------------------------------------------------

本文链接:http://brazil-run.com/dinglizhengmingqi/393.html