REALM:将检索集成到语言表示模型中

自然语言处理的最新进展在很大程度上建立在无监督预训练的能力之上,该预训练使用大量文本训练通用语言表示模型,无需人工注释或标签。这些预先训练好的模型,例如BERT和RoBERTa,已被证明能够记住惊人数量的世界知识,例如“ Francesco Bartolomeo Conti的出生地”、“ JDK的开发者”和“ Border TV的所有者””。虽然对知识进行编码的能力对于某些自然语言处理任务(例如问答、信息检索和文本生成)尤其重要,但这些模型会隐式地记忆知识——即,世界知识在模型权重中以抽象方式被捕获——这使得它变得困难以确定存储了哪些知识以及将其保存在模型中的位置。此外,存储空间以及模型的准确性受到网络大小的限制。为了获取更多的世界知识,标准做法是训练更大的网络,这可能会非常缓慢或昂贵。

相反,如果有一种可以显式访问知识的预训练方法,例如,通过引用额外的大型外部文本语料库,以便在不增加模型大小或复杂性的情况下获得准确结果,该怎么办?例如,在外部文档集合中发现的句子“Francesco Bartolomeo Conti 出生于佛罗伦萨”,可以被模型引用来确定音乐家的出生地,而不是依赖模型访问存储在其中的知识的不透明能力它自己的参数。检索包含此类显性知识的文本的能力将提高预训练的效率,同时使模型能够在不使用数十亿参数的情况下在知识密集型任务上表现良好。

在2020 年机器学习国际会议接受的“ REALM: Retrieval-Augmented Language Model Pre-Training ”中,我们分享了一种新的语言模型预训练范式,它用知识检索器增强了语言表示模型,允许 REALM 模型从原始文本文档中明确检索文本世界知识,而不是记住模型参数中的所有知识。我们还开源了REALM 代码库,以演示如何联合训练检索器和语言表示。

背景:预训练语言表示模型

要了解标准语言表示模型如何记忆世界知识,首先应该回顾这些模型是如何预训练的。自BERT发明以来,填空任务,称为掩码语言建模,已被广泛用于预训练语言表示模型。给定任何包含某些单词的文本,任务是填补缺失的单词。此任务的示例如下所示:

 

觉得好的话记得打赏赞助小灰灰哦,小灰灰灰更有动力的,谢谢

小灰灰

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: