当前位置：乐搜资讯网 >> 科普 >> 文章正文

这可能会导致一般人工智能的下一个重大突破

发布于：2020-11-26 被浏览：3016次

作者：郝凯伦

翻译：张怡然

校对：欧阳金

这篇关于2500字，的文章建议读8分钟。

研究人员正在教授一个大型语言模型如何“看”来帮助他们更好地理解世界。

你可能已经听我们说过很多次了，GPT 3号能够生成一个类似人类语言的大型人工智能模型，这是一个奇迹，也是一个巨大的海市蜃楼。你可以用一个简单的手法来区分：问它羊的颜色，它回答“黑”的次数是“白”的次数，反映出“黑羊”这个短语出现在我们的日常语言中。

这是语言模型的问题，因为他们只在文本上训练，缺乏常识。最近，北加州大学教堂山分校的一名研究人员设计了一种新技术来解决这个问题。他们称这种技术为vokenization，使GPT3等模型具有“看”的能力。

这不是人类第一次尝试将语言模型和计算机视觉结合起来。其实是一个飞速发展的AI领域。这种想法的产生是因为两种类型的人工智能有不同的优势。像GPT-3这样的语言模型是通过无监督学习来训练的，不需要人工标注数据，因此易于扩展。相比之下，像目标识别系统这样的图像模型可以更直接地从现实中学习。换句话说，他们学什么并不取决于课文提供了什么。他们可以从绵羊的照片中“看到”它们其实是白色的。

AI模型，可以分析语言和视觉输入，也有很实际的应用。例如，如果我们想建造机器人助手，他们需要计算机视觉来导航世界，需要语言来与人类交流。

然而，结合两种类型的人工智能说起来容易做起来难。这不是简单地将现有的语言模型与现有的目标识别系统绑定。它需要用一个包含文本和图像的数据集从头开始训练一个新的模型，这个数据集也被称为视觉语言数据集。

获取此类数据集的最常见方法是收集带有描述性标题的图像集合。比如下图的标题是“一只橘猫正坐在一个准备打包的行李箱里。”这和典型的图像数据集不同，典型的图像数据集只用一个名词来标注下面的图片，比如“猫”。因此，可视化语言数据集不仅可以教会人工智能模型如何识别目标，还可以使用动词和介词来告诉模型目标如何相互作用。

然而，制作这样的数据集非常耗时。这就是为什么现有的可视化数据集如此微不足道的原因。一个常用的纯文本数据集，比如英文维基百科(实际上包括几乎所有英文维基百科条目)，可能包含近30亿个单词。像MS COCO这样的视觉语言数据集，只包含700万。根本没有足够的数据来训练AI模型提供有用的信息。

“Vokenization”通过使用无监督学习方法将MS COCO中的少量数据缩放到英文维基百科的大小来解决这个问题。在当今最难评估AI语言理解的测试中，用这个训练集训练的视觉语言模型比目前最好的模型要好。

自然语言处理初创公司HuggingFace的联合创始人兼首席科学官托马斯沃尔夫(Thomas Wolf)表示：“没有大的变化，你就无法在这些测试中超越最先进的水平。”“这不是一个简单的测试。所以才这么刺激。”

从token到voken

首先，让我们澄清一下这些术语。沃肯是什么？

在AI语言中，用来训练语言模型的词叫做token。因此，UNC研究人员决定将视觉语言模型中与每个标记相关的图像称为“voken”。为每个令牌寻找voken的算法叫做Vokenizer，整个过程叫做vokenization。

目的不仅仅是为了说明AI研究者有多喜欢编词。(他们有)。这也有助于理解vokenization背后的基本思想。UNC研究人员不是从图像数据集开始，手动将句子写成标题(这是一个非常缓慢的过程)，而是从语言数据集开始，使用无监督学习将每个单词与相关图像进行匹配(后面会详细描述)。这是一个高度可扩展的过程。

因此，无监督学习技术是本文最大的贡献，即如何为每个单词找到相关的图像。

Vokenization

让我们回到GPT 3。GPT-3是transformer语言模型家族的成员。2017年transformer的出现带来了巨大的突破，因为它将无监督学习应用到自然语言处理中。变压器通过观察上下文中单词的用法来学习人类语言的模式，然后根据上下文为每个单词创建一个数学表示，称为“单词嵌入”。比如“猫”这个词的嵌入，可能表示它经常用在“喵”和“橙”这两个字的周围，而很少用在“树皮”或“蓝色”这两个字的周围。

这就是变形金刚如何近似表达单词的意思，以及GPT-3如何编译类似人类的句子。它部分依赖于这些嵌入来告诉它如何将单词组合成句子，将句子组合成段落。

有一种并行技术也可以用于图像。它不是扫描文本来寻找单词的使用模式，而是扫描图像来寻找视觉模式。例如，它列出了猫出现在床上而不是树上的频率，并使用这些上下文信息来创建“猫”嵌入。

北卡罗来纳大学的研究人员认为，他们应该在微软COCO上使用这两种嵌入技术。它们将图像转换成视觉嵌入，将标题转换成文字嵌入。这些嵌入的真正微妙之处在于它们可以嵌入到三维空间中，并且它们之间的关系可以直接看到。视觉嵌入与文字嵌入关系密切，在图中会显示得更近。换句话说，视觉猫嵌入(理论上)应该和基于文本的猫嵌入重叠。很酷。

你应该能看到下一步怎么走。一旦所有嵌入都用图形表示出来，并与其他嵌入进行比较，图像(vokens)就可以很容易地与单词(记号)匹配。记住，因为图像和文字是按照嵌入来匹配的，所以在上下文中也是匹配的。当一个单词有完全不同的意思时，这很有用。这项技术通过为一个单词的每个实例找到一个不同的voken成功地解决了这个问题。

例如：

这是她的contact。

标签：语言模型数据