你知道文本自动补全功能,它让你的智能手机使用起来非常方便——有时也令人沮丧。现在,基于相同想法的工具已经发展到帮助研究人员分析和撰写科学论文、生成代码和头脑风暴的程度。

这些工具来自自然语言处理(NLP),这是人工智能的一个领域,旨在帮助计算机“理解”甚至生成人类可读的文本。这些工具被称为大型语言模型(LLMs),它们不仅成为了研究对象,而且还成为了研究的助手。

llm是经过大量文本训练的神经网络,用于处理,特别是生成语言。位于加利福尼亚州旧金山的研究实验室OpenAI在2020年创建了最著名的LLM GPT-3,通过训练一个网络来根据之前的内容预测下一段文本。在推特和其他地方,研究人员对这种诡异的人形文字表示惊讶。现在任何人都可以通过OpenAI编程接口,根据提示生成文本。(价格从每750字0.0004美元起——这是一个将阅读提示和书写回复结合起来的衡量标准。)

“我想我几乎每天都在使用GPT-3,”冰岛雷克雅未克大学的计算机科学家hafstein Einarsson说。他用它来生成对论文摘要的反馈。Einarsson在6月的一次会议上分享了一个例子,其中一些算法的建议是无用的,建议他添加已经包含在他的文本中的信息。但其他的更有帮助,比如“让研究问题在摘要的开头更明确”。Einarsson说,很难在自己的手稿中发现缺陷。“要么你花两个星期的时间来考虑,要么你可以让别人来研究。这个‘其他人’可以是GPT-3。”

有组织的思考

一些研究人员使用llm来生成论文标题或使文本更具可读性。加州斯坦福大学计算机科学博士生米娜·李(Mina Lee)给出了GPT-3提示,如“使用这些关键词,生成一篇论文的标题”。为了重写麻烦的部分,她使用了以色列特拉维夫AI21实验室的一款名为Wordtune的人工智能写作助手。她说:“我写了一段话,基本上就像在做脑力劳动。”“我只要点击‘重写’,直到找到我喜欢的更简洁的版本。”

纽约布鲁克林科技创业公司Scite的计算机科学家多梅尼克·罗萨蒂(Domenic Rosati)使用一个叫做生成的LLM组织他的思想。Generate是由加拿大多伦多的一家NLP公司Cohere开发的,它的行为很像GPT-3。罗萨蒂说:“我会做笔记,或者只是涂鸦和想法,然后我说‘总结一下’,或者‘把它变成一个摘要’。”“作为一个综合工具,它对我真的很有帮助。”

语言模型甚至可以帮助实验设计。在一个项目中,Einarsson使用游戏Pictionary来收集参与者的语言数据。GPT-3给出了游戏描述,建议他可以尝试不同的游戏变体。从理论上讲,研究人员也可以要求对实验方案进行新的研究。李女士则让GPT-3组织了向父母介绍男朋友时应该做的事情。它建议去海边的一家餐馆。

编码的编码

OpenAI的研究人员对GPT-3进行了大量文本的训练,包括书籍、新闻故事、维基百科条目和软件代码。后来,该团队注意到GPT-3可以完成代码片段,就像它可以处理其他文本一样。研究人员创建了一个名为Codex的算法的微调版本,在代码共享平台GitHub上对超过150g的文本进行训练1.GitHub现在已经将Codex集成到一项名为Copilot的服务中,该服务可以在人们打字时建议代码。

位于华盛顿州西雅图的艾伦人工智能研究所(Allen Institute for AI,也被称为AI2)的计算机科学家卢卡·索尔戴尼(Luca Soldaini)表示,他们的办公室至少有一半使用Copilot。它最适合重复编程,Soldaini说,引用了一个涉及编写样板代码来处理pdf的项目。“它只是脱口而出一些东西,就像‘我希望这是你想要的’。”有时并非如此。因此,Soldaini说,他们很小心地只在他们熟悉的语言和库中使用Copilot,这样他们就可以发现问题。

文献搜索

也许语言模型最成熟的应用涉及搜索和总结文献。AI2的语义学者搜索引擎——涵盖了大约2亿篇论文,主要来自生物医学和计算机科学——使用一种称为TLDR(太长;没有阅读)。TLDR源自社交媒体平台Facebook的研究人员早期的BART模型,该模型对人类撰写的摘要进行了微调。(根据今天的标准,TLDR并不是一个大的语言模型,因为它只包含大约4亿个参数。GPT-3的最大版本包含1750亿个。)

TLDR也出现在AI2的Semantic Reader中,这是一个增强科学论文的应用程序。当用户在语义阅读器中单击文本引用时,会弹出一个包含TLDR摘要的信息框。语义学者的首席科学家丹·韦尔德(Dan Weld)说:“我们的想法是将人工智能应用到阅读体验中。”

当语言模型生成文本摘要时,通常“会出现人们善意地称之为幻觉的问题”,Weld说,“但实际上语言模型完全是在编造或撒谎。”TLDR在真实性测试中表现相对较好2- TLDR论文的作者被要求将其准确性评价为2.5(总分为3)。威尔德说,部分原因是摘要只有大约20个单词长,另一部分原因是算法拒绝了那些引入了不在全文中出现的不常见单词的摘要。

在搜索工具方面,Elicit于2021年由加利福尼亚州旧金山的机器学习非营利组织Ought首次推出。提出一个问题,比如,“正念对决策有什么影响?”,然后输出一个包含十篇论文的表格。用户可以要求软件填写内容栏,如摘要摘要和元数据,以及关于研究参与者、方法和结果的信息。Elicit使用包括GPT-3在内的工具从论文中提取或生成这些信息。

马里兰大学帕克分校的乔尔·陈(Joel Chan)研究人机交互,每当他开始一个项目时,他都会使用Elicit。他说:“当我不知道使用正确的语言进行搜索时,它工作得非常好。”斯德哥尔摩卡罗林斯卡学院(Karolinska Institute)的神经科学家古斯塔夫·尼尔森(Gustav Nilsonne)使用Elicit来查找带有数据的论文,并将其添加到汇总分析中。他说,这个工具已经提示了他在其他搜索中没有找到的论文。

进化模型

AI2的原型为llm提供了一种未来的感觉。有时研究人员在阅读科学摘要后会有问题,但没有时间阅读全文。AI2的一个团队开发了一个可以回答这些问题的工具,至少在NLP领域是这样。它首先要求研究人员阅读NLP论文的摘要,然后就它们提出问题(比如“分析了哪五个对话属性?”)。研究小组让其他研究人员在阅读完论文全文后回答这些问题3..AI2训练了Longformer语言模型的一个版本——它可以吸收一篇完整的论文,而不仅仅是其他模型吸收的几百个单词——在结果数据集上生成关于其他论文不同问题的答案4

一个名为ACCoRD的模型可以生成与NLP相关的150个科学概念的定义和类比,而MS^2,一个包含47万份医疗文档和2万份多文档摘要的数据集,被用于微调BART,使研究人员可以选择一个问题和一组文档,并生成一个简短的元分析摘要。

除了文本生成,还有其他应用。2019年,AI2在Semantic Scholar论文中对谷歌于2018年创建的语言模型BERT进行了微调,创建了具有1.1亿个参数的SciBERT。Scite已经使用人工智能创建了一个科学搜索引擎,进一步对SciBERT进行了微调,以便在其搜索引擎列出引用目标论文的论文时,将它们分类为支持、对比或以其他方式提到该论文。罗萨蒂说,这种细微差别有助于人们识别文献中的局限性或差距。

AI2的SPECTER模型也基于SciBERT,将论文简化为紧凑的数学表示。威尔德说,会议组织者使用SPECTER将提交的论文匹配给同行审稿人,Semantic Scholar使用它根据用户的图书馆推荐论文。

耶路撒冷希伯来大学和AI2的计算机科学家Tom Hope说,AI2的其他研究项目已经对语言模型进行了微调,以确定有效的药物组合、基因和疾病之间的联系,以及COVID-19研究中的科学挑战和方向。

但是语言模型能让我们有更深刻的见解甚至发现吗?今年5月,霍普和韦尔德共同撰写了一篇综述5微软(Microsoft)首席科学官埃里克•霍维茨(Eric Horvitz)等人列举了实现这一目标的挑战,包括教模型“(推断)两个概念重新组合的结果”。霍普说:“生成一只猫飞向太空的图片是一回事。”他指的是OpenAI的DALL·e2图像生成模型。但是,“我们如何才能将抽象的、高度复杂的科学概念结合起来呢?”

这是一个悬而未决的问题。但是LLMs已经对研究产生了切实的影响。“在某种程度上,”Einarsson说,“如果人们不使用这些大型语言模型,他们就会错过机会。”