Nature最新报导：人工智能能够搀扶帮助你写下一篇论文吗？

访客2023-12-03 05:56:3320

大型语言模子能够草拟摘要或定见研究标的目的，但那些人工智能东西仍在开展中。

Matthew Hutson

您晓得文本主动完胜利能让您的智妙手机利用起来十分便利（有时令人沮丧）吗？好吧，如今基于不异设法的东西已经开展到能够搀扶帮助研究人员阐发和撰写科学论文、生成代码和群策群力。

那些东西来自天然语言处置 (NLP)，那是一小我工智能范畴，旨在搀扶帮助计算机“理解”以至产生人类可读的文本。跟着那些被称为大型语言模子 (LLM) 的东西不竭开展，不只已成为研究的对象并且成为研究的助手。

LLM 是颠末大量文本操练的神经收集，能够处置文本，特殊是生成语言。位于旧金山的研究尝试室 OpenAI 在 2020 年创建了最闻名的 LLM，GPT-3，摘用的办法是操练一个收集来根据之前的内容揣测下一段文本。在 Twitter 和其他处所，研究人员对它生成的令人毛骨悚然的类似人类的文字表达骇怪。如今，通过OpenAI 编程接口，任何人都能够利用它根据提醒生成文本。（每处置 750 个字的价格约为 0.0004 美圆，那是一种连系阅读提醒和编写回复的办法。）

“我想我几乎天天都在利用 GPT-3，”雷克雅未克冰岛大学的计算机科学家 Hafsteinn Einarsson 说。他用它来生成关于他论文摘要的反应。在 6 月份的一次会议上，Einarsson 分享了一个例子中，算法的一些定见是无用的，如定见他添加已经包罗在他的文本中的信息。但其他的定见更有搀扶帮助，例如“在摘要的开头使所研究问题愈加明白”。Einarsson 说，很难看出本身手稿中的缺陷。“要么你必需在上面破费两个礼拜，要么你能够让他人看看。而阿谁“其别人”能够是 GPT-3。”

组织根究

一些研究人员利用 LLM 来生成论文题目或使文本更具可读性。加州斯坦福大学计算机科学博士生 Mina Lee 给出了 GPT-3 提醒，例如“利用那些关键字，生成论文的题目”。为了重写费事的部门，她利用了以色列特拉维夫 AI21 Labs 的人工智能写做助手 Wordtune。“我写了一段，根本上就像是在做大脑转存储，”她说。“我只需点击‘重写’，曲到找到我喜好的更简洁的版本。”

纽约布鲁克林科技草创公司 Scite 的计算机科学家 Domenic Rosati 利用名为 Generate 的 LLM来组织他的思维。由加拿大多伦多的 NLP 公司 Cohere 开发的Generate 的行为很像 GPT-3。“我记条记，或者只是涂鸦和根究，然后我说'总结一下'，或者'把它酿成摘要'，”罗萨蒂说。“做为合成东西，它对我实的很有搀扶帮助。”

语言模子以至能够搀扶帮助停止尝试设想。在一个项目中，Einarsson 利用 Pictionary 游戏做为从参与者那里搜集语言数据的一种体例。鉴于游戏的描述，GPT-3 定见他能够测验考试的游戏变体。从理论上讲，研究人员还能够要求对尝试计划停止新的测验考试。至于李，她让 GPT-3 群策群力，将男友介绍给父母时要做的工作。它定见往海边的一家餐馆。

编写代码

OpenAI 研究人员针对各类各样的文本对 GPT-3 停止了操练，包罗册本、新闻故事、维基百科条目和软件代码。后来，团队重视到 GPT-3 能够完成代码片段，就像它能够处置其他文本一样。研究人员创建了一个名为 Codex 的算法的微调版本，在来自代码共享平台 GitHub 1的超越 150 GB 的文本上对其停止操练。GitHub 如今已将 Codex 集成到一项名为 Copilot 的办事中，该办事会在人们键进时提出定见代码。

华盛顿西雅图艾伦人工智能研究所（也称为 AI2）的计算机科学家 Luca Soldaini 表达，他们的办公室至少有一半利用 Copilot。Soldaini 说，它最合适反复编程，并引用了一个涉及编写样板代码来处置 PDF 的项目。“它只是脱口而出，就像，'我期看那就是你想要的'。” 但有时不是如许的。因而，Soldaini 说他们隆重地将 Copilot 仅用于他们熟悉的语言和库，以便发现问题。

文献检索

语言模子最成熟的利用可能涉及搜刮和总结文献。AI2 的 Semantic Scholar 搜刮引擎——涵盖大约 2 亿篇论文，次要来自生物医学和计算机科学——利用称为 TLDR 的语言模子（太长的短；未阅读）供给论文的推文长度描述。TLDR 源自社交媒体平台 Facebook 的研究人员提出的称为 BART 的早期模子，该模子已根据人工编写的摘要停止了微调。（根据今天的原则，TLDR 并非一个大型语言模子，因为它只包罗大约 4 亿个参数。更大的 GPT-3 版本包罗 1750 亿个。）

TLDR 也呈现在 AI2 的语义阅读器中，那是一个加强科学论文的利用法式。当用户在 Semantic Reader 中单击文本引用时，会弹出一个框，此中包罗包罗 TLDR 摘要的信息。“我们的设法是将人工智能间接利用到阅读体验中，”Semantic Scholar 的首席科学家 Dan Weld 说。

当语言模子生成文本摘要时，凡是会呈现“人们好心地称之为幻觉存在问题”，韦尔德说，“但现实上语言模子完满是在编造或扯谎。” TLDR 在实在性测试2中表示相对较好——论文做者 TLDR 被要求描述其准确性为 2.5 分（满分 3 分）。Weld 说那部门是因为摘要只要大约 20 个字长，部门是因为算法回绝了那些介绍未呈现在全文中的生僻词。

在搜刮东西方面，Elicit 于 2021 年从位于旧金山的机器进修非营利组织 Ought 初次表态。问引出一个问题，例如“正念对决策的影响是什么？” 它输出一个包罗十篇论文的表格。用户能够要求软件在列中填写摘要和元数据等内容，以及有关研究参与者、办法和成果的信息。Elicit 利用包罗 GPT-3 在内的东西从论文中提取或生成那些信息。

马里兰大学帕克分校的 Joel Chan 研究人机交互，每当他起头一个项目时城市利用 Elicit。“当我不晓得用于搜刮的准确语言时，它十分有效，”他说。斯德哥尔摩卡罗林斯卡学院的神经科学家 Gustav Nilsonne 利用 Elicit 来查找包罗他能够添加到汇总阐发中的数据的论文。他说，该东西定见了他在其他搜刮中没有找到的论文。

开展中的模子

AI2 的原型为 LLM 供给了一种将来感。有时研究人员在阅读科学摘要后有问题，但没有时间阅读全文。AI2 的一个团队开发了一种能够答复此类问题的东西，至少在 NLP 范畴是如许。它起首要求研究人员阅读 NLP 论文的摘要，然后提出有关它们的问题（例如“阐发了哪五个对话属性？”）。接下来，该团队要求其他研究人员在阅读完论文全文后答复那些问题3。AI2 操练了其 Longformer 语言模子的一个版本——它能够提取一篇完全的论文，而不单单是其他模子承受的几百个单词——在成果数据集上生成关于其他论文的差别问题的谜底4。

一个名为 ACCoRD 的模子能够为 150 个与 NLP 相关的科学概念生成定义和类比，而 MS^2 是一个包罗 470,000 个医学文档和 20,000 个多文档摘要的数据集，用于微调 BART 以容许研究人员提出问题和一组文档并生成一个简短的元阐发摘要。

AI2 的 SPECTER 模子也基于 SciBERT，将论文缩减为紧凑的数学表达。Weld 说，会议组织者利用 SPECTER 将提交的论文与同业评审员停止婚配，Semantic Scholar 用它根据用户的藏书楼选举论文。

但是语言模子能够容许更深进的洞察以至发现吗？5 月，Hope 和 Weld与微软首席科学官 Eric Horvitz 和其别人配合撰写了一篇评论5 ，列出了实现那一目标的挑战，包罗传授模子以“[揣度]从头组合两个概念的成果”。“生成一张飞进太空的猫的图片是一回事，”Hope 说，他指的是 OpenAI 的 DALL·E 2 图像生成模子。但是“我们将若何从那个改变为连系笼统的、高度复杂的科学概念呢？”

那是一个悬而未决的问题。但是大型语言模子已经对研究产生了实在的影响。“在某些时候，”Einarsson 说，“假设人们不利用那些大型语言模子，他们就会错失良机。”

Nature 611, 192-193 (2022)

References

Chen, M. et al. Preprint at

Cachola, I., Lo, K., Cohan, A. Weld, D. S. In Findings of the Association for Computational Linguistics 4766–4777 (2020).

Dasigi, P. et al. In Proc. 2021 Conference of the North American Chapter of the Association of Computational Linguistics 4599–4610 (2021).

Beltagy, I., Peters, M. E. Cohan, A. Preprint at

Hope, T. et al. Preprint at

END

Tags：

Nature最新报导：人工智能能够搀扶帮助你写下一篇论文吗？

相关推荐

控制面板

网站分类

最新留言