大语言模型:基础与前沿

978-7-115-63488-7
作者: 熊涛
译者:
编辑: 秦健

图书目录:

详情

本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。首先,本书介绍了人工智能领域的进展和趋势;其次,探讨了语言模型的基本概念和架构、Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容;最后,讨论了语言模型对环境的影响。 本书内容全面、系统性强,适合高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考。

图书摘要

版权信息

书名:大语言模型:基础与前沿

ISBN:978-7-115-63488-7

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    熊 涛

责任编辑 秦 健

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内容提要

本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。首先,本书介绍了人工智能领域的进展和趋势;其次,探讨了语言模型的基本概念和架构、Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容;最后,讨论了语言模型对环境的影响。

本书内容全面、系统性强,适合高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考。

资源与支持

资源获取

本书提供如下资源:

书中彩图;

本书思维导图;

本书参考文献电子版;

异步社区7天VIP会员。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

提交错误信息

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,点击“发表勘误”,输入错误信息,点击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域40余年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。

前  言

理解语言和通过语言进行交流的能力是人类互动的重要组成部分。长期以来这种能力被认为是人类智力的标志。近年来,随着自然语言处理和深度学习技术的不断进步,人们对开发大语言模型(Large Language Model,LLM)的兴趣激增。ChatGPT是一种可以生成类人文本的大语言模型,一经推出便风靡全球。GPT-4模型的问世进一步激发了人们对大语言模型的热情,其对语言处理和人工智能的潜在影响不容小觑。

大语言模型的快速发展激发了我写这本书的灵感。随着语言模型变得越来越强大和复杂,向读者全面介绍这些模型的基础知识和前沿发展变得至关重要。在本书中,我希望解释大语言模型背后的基本概念,并探索该领域的最新趋势和发展。

鉴于大语言模型对社会的重大影响,我感到写这本书的时间很紧迫。这些模型有可能彻底改变我们的交流、学习和工作方式。它们可以提高我们对复杂问题的理解、促进决策并增强我们的创造力。然而,大语言模型也会引发道德问题,如隐私、偏见和责任。因此,必须了解这些模型的潜力和局限性,才能借助它们的力量来获得更大的利益。我关注的不仅仅是过去和现在。我还想激励读者展望未来,探索大语言模型的前沿领域。未来几年我们可以期待哪些新的突破?这些模型将如何发展并适应新的挑战和领域?会出现哪些新的应用和用例?

第1章概述了LLM的辩论、争议和未来发展方向。第2章讨论了语言模型和分词的基础知识。第3章深入阐释了Transformer架构。第4章深入分析了LLM的预训练,涉及预训练目标和解码策略,而第5章探讨了这些模型的上下文学习和轻量级微调。第6章~第9章介绍了LLM领域的一些进展,包括并行、稀疏专家模型、检索增强型语言模型,以及根据人类偏好调整语言模型。第10章探讨了LLM如何帮助减少偏见和有害性,这是人工智能领域一个日益重要的方面。第11章将重点转移到视觉语言模型上,探讨如何将视觉信息整合到语言模型中。第12章阐释了语言模型对环境的影响,包括能源消耗、温室气体排放等问题。

本书是为自然语言处理、机器学习以及人工智能领域的学生、研究人员及从业者精心打造的。对于LLM对社会的影响和潜在价值感兴趣的人士(包括政策制定者、教育工作者及记者),本书同样有用。随着大语言模型的不断发展和对人工智能未来趋势的塑造,我衷心希望这本书能够成为对这一充满挑战且发展迅速的领域感兴趣的人士的宝贵资源。

写书从来都不是孤军奋战,在此我要向所有在整个写作过程中支持我的人表示最深切的感谢。首先,我要感谢我的家人,感谢他们坚定不移的爱、支持和耐心。他们的鼓励和理解对我投入必要的时间和精力来完成这本书至关重要。

我也感谢我的导师和合作者,他们为我提供了宝贵的见解和反馈。我还要感谢大语言模型领域的研究人员、工程师等,感谢他们的奉献和贡献,是他们启发和指导了我的工作。我还要感谢出版社的编辑及制作团队为本书的出版所付出的不懈努力。

最后,我要感谢本书的读者,感谢你们对大语言模型主题的兴趣和参与。你们的热情是我撰写这本书的动力。我希望这本书能成为一份宝贵的资源,并激励人们在这个令人兴奋和快速发展的领域进一步研究和发展。

熊涛

第1章 大语言模型:辩论、争议与未来发展方向

大语言模型(Large Language Model,LLM)可以说是过去10年中最重要的机器学习(Machine Learning,ML)创新。新一代的大语言模型,如ChatGPT和GPT-4模型(OpenAI,2023b),已经发展为极具影响的产品,以其前所未有的能力在世界范围内掀起了一场风暴,它可以生成类似人类的文本、对话,在某些情况下还可以进行类似人类的推理。

LLM有广泛的潜在应用,可以提高各种行业的效率。例如,在医疗保健领域中,GPT-4模型和其他LLM可以分析大量的医疗数据,为诊断和治疗提供更明智的决策;在金融领域中,LLM可以通过分析市场趋势和预测股票价值发挥作用;在市场营销领域中,像GPT-4模型这样的LLM可以提供个性化的建议和广告素材;在教育领域中,GPT-4模型可以为学生量身定制学习计划。

LLM的另一个重要应用是解释蛋白质的氨基酸序列,这有助于加深我们对这些基本生物成分的理解。LLM在理解DNA和化学结构方面也有帮助。此外,LLM还被整合到机器人技术中,为软件开发人员提供帮助。例如,DeepMind的Gato(Reed et al,2022)——一个基于LLM的模型,通过对600多个独特任务的训练,让机械臂学会了如何堆积木。这种多功能性使LLM能够在游戏或聊天机器人动画等不同的环境中有效运行。LLM是一种多功能的工具,可以自动执行各种任务,包括数据录入、内容创建和客户服务等。通过这种方式,员工可以得到解放,从而专注更高层次的职责,最终提高使用LLM的企业的效率和生产力。

LLM正在迅速地向前发展。GPT-4模型是这一领域的新发展成果之一,它拥有一系列有别于之前的模型的新颖功能。由于GPT-4模型具有从文本、图像和音频等不同输入中学习的能力,因此它具有高度的适应性和全面性。凭借先进的推理和逻辑思维能力,它可以处理需要更高级认知技能方面的复杂任务。此外,GPT-4模型改进了记忆和微调过程,使其能够更好地理解对话或文本的上下文,并轻松地为特定任务定制人工智能模型。它还改进了多语言能力,能够处理和理解多种语言。

在本章中,我们将探索LLM的迷人世界。LLM是人工智能研究领域的一项重大发展,它使得机器能够执行各种语言任务,并取得了令人印象深刻的成果。我们将探索这个新时代的曙光,并围绕LLM在意识方面的潜力展开讨论。我们还将讨论LLM的层次结构、具身化(embodiment)和落地(grounding)的作用,以及LLM中的世界模型、沟通意图和系统性的重要性。最后,我们将着眼于LLM研究的未来发展方向,考虑其进一步发展和应用的潜力,同时探讨具有意识的机器所涉及的伦理问题。

1.1 新时代的曙光

人工智能(Artif icial Intelligence,AI)的最终目标是创造出能够以类似于人类交流的方式进行对话的机器。这些机器被称为自然语言理解(Natural Language Understanding,NLU)系统。它们被视作人工智能的顶峰,因为语言被认为是人类智慧的缩影。在人工智能和自然语言处理(Natural Language Processing,NLP)中,NLU研究经历了乐观和失望的交替时期(Bowman et al,2022)。然而,最近在NLU技术方面取得的进展让人们对创造出能像人类一样交谈的机器重拾信心。

这些系统被称为大语言模型、大型预训练模型或基础模型(foundation model)。它们是具有数十亿个参数(权重)的深度神经网络,在庞大的自然语言语料库中进行“预训练”。这些语料库包括海量的Web数据、在线图书和其他包含TB级数据的数据集。在训练过程中,这些神经网络的任务是利用一种称为“自监督学习”的方法预测输入句子的隐藏部分。由此产生的网络是一个复杂的统计模型,能够反映出训练数据中单词和短语之间的关系。

得益于新一代的NLU系统,人们对于创造“会说话的机器”的信心空前高涨。ChatGPT是迄今为止非常先进的会话智能体(agent),其优势确实令人印象深刻。这可以从下面的例子中得到证明。

问:给定一串数字1、11、21、1211,下一个数字是什么?
(ChatGPT于2023年3月24日测试):序列中的下一个数字是111221。要想知道这个数字是如何得到的,可以看看数列中的上一个项:1211。这个项可以理解为“一个1,一个2,两个1”,从而得出数列的下一个项:111221。这个项可以理解为“三个1,两个2,一个1”。
序列的模式是每一项都描述了前一个项。例如,第四项描述第三项,即计算第三项中每个数字出现的次数,然后将这些数字写成一个新数字。
所以,为了找到序列中的第五项,我们需要计算在第四项(1211)中每个数字出现的次数,即“一个1,一个2,两个1”。然后,我们将其写成序列的下一个项:111221。

问:李先生有4个儿子。每个儿子都有一个妹妹。李先生有多少个孩子?
(ChatGPT于2023年3月28日测试):李先生有5个孩子。
这个谜题是一个典型的诡计问题,它基于这一事实:问题的措辞可以有不同的解释。
初看上去,问题似乎是在问李先生共有多少个儿子,也就是4个。然而,问题接着指出,每个儿子都有一个妹妹,这意味着李先生的孩子中只有一个女孩。因此,李先生的孩子总数是4个儿子加1个女儿,等于5个孩子。

问:两年前,我的年龄是弟弟的三倍。三年后,我的年龄将是弟弟的两倍。我们现在各自的年龄是多少?
(ChatGPT于2023年3月28日测试):假设你现在的年龄是“x”,你弟弟现在的年龄是“y”。
从第一条信息中,我们知道,两年前,你是“x-2”岁,你弟弟是“y-2”岁。我们还知道,当时你的年龄是你弟弟的三倍,所以我们可以建立以下方程:
x-2=3(y-2)
展开这个方程可以得到:
x-2=3y-6
x=3y-4
从第二条信息中,我们知道,三年后,你将是“x+3”岁,你弟弟将是“y+3”岁。我们被告知,届时你的年龄将是你弟弟的两倍,所以我们可以建立以下方程:
x+3=2(y+3)
展开这个方程可以得到:
x+3=2y+6
x=2y+3
我们现在有两个方程和两个未知数。我们可以通过代入法,用一个变量来求解另一个变量:
3y-4=2y+3
y=7
将y=7代入任一方程,我们就可以解出x:
x=2y+3=17
因此,你现在17岁,你弟弟7岁。两年前,你15岁,你弟弟5岁;三年后,你20岁,你弟弟10岁。

如上所示,大语言模型能够通过解决数学和推理问题来回答人类的问题,同时还能为其答案提供解释。此外,这些模型还能生成语法正确、语义连贯、文体流畅的文本。ChatGPT的表现前所未有,而且现在已经被公众广泛使用。人们可以用各种语言与ChatGPT互动。因此,这些基于大语言模型的系统的能力给人留下了这样的印象:它们对自然语言有类似人类的理解,并表现出智能行为。

1.2 LLM有意识吗

LLM的流行和影响力的飙升并非没有受到怀疑和批评。一些哲学家、认知科学家、语言学家、人工智能从业者就LLM是否有可能实现语言理解展开了激烈的辩论。2022年对自然语言处理界活跃的研究人员进行的一项调查显示,这场辩论存在明显分歧。其中一项调查询问受访者是否同意关于LLM原则上能不能理解语言的说法:“只要有足够的数据和计算资源,一些只针对文本进行训练的生成模型(即语言模型)可以在某种非琐碎的意义上理解自然语言”。在480名受访者中,基本上一半(51%)表示同意,另一半(49%)表示不同意(Michael et al,2022)。

1.2.1 理解LLM的层次结构

对LLM及其行为的理解存在一个层次结构,可以将其分为4个不同的层次。

还原主义:一些研究人员认为,由于LLM是纯粹的数学构造,只能进行矩阵乘法和其他数字计算,因此缺乏理解、思考和意义。

没有理解的能力:尽管LLM的规模巨大,但它可以产生与人类认知功能相当的结果,而无须理解手头的任务。

认真对待LLM的涌现:了解LLM的一种更微妙的方法是探索它们表现出意识的潜力。通过研究这些模型的行为模式,可以创建一个新的人工智能心理学领域。

朴素拟人主义:有些人认为,因为LLM像人类一样使用语言,所以它们拥有类似人类的品质。然而,这种观点过于简单化,没有考虑到真正的人类认知的复杂性。

1.2.2 意识是否需要碳基生物学

根据目前的理解,语言模型作为纯粹的计算系统,缺乏意识所需的碳基生物学的基本特征。此外,一些研究人员如Block(2009)断言,意识依赖特定的电化学过程,而人工智能等硅基系统缺乏这种过程。如果这些观点成立,这将意味着所有硅基人工智能都不可能具有意识。

但也有一种反驳。人类的意识和思维与物质的大脑,特别是其神经元、突触和其他活动有着错综复杂的联系。这意味着心灵和身体之间不存在幽灵般的脱离关系。神经科学家和心灵哲学家已经驳斥了心灵是独立于大脑而存在的虚无实体的观点。我们必须认识到,大脑的运作是人类认知、感知和行为的基础。心灵不是控制身体的独立实体,而是大脑复杂神经活动的产物。这一认识得到了神经科学的广泛研究的支持。研究表明,每一次有意识的体验都与特定的大脑活动模式相对应。

尽管如此,在某些哲学和宗教传统中,身心分离的观念仍然存在。然而,这些说法受到越来越多证据的挑战,这些证据证明了心灵和大脑的相互联系。

1.2.3 具身化与落地

“中文房间”实验是美国哲学家John Searle于1980年首次提出的一个在现代哲学中颇具影响力的思想实验(Searle,1980)。在实验中,Searle设想自己在一个房间中,房间中有一套操作中文符号和汉字的指令。尽管Searle不懂中文,但他还是按照指令操作,并产生了连贯的中文句子,可以让外人相信房间中有一个讲中文的人。

然而,Searle认为,这种产生可理解的句子的能力并不等同于对语言的真正理解。在他看来,通过编程让计算机以类似的方式对汉字做出反应,只能产生一种理解的表象,而没有真正理解。这一结论对“图灵测试”的有效性提出了挑战,因为“图灵测试”评估的是机器表现出类似人类智能的能力。Searle认为,问题的关键在于计算机只能根据预先设定的规则操纵符号,而不能真正掌握意义或语义。该实验表明,真正的理解不仅仅涉及语法,而计算机无法复制真正理解所涉及的认知过程。

Harnad(1990)主张,人工智能系统需要落地于环境,才能从根本上拥有意义、理解力和意识。Bender and Koller(2020)在文章“Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data”中深入探讨了语言模型,如GPT-3模型(Brown et al,2020)或BERT模型(Devlin et al,2018)能否真正理解语言的问题。他们研究了形式和意义之间的关系,强调了语言的有形方面(如代表语言的符号和标记)即形式。另外,意义指的是这些形式如何与现实世界中的物体和事件相关联。根据Bender and Koller(2020)的观点,仅仅依靠观察语言表达的共现的模式无法了解意义的真正本质。他们利用Searle的“中文房间论证”的改进版来支持这一论断。原因是,意义在本质上是与语言形式和语言之外的具体或抽象事物的交际意向之间的关系联系在一起的。因此,像GPT-3这样的基础模型的功能仅仅是“随机鹦鹉”,它们根据概率信息从庞大的训练数据中随机组合语言形式的序列,而没有真正涉及意义(Bender et al,2021)。

此外,Bisk et al(2020)认为,基础模型的主要制约因素是它们完全依赖语言数据进行学习,而人类是通过具身化、落地和社会互动等方式在世界中的体验来习得语言的。由于这些模型缺乏人类所拥有的对语境的理解,因此无法获得对语言的真正理解,而不仅仅是词汇的共现。因此,尽管这些模型能有效地模仿语言的使用方式,但它们仍然缺乏像人类那样理解和利用语言的能力。

语言落地指的是词语的意义来自它们与我们现实世界经验的联系。在此背景下,语言的社会性也很关键,因为语言只有在与他人交流的社会环境中才有意义。将我们理解语言的方式模板化可以增强我们对“语言落地”的理解。当我们阅读或聆听语言时,大脑会触发一连串的联系经验,促进我们对文本的理解。例如,当听到“猫”这个词时,我们的脑海中立即浮现出猫的形象和行为,以及之前与其他动物如狗的接触。这个过程往往是自动的、下意识的,尤其是当我们匆忙地使用语言时。

儿童习得语言的方式是语言落地的有力例证。典型例子是婴儿通过利用他们周围环境的各种提示来习得语言。他们存在于一个物理世界中,接受来自多方面的感官输入,如聆听针对他们的讲话,观察其他人之间的互动,以及自己尝试说话。婴儿积累了大量的数据,但这些数据并不仅仅来自文本,他们还需要其他感官输入。相比之下,语言模型只能获得词元序列,其能力仅限于识别这些序列中的模式,而没有任何实际经验。

意识和理解需要感官和具身化,这一观点正受到人们的质疑。有人认为,即使是一个缺乏感官和身体的系统,如“桶中大脑”这一思想实验,也可以拥有有意识的思维,尽管有其局限性。同样,一个没有配备感官的人工智能系统可以进行数学推理,思考自身的存在,甚至可能分析世界。此外,语言模型的训练数据中隐含的连贯性概念表明,数据偏向于真实的主张或能够形成连贯世界观的主张。这种规律性在句子内部、句子之间,以及在跨文档和文档集合之间都是很明显的。尽管现今的语言模型可能还不会完全受益于这种结构,但是未来的模型很可能能够隐含地表征一个丰富而详细的世界图景。

关于人类的语言习得,需要注意的一点是,婴儿学习语言的典型方式可能并不包括人类的全部经验。虽然视觉落地对语言学习可能有帮助,但它不是语言学习的必要条件,其他感官输入如听觉、触觉、嗅觉和味觉等也是如此。定义人类成功学习语言的必要和充分的输入是一项具有挑战性的任务。

落地论的另一个局限性是其狭隘的意义概念,即它只基于语言与世界之间的关系。虽然指称能力(referential competence)很重要,但它不是意义的唯一方面。Marconi(1997)区分了指称能力和推理能力,前者涉及将词语与世界联系起来的能力,后者涉及词语如何与其他词语相关的知识。这两种能力是相互关联的,但也是有区别的,甚至在神经认知层面也是如此(Calzavarini,2017)。例如,某人可能有关于布偶猫的知识,但不能指称它们;而另一个人也许能够识别贵宾犬,但缺乏关于其起源或分类的知识(Lenci,2023)。Piantasodi and Hill(2022)也有类似的观点,认为词汇项的意义来自它与更广泛概念框架中其他元素的关系。

词汇语义学领域的一个主流观点认为,分析大量语料库中的词汇共现模式可以产生词汇的语义表征。这一概念被Firth(1957)简明扼要地表述为“你可以通过一个词的伙伴来了解它”。在日常生活中,理解一个词的一个重要方面依赖于一个人对通常与之相伴的词的熟悉程度。这主要是由于我们对世界上的事件、实体和行动的了解都是通过语言接触而获得的,如阅读和听别人说话。

认知科学的最新发展正在挑战“落地在意义中的作用”的传统观点,转而提倡“多元表征”(representational pluralism)的观点。根据这一观点,所有概念都是由经验表征和语言表征组成的,但它们的相对重要性是不同的。语言具身化假说的支持者,如Dove(2023),认为语言模拟在概念的形成中起着重要作用。因此,语言的共现以及其他多模态的经验有助于意义的形成(Lenci,2018)。依靠从语境中提取的统计分布的基础模型,已被证明在先天性视觉障碍者学习视觉属性的过程中发挥了重要作用(Lewis et al,2019b)。这表明,纯文本的基础模型,即使缺乏指称知识,也能对意义有一定的理解。Piantasodi and Hill(2022)认为,这类似于一个人可以知道“土豚”(aardvark)这样的单词的含义,但无法指出其指称对象。Bi(2021)在其研究中提出了一种基于模型的技术,通过分析阅读自然句子时诱发的大脑活动,初步展示了检测经验和语言习得知识的方法。

基础模型的新进展致力于通过整合图像和动作等不同来源的信息来解决落地问题。例如,视觉语言模型(我们将在第11章中深入讨论)落地于环境的图像,而语言动作模型(Ahn et al,2022)则落地于可执行的动作。如图1-1所示,语言决策模型可以通过提示、传统的生成模型、计划、最优控制和强化学习等手段将基础模型落地实际决策场景。CLIP(Radford et al,2021)和DALL·E2(Ramesh et al,2022)分别是可以从图像生成文本和从文本生成图像的模型。GPT-4作为一个多模态模型,可以结合不同的模态,通过接触“语言之外的世界”,在一定程度上解决落地问题。图1-2展示了DeepMind的MIA(Multimodal Interactive Agent,多模态互动智能体)。在3D的“游戏屋”(Playhouse)环境中,人类和智能体使用模拟的化身进行互动。这个环境由各种房间组成,房间中有家庭用品、儿童玩具、容器、架子、家具、窗户和门,所有这些都是随机排列的。物体和空间的多样性使得互动涉及物体关系的推理、空间推理、参照物的模糊性、构造、支持、遮挡、部分可观察性和隔离。智能体可以在“游戏屋”中移动、操纵物体,并相互交流。因此,尽管Bender and Koller(2020)提出的落地问题对于强调基础模型与多模态数据的整合很重要,但这并不构成反对基础模型的明确论据。

图1-1 语言决策模型基于大量的数据进行预训练,
通过与外部实体互动和接收反馈来完成特定的任务(图片来源:Yang et al,2023a)

图1-2 模拟的“游戏屋”环境中的互动(图片来源:Team et al,2021)

从人类的角度来看,语言模型是一种极端情况,因为它们缺乏许多典型的人类能力,却拥有一种超人类的能力。因此,人类很难想象成为这样的智能体会是什么样子。因此,人类对语言模型的直觉也许并不可靠。

1.2.4 世界模型

LLM是学习世界模型或仅仅是表面统计呢

LLM是一种数学模型,可以生成人类文本中的词元的统计分布。这些词元可以是单词、单词的一部分或单个字符,其中包括庞大的公共语料库中的标点符号。LLM能够生成可能的单词序列,并能够回答与之相关的具体问题。正如Shanahan(2022)所论证的,从根本上说,基本LLM的知识是有限的,因为它主要进行序列预测。虽然它有时可以生成命题序列,但命题序列和真理之间的特殊联系只有在人类提出问题或为模型的训练提供数据时才会显现。LLM并不像人类那样认为命题序列是特殊的,它缺乏准确理解真假的能力。有人可能会说,LLM对哪些词通常跟在其他词后面有一种感觉,与意向性立场无关。但根据Shanahan(2022)的说法,这并不等同于仅仅通过预测“美国北部的国家是”后面跟的是“加拿大”就知道加拿大在美国的北部。将这两个概念混为一谈,犯了一个重大的类别错误。

根据Bender and Koller(2020)的观点,LLM在实现“人类模拟”理解方面是一条死胡同。在语言语义学领域,Bender和Koller的观点被广泛接受。这种观点可以追溯到20世纪中期的逻辑学和语言学研究,并由Lewis(1976)进一步加强。Lewis认为“不处理真理条件的语义学就不是语义学”。

大多数最新的LLM都将Transformer纳入其架构中,这对于有效地模拟句子或文档中的词元之间的长程依赖关系尤其有利。Transformer被认为是一个通用的函数近似器,能够在给定足够的训练数据和计算资源的情况下,对任何连续函数进行近似,并达到所需的准确度。因此,Transformer具有高度的通用性,能够学习自然语言数据中的复杂模式,如单词之间的句法和语义关系,并利用这些知识来产生连贯而有意义的文本。

因此,至少在理论上,像Transformer这样的神经网络系统有可能开发出深层次的、稳健的世界模型。随着时间的推移,这有可能使得预测任务取得更好的表现。因此,为了尽量减小这些系统的预测误差,需要对世界有全面的了解。例如,在讨论纽约市的地铁系统时,一个完善的地铁系统模型将极大地提高预测的准确性。这意味着,充分优化各种模型的预测误差,应该会产生稳健的世界模型(Chalmers,2023)。事实上,Goldstein et al(2022)发现,GPT等自回归语言模型遵循的重要计算原理与大脑相类似,后者在处理自然语言时会进行下一个单词的预测。大脑用上下文嵌入来表征单词,这些嵌入包含了语言上下文的各种句法、语义和语用(pragmatic)属性。需要注意的是,语用属性的一个方面是理解他人话语的本意,而不仅仅是理解字面意思。分布式学习是一种有效的知识归纳机制,因为语言旨在用于交流我们对世界的体验,并将这些体验的相关方面编码在语言结构中。Louwerse的“符号相互依赖假说”支持这一观点。相关体验不仅包括具身性的维度,还包括语用性和社会性的维度,这些维度都可以从共现数据中复原。在最近的一项研究中,Hu et al(2022)系统地调查了基础模型的语用能力,如识别间接言语行为以及理解隐喻和讽刺等。他们发现,这些模型解决了其中的一些能力,其准确性接近于人类。这项研究并没有表明神经语言模型拥有“语用理解能力”,而是表明对语言形式方面的经验可能足以推导出许多类似人类的行为模式。这与认知证据相一致,表明语言理解并不总是需要构建高度结构化的语义表征或复杂的推理过程。根据句子处理的“足够好”模型,可以使用简单的表面启发式方法来构建表征,以完成特定语言理解任务。这种启发式方法可能包括与特定沟通意图或语义维度密切相关的分布线索,神经语言模型善于从语言输入中学习这些线索,并利用这些线索来高效地解决沟通任务。

主要问题不是语言模型是否有可能拥有世界模型和自我模型,而是这些模型目前是否存在于LLM中。这是一个经验调查问题。虽然相关证据还不完善,但可解释性研究表明,LLM可以拥有强大的世界模型。例如,研究人员Li et al(2022)训练LLM玩黑白棋游戏,结果表明,LLM建立了一个游戏棋盘方格的内部模型,并以此来决定下一步棋。Li et al(2022)的研究表明,在某些自然语言环境中,预先存在的Transformer拥有隐式生成世界语义近似表征的能力。此外,人们还在努力确定在语言模型中如何被表征以及在哪里被表征(Akyürek et al,2022a;Jiang et al,2020)。

1.2.5 沟通意图

当今的语言模型似乎并不具备沟通意图(Shanahan,2022;Bender and Koller,2020)。它们对提示做出反应时没有任何刻意的意图,而且经常产生不连贯或相互矛盾的输出。它们的行为可以用数学方法来解释,但这些解释并没有考虑到任何意图的成分,这就强化了它们缺乏意向的想法。正如Andreas(2022)所指出的,它们充其量只能对特定文件的语言模式进行建模,从而生成与特定人或智能体相一致的文本。然而,生成文本背后的潜在意图仍然缺失。一般来说,LLM没有任何有意义的事情可言,因为它们的训练目标是最大限度地提高下一个掩蔽词的预测准确性,而不是生成现实世界中特定目标的文本。LLM并不具备任何有意义的理解能力,即使人们采用有意图的立场,也无法理解它所收到的询问来自人类,或者人类是其回复的接收者。因此,LLM对这个人既不了解也不理解。它没有能力理解这个人的询问,也没有能力理解它的回答可能对其信仰产生的影响。

此外,由于缺乏沟通意图,LLM在尝试自动生成长段落的文本时,往往难以生成连贯一致的文本。例如,当提示LLM完成一个句子时,它会生成一两句基本合理的续句。但是,当提示继续时,它就开始生成错误或误导性的句子。虽然这些句子在语法上都是正确的,但是LLM缺乏任何更广泛的意义或沟通意图。因此,随着与人类生成的提示的距离增加,模型生成的文本最终变得不连贯(Mahowald et al,2023)。

全局工作空间理论(Global Workspace Theory,GWT)作为人类和灵长类动物获取认知的功能模型,已经得到广泛认可(Dehaene,2014)。正如Baars(1993)所指出的,全局工作空间的概念在涉及保留和操作抽象信息的任务中特别有价值。因此,正如Mashour et al(2020)所讨论的,在全局工作空间的背景下进行广播与通常所说的工作记忆之间存在着密切的关联。工作记忆可以被有意识地操纵,在面对争相进入工作空间的潜在干扰因素时,需要有意识地努力维持信息。

目前的标准LLM缺乏明确的全局工作空间。然而,有可能扩大这些模型以纳入这样一个工作空间。当前,关于多模态语言模型的研究越来越多,这些模型使用工作空间来协调各种模态。这些模型包含不同形式的数据的输入和输出模块,如文本、图像或声音,这些数据可以在高维空间中表征。为了连接这些模块,需要一个低维空间作为接口。这个接口类似于全局工作空间。基于注意力的感知器架构(Jaegle et al,2021)已被证明在注意力控制和工作记忆任务中表现出与认知科学文献(Juliani et al,2022)中预期的GWT一致的经验行为。研究人员已经开始将这些模型与意识联系起来。Goyal et al(2021)提出,多个神经模块之间的全局工作空间瓶颈可以模仿缓慢的有意识推理的某些功能。

总之,为人类赋予意图的过程错综复杂、模棱两可。意向性所需的基本认知要素仍未确定,这使得确定人工智能系统为展示意向性所应达到的基准变得困难重重。即将推出的语言模型有可能通过尚未发现的机制来展示意向性。

1.2.6 系统性和全面泛化

除了落地论以外,在自然语言理解的框架下,系统性论也是经常讨论的针对神经网络的另一种批判。落地论关注的是这些系统用来学习的数据源,而系统性论关注的是它们能够泛化的类型。

考虑到猪是一种通常不会飞的动物,我们可以将它与一种会能飞的动物进行对比。如图1-3所示,通过在头脑中将猪不会飞的属性替换为会飞的能力,我们就可以掌握“飞猪”这一概念。这种符号操作的心理过程称为“意义构成”。从根本上说,意义构成原则认为,我们有能力将世界中离散的元素(如实体、属性和动作)概念化,并以一种有意义的方式将这些元素进行组合。这种意义的特点是,在努力解释特定语言表达的人的头脑中具有一致的表征。根据Pelletier(1994)的语义构成原则〔有时被称为“弗雷格原则”(Frege’s Principle)〕,一个句子整体的意义(其句法是复杂的)完全取决于其句法部分的意义以及这些部分的组合方式。

图1-3 会飞的猪

人类语言的一个重要方面是生产力,即产生和解释无限多的表达方式的能力。要做到这一点,人类有能力超越他们所接触的具体数据,实现概括。一些研究人员认为,新一代的LLM系统表现出与人类类似的生产力,这表明它们已经学会了支配自然语言的一般规则和原则。然而,包括Berent and Marcus(2019)在内的其他研究人员则认为,目前的LLM缺乏人类认知的一个关键特征:有能力做出适用于某个类别的任何成员的全面概括,无论其与训练项目是否相似。这是因为人类的学习机制允许形成抽象类别,对所有成员一视同仁,并使用变量进行代数操作。与之不同的是,神经语言模型只能对与训练数据相似的新数据项实现泛化,这就限制了它们的生产力,只能进行类比性概括。因此,它们无法学习对自然语言理解至关重要的系统化概括。系统性论类似于Fodor and Pylyshyn(1988)针对早期神经网络的联结主义模型提出的论点。他们认为,人类认知和语言的特点是系统性和构成性,这两者是相互依存的属性。系统性是指产生和理解具有内在联系的句子的能力,而构成性是指一个词汇项应该对它出现的每个表达作出同样的贡献。识别句子之间的系统关系和词汇项意义的能力,对于掌握自然语言背后的概括能力至关重要。

Berent and Marcus(2019)认为,只有将内部结构化的表征与变量相结合的系统,如符号化的系统,才能解释系统性和全面概括性。他们认为,用缺乏内部结构的向量表征信息的神经网络不能解释人类认知的关键方面——系统性和构成性。最近在简化或人工语言数据上训练的神经语言模型实验显示,虽然神经语言模型具有泛化能力,但它们无法以系统性的方式进行泛化。虽然基础模型习得了关于事件及其可信参与者的知识,但这些知识往往非常依赖特定的词汇模式,缺乏与人类认知相同的概括能力。

然而,系统性论假定自然语言的基本属性是构成性、系统性和全面概括性,这一点受到一些语言学现象的挑战。自然语言的准构成性(Rabovsky and McClelland,2020)和由基础模型学习的上下文嵌入所捕捉到的上下文敏感性与系统性论相矛盾。此外,语言中普遍存在的非系统性和半规则过程也削弱了全面概括性的论据。自然语言的特点是,基于与先前所见范例的相似性,实现类比概括的部分生产力(Goldberg,2019)。因此,虽然神经语言模型在努力实现构成性和系统性泛化,但它们同样偏离了这些属性,并能够捕捉到自然语言的重要方面(Lenci,2023)。

根据Lenci(2023)的观点,依赖分类表征的计算模型,如系统性支持者所倡导的符号模型,在解释语言概括的部分生产性和准构成性方面面临困难。另外,神经语言模型的连续表征在解决由类比过程、相似性和梯度所引起的语言能力问题方面具有潜力。虽然语言模型的主要关注点不是会话,而是一般的智能,但是它们在作诗、玩游戏、回答问题和提供建议等不同领域表现出与领域一样的能力,尽管并非完美无缺。

关于意识的讨论,以领域通用(domain-general)的方式使用信息被认为是意识的一个重要指标。因此,语言模型的通用性越来越强,这表明人类已经向意识迈进了一步,虽然它与人类智能相比仍有差距。尽管如此,语言模型的通用能力为这个概念提供了一些初步支持。

1.3 未来发展方向

根据Mahowald et al(2023)的研究,推理知识有4种类型——形式推理(如逻辑推理和问题解决)、世界知识(包括物体、事件、属性、参与者和关系的知识)、情景建模(创建从语言输入中提取的故事表征并跟踪其随时间演变的能力)和社会推理(在使用语言的同时考虑对话者的心理状态和共享知识)。正如Mahowald et al(2023)和Kauf et al(2022)等其他研究评估的证据所展示的,在某种程度上,许多LLM在其中许多领域的表现仍然不如人类。

目前在网络自然文本语料库上训练LLM,以预测上下文中的单词为目标的方法,不足以诱导功能性语言能力(functional linguistic competence)的涌现。这种方法偏向于低层次的输入属性,缺乏常识性知识,限制了模型的泛化能力,而且需要大量的数据。然而,最近的例子,如Minerva、InstructGPT(Ouyang et al,2022)和ChatGPT,都显示了通过调整训练数据和(或)目标函数而改进的结果。这些模型在专门的语料库上进行微调,并使用额外的技巧,如基于人类反馈的强化学习。Mahowald et al(2023)认为,一个成功的现实世界语言使用模型需要包括问题解决者、落地体验者、情境建模者、实用推理者和目标设定者,因此,它应该是一个包含领域通用和特定领域(domain-specific)成分的通用智能模型。这可以通过在具有不同目标函数的数据集上训练模块化模型来实现。

由于语言并不能表达知识的所有方面,因此我们很难从中获得完整的信息。这是一种被称为“报告偏差”(reporting bias)的现象造成的(Gordon and Van Durme,2013),即说话者可能会省略他们认为听众已经知道的信息。报告偏差是Grice的数量准则(maxim of quantity)的结果,它表明,交流应该具有足够的信息量,但不能过度。Paik et al(2021)的研究表明,与草莓等单一颜色相关概念的颜色信息在语言生成中的表现力很差。此外,神经语言模型对物体的典型视觉属性(如形状)的了解有限,而更大的模型并不一定能改善这一局限性(Zhang et al,2022a)。然而,这种局限性可能是由于纯文本基础模型缺乏落地,若为它们提供语言之外的信息,就像多模态模型那样,有助于缓解这个问题。归根结底,基础模型缺乏将从文本中获得的知识恰当地表征和组织成适当结构并使用这些结构来解决语言理解任务的能力。因此,挑战不在于获得它们所训练的数据中无法获得的特定信息,而在于开发能够更好地利用从文本中习得信息的模型(Lenci,2023)。

为了衡量在创建能够以类似人类的方式使用语言的语言模型方面所取得的进展,建立评估形式语言能力和功能语言能力的基准至关重要。这种区分有助于在讨论语言模型时消除混淆,也可以消除“语言能力强等于思维能力强”和“思维能力差等于语言能力差”(Mahowald et al,2023)等错误观念。目前,已经有几个可用于评估语言模型的形式语言能力的基准(Gauthier et al,2020),但还需要更多的测试来评估语言的核心特征,如层次和抽象。然而,至今还没有评估功能语言能力的单一基准,而且针对功能语言能力子集(如常识性推理)的数据集可能会被语言模型利用有缺陷的启发式方法所操纵。尽管如此,我们仍有可能区分基于词共现的技巧和真正的推理能力。对语言模型的形式语言能力和功能语言能力进行全面、单独的评估,有助于创建在这两个领域都很出色的模型。最终,语言模型应该能够解决需要各方面语言能力的复杂任务,但在目前的早期阶段,重要的是关注可以分离的特定技能,以便更好地了解模型的缺点(Mahowald et al,2023)。

根据Villalobos et al(2022)的分析,高质量语言数据很快就会耗尽,可能在2026年之前。然而,低质量语言数据和图像数据的耗尽时间预计会晚得多,低质量语言数据的耗尽时间为2030年至2050年,图像数据的耗尽时间为2030年至2060年。这项研究表明,除非数据效率得到显著提高或出现替代数据源,否则严重依赖海量数据集的机器学习模型的持续扩展可能会减速。

人工智能研究的一个新领域旨在使LLM能够产生自己的训练数据,并利用它来提高性能。虽然人类从外部来源习得知识,如阅读书籍,但我们也可以通过分析和反思内部信息来产生独特的想法和见解。同样,LLM可以利用它们在训练过程中吸收的大量书面数据(如维基百科、新闻文章和图书)来创造新的书面内容并进一步提升自己的能力。

最近的研究表明,LLM可以通过生成一组问题和答案、过滤最佳输出和微调仔细挑选的答案来进行自我改进(Huang et al,2022)。这种方法在各种语言任务(包括用于评估LLM性能的基准)上取得了先进的性能。此外,研究人员还开发了能生成自然语言指令的LLM,然后LLM根据这些指令进行自我微调,从而显著提高性能(Wang et al,2022e)。Sun et al(2022)认为,如果LLM在回答问题之前背诵它对某一主题的了解,它就能提供更准确和更复杂的回答。这与人类在分享自己的观点之前反思自己的信念和记忆相类似。

将LLM与人类大脑相类比,可以减轻人们对LLM生成自己的数据是循环论证的担忧。人类也会摄入大量数据,这些数据会改变人类大脑中的神经连接,从而产生人类大脑或任何外部信息源中都没有的新见解。同样,如果LLM能够生成自己的训练数据,就可以解决阻碍人工智能发展的迫在眉睫的数据短缺问题。如果LLM能够生成自己的训练数据并继续自我完善,这将是人工智能的一个重大飞跃。

人们普遍认为ChatGPT和GPT-4等模型将取代流行的搜索引擎,成为主要的信息来源。然而,这种想法过于乐观,因为如今的LLM会产生不准确和误导性的信息。尽管LLM的功能强大,但也存在“幻觉”问题,即它们会犯一些错误,如推荐不存在的图书或提供不正确的概念解释。

目前,人们正在努力通过创新来减轻LLM在事实方面的不可靠性,使它们能够从外部来源检索信息,并为它们生成的信息提供参考文献和引文。我们将在第8章中回顾这一领域的一些新发展。

当代大语言模型的多功能性和强大功能令人印象深刻。与基于LLM的顶级对话智能体(如ChatGPT)进行讨论,可能会令人非常信服,以至于人们最终会将它们拟人化。这里可能有一些复杂而微妙的东西在起作用。语言模型最近取得的进展表明,当足够大的模型在丰富的文本数据上进行训练时,就会涌现非同寻常和意想不到的能力。

即使大语言模型本质上只能进行序列预测,但它们在学习时可能发现需要更高层次解释的新兴机制。这些更高层次的术语可能包括“知识”和“信念”。我们知道,人工神经网络可以高度准确地逼近任何可计算的函数。因此,在参数、数据和计算能力足够的情况下,如果随机梯度下降法是优化精确序列预测目标的最佳方式,那么随机梯度下降法就有可能发现这种机制。

为了进一步扩展LLM,一种名为稀疏专家模型(sparse expert model)的新方法在人工智能界受到越来越多的关注。稀疏专家模型的运行方式与密集模型不同,它们只能调用最相关的参数子集来响应给定的查询。这与密集模型形成了鲜明对比,在密集模型中,每次模型运行时都会激活所有参数。

由于稀疏专家模型的特点是能够只激活必要的参数来处理给定的输入,因此,与密集模型相比,稀疏专家模型的计算能力更强。稀疏专家模型可以看作“子模型”的集合,这些“子模型”是不同主题的“专家”,根据输入情况,只激活最相关的“专家”。这种架构是它们被称为稀疏专家模型的原因。拥有超过1万亿个参数的大语言模型,如谷歌的Switch Transformer(Fedus et al,2022)、GLaM(Du et al,2022)以及Meta的Mixture of Experts(Artetxe et al,2021),都是稀疏的。我们将在第7章仔细研究稀疏专家模型背后的技术。

稀疏专家模型可以在不增加运行时间的情况下创建更大的模型,因为密集模型的大小增加一倍,运行速度就会降低一半。最近的研究表明,稀疏专家模型具有巨大的潜力,GLaM模型比GPT-3模型大7倍,训练所需的能量更少,推理所需的计算量更少,同时在一系列自然语言任务上的表现也优于GPT-3模型。此外,稀疏专家模型只需要很少的计算量,就能实现与密集模型相似的下游任务性能。除了计算效率高之外,稀疏专家模型也比密集模型更易于解释,这对于像医疗保健等高风险环境来说非常重要。理解模型为什么采取特定行动的能力至关重要。稀疏模型的可解释性更强,因为其输出是“专家”被激活后的结果,这使得人类更容易提取可理解的解释。

通过分析用户互动和个人偏好,新一代LLM在增强个性化和定制化方面有很大的潜力。在与用户互动的过程中,LLM能够了解他们的写作风格、语气和语言,从而做出更加个性化和精确的回应。由于LLM可以学习如何识别和响应每个用户的独特需求和偏好,因此个性化水平可以提升到能够提供更好的客户服务和教育的地步。此外,开发人员还可以利用LLM交互产生的大量数据,创建适合每个用户特定偏好的语言模型,从而带来更有吸引力的个性化体验。

与所有快速发展的技术一样,必须考虑GPT-4模型和其他模型可能带来的潜在伦理和社会影响。随着这些技术的发展,必须彻底分析各种关切,如隐私及其对就业的影响。例如,在客户服务领域部署大语言模型可能会导致行业内的职位流失,而通过这些模型收集数据又会引发严重的隐私问题。因此,仔细考虑这些技术的伦理影响,并保证其发展和应用是负责任的、符合伦理的,这一点至关重要。

在本书中,我们将详细讨论LLM中的偏见和有害性减少等关键话题。此外,我们还将探讨如何利用强化学习技术,使得这些模型符合人类价值观。我们的目的是探索有效减轻LLM的负面影响,提高其对社会的整体效用的方法。

目前,诸如ChatGPT之类的语言模型能够根据其内部知识为查询提供答案,但不具备与外部环境交互的能力。它们无法为不理解的问题检索信息,也无法执行除了用户生成文本输出之外的任务。在不久的将来,新一代大型Transformer模型和语言模型将具备在互联网上读写和采取行动的强大能力。可以说,这些模型将可能具有广泛的智能体能力。事实上,“智能体人工智能”可能成为继“生成式人工智能”之后的下一个大趋势。

1.4 小结

大语言模型为人工智能领域带来革命性的变化,使机器能够非常准确地完成复杂的语言任务。围绕它们的意识的争论仍然是一个备受关注的话题,双方都提出了自己的观点。虽然尚无定论,但可以肯定的是,大语言模型在未来的发展和应用中具有巨大的潜力。研究人员必须继续研究大语言模型语言生成能力背后及其潜在意识的内在机制,同时考虑开发具有意识的机器的伦理问题。该领域的未来研究前景广阔,大语言模型具有进一步发展和创新的巨大潜力。

相关图书

GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
扩散模型从原理到实战
扩散模型从原理到实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能(第3版)
人工智能(第3版)
ChatGPT写作超简单
ChatGPT写作超简单
ChatGPT与AIGC生产力工具实践 智慧共生
ChatGPT与AIGC生产力工具实践 智慧共生

相关文章

相关课程