深入大模型系统:提示工程、符号推理与智能体实践

978-7-115-68707-4
作者: 白钰
译者:
编辑: 贾静

图书目录:

详情

本书从发展概述、核心技术原理与产业实践的角度深入解析大模型系统。 全书共 9 章。第1章首先对大模型技术进行概述,系统梳理其概念、发展里程碑及未来趋势。第2章转入产业视角,深入剖析竞争格局、商业策略与产业落地面临的挑战。第3~5章介绍大模型系统的技术实现,从监督学习、迁移学习等方法入手,逐步深入文本标记化、编码器-解码器架构与从 RNN/LSTM 到 Transformer 的革新,再介绍缩放定律、数据 / 算力/参数等预训练要素,以及指令微调、基于人类反馈的强化学习对齐机制。第6~9章从产业实践的角度解析应用层技术,包括上下文学习、检索增强生成等提示工程方法,深入剖析以思维链为代表的符号推理,以及从工作记忆、长期记忆到认知架构的语言智能体体系的构建。 本书适合人工智能领域从业者、高校计算机相关专业师生,以及所有对大模型技术感兴趣的人士阅读。

图书摘要

版权信息

书名:深入大模型系统 提示工程、符号推理与智能体实践

ISBN:978-7-115-68707-4

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    白 钰

责任编辑 贾 静

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内容提要

本书从发展概述、核心技术原理与产业实践的角度深入解析大模型系统。

全书共9章。第1章首先对大模型技术进行概述,系统梳理其概念、发展里程碑及未来趋势。第2章转入产业视角,深入剖析竞争格局、商业策略与产业落地面临的挑战。第3~5章介绍大模型系统的核心技术原理,从监督学习、深度学习等方法入手,逐步深入标记化、编码器-解码器架构与从RNN到Transformer的革新等内容,再介绍预训练阶段和后训练阶段涉及的LLM基础。第6~9章从产业实践的角度解析应用层技术,包括上下文学习、检索增强生成等提示工程方法,深入剖析以思维链为代表的符号推理方法,以及从工作记忆、长期记忆到认知架构的语言智能体的构建。

本书适合AI从业者、高校计算机相关专业师生,以及其他所有对AI技术感兴趣的人士阅读。

推荐语

随着大模型技术的持续演进,连接主义所强调的表示学习能力,正加速与符号主义强调的逻辑与推理能力融合。如何系统性地设计、优化与扩展大模型,已成为当前人工智能领域面临的共同课题。

本书围绕提示工程、符号推理与智能体实践3大关键方向展开,系统探讨了以下3个问题:如何通过提示工程与信息检索技术的有效结合,优化模型的信息获取能力,构建实时任务语境;如何通过解码策略控制生成过程,提升结果的可靠性与任务一致性;如何设计认知架构,赋予模型记忆、规划与工具使用能力,使其逐步发展为应对现实任务的智能体。

白钰基于其在系统研发与技术管理方面的深厚积累,构建了大模型系统从发展概述、核心技术原理到产业实践的知识体系,值得广大人工智能从业者阅读。

车万翔 哈尔滨工业大学计算学部长聘教授、人工智能研究院副院长,

ACL 2025程序委员会主席

这是一本兼具深度与广度的入门佳作,深入浅出地阐释了大模型系统的发展概述、核心技术原理及实践路径。内容覆盖全面,语言通俗易懂,对工程师、产品经理和技术管理者均具有参考价值。

吕占东  OpenAI Principal Engineer

在大模型技术快速迭代并走向规模化应用的今天,人工智能的发展已不再仅仅依赖算法层面的突破,更关键的是构建系统化的治理能力。本书从认知架构与系统工程的双重视角出发,介绍了大模型系统的架构设计、推理机制与智能体化演进路径,为理解人工智能的可控性与扩展性提供了系统框架。

本书不仅聚焦于模型能力的提升,更重视系统的可靠性与稳健性,通过整合模型构建、推理机制与智能体协作,为推动人工智能安全、可靠、可控的发展提供了思路。

呼娜英 中国信息通信研究院人工智能研究所安全治理部副主任、
人工智能国际标准化专家

本书语言通俗易懂、案例翔实,既系统阐释大模型系统的核心概念,又囊括前沿进展与典型场景,是一本不可多得的读物。

胡晓昌 阿里巴巴集团资深技术专家

新一代大模型技术的竞争,早已不再是参数规模和算力的堆叠,而是深入到一个更本质的问题:如何以系统化的方式组织模型、推理、记忆与工具,使其在复杂环境下保持可控、稳定与可扩展。本书正是从这个问题出发,将大模型从“单体模型”层面提升至“系统工程”层面进行讨论。

本书围绕提示工程、符号推理与智能体实践,构建了一条从预训练能力到复杂任务执行的清晰路线:既讲“模型如何学会”,也讲“模型如何被用对、被管好”。这使得全书能够兼具理论高度与工程实践。

对于长期深耕大模型平台、推理机制与智能体框架的工程师和研究者而言,本书提供了一套结构化的认知体系,推荐阅读。

徐俊 美团业务研发平台大模型算法资深专家

前  言

近10年来,人工智能(Artificial Intelligence,AI)技术经历了从理论创新到产业落地的深刻变革,而大模型正成为推动这场变革的引擎。自2023年以来,大模型技术的快速迭代和广泛应用,已不仅仅是实现算法或工具升级的关键助力,更是推动社会和产业转型的根本动力。正如个人计算机和互联网的发展在过去数十年中带来的范式革命,大模型技术的发展,同样开启了AI发展的新纪元。

这场变革的独特之处在于,AI正在从“专用任务工具”转型为“通用智能平台”,从以往依赖小数据集、窄场景的模型开发,跃迁到以通过海量数据进行预训练为核心的通识模型构建。大模型不仅在内容生成、代码编写、知识推理等领域展现出超越人类的能力,更深刻重塑着技术研发、产业组织和知识获取的基本方式。它们如同智能的“操作系统”,成为数字社会的基础设施。

然而,这场变革带来的远不止技术突破本身,更包含对生态格局、应用创新与人才结构的重塑。大模型的成功落地,需要技术原理、工程实现、商业模式和产业治理的协同进化。

如何将大模型强大的能力转化为长期的商业价值?

如何降低高昂的训练与部署成本?

如何推动技术安全、治理与社会责任的同步发展?

这些是AI时代的每一位AI从业者与学习者必须直面的挑战。

本书的写作正源于我在多年的多模态大模型算法及 AI 系统研发与技术团队管理过程中的实践与思考。早在2019年,我所在的公司便布局云计算与AI基础设施,推动预训练模型的规模化落地。2022年,我带领团队研发的生成式AI(Generative AI,GenAI)产品成为阿里云早期最成功的应用之一。这些经历让我深信大模型与智能体技术的长期价值,也让我深感有责任将一线的实践与思考,沉淀为一套体系化的内容。

在与众多同行和学者的交流中,我发现AI初学者常面临知识碎片化、学习路径混乱的挑战,而AI从业者又渴望将前沿研究快速转化为生产力。为此,本书力图为AI从业者、高校计算机相关专业师生及其他所有对AI技术感兴趣的读者,搭建通向智能体的清晰“能力阶梯”。无论是需要夯实基础的AI初学者,还是寻求创新的技术专家,抑或是想要把握趋势的企业决策者,都能在本书中找到适合的内容。

本书的内容安排

本书主要介绍AI如何通过对“先验知识”的逐层深化利用,借助日益强大的“能力迁移”与“元学习”方法,逐步从一个封闭的知识容器,发展为能够解决广阔现实世界中的开放式问题的智能形态。全书共9章。

第1~2章负责定义所要面对的“广阔现实世界”,从技术范式和产业发展两个层面,明确学习起点和目标。

第3~5章系统介绍如何为AI构建静态先验知识库,追溯预训练范式的理论必然性,详解其赖以实现的Transformer架构,并揭示如何通过预训练与对齐两大工序,将关于整个现实世界的规律与事实压缩并注入模型的参数之中,铸就其通用能力的基石。

然而,静态的知识库无法应对动态的世界。因此,第6章引入第一层动态能力:测试时的知识迁移。本章将“提示工程”诠释为一门轻量级、高效率的知识迁移学科,它使得模型能够在不重新训练的情况下,将其固有的通用先验知识,灵活地“迁移”并适配到无穷无尽的下游任务中。

在解决了知识迁移问题后,即可追求更高层次的智能——让模型学会“如何解决问题”。第7章将推理过程定义为第二层动态能力:符号推理。我们不再满足于让模型回答“是什么”类型的问题,而是通过“思维链”等技术,引导它在面对未知问题时,动态地生成一套关于“如何做”的解题策略。这标志着AI完成从“知识的调用者”向“方法的创造者”的关键一跃。

第8~9章探讨如何构建一个能够终身学习的智能体,实现经验的持续先验化。通过为其设计内置工作记忆与长期记忆的认知架构,智能体能够将自身在现实世界中的每一次交互的经验,都转化为新的、可供未来决策使用的个人先验知识。这个“感知→行动→反思”的闭环,使智能体突破了静态模型的局限,真正开始走向能够适应广阔现实世界、不断自我进化的终点。

阅读本书的要求和目标读者

本书不要求读者具备深厚的AI技术背景。AI初学者可以循序渐进地学习书中的技术与概念。对于具有基本编程能力和机器学习基础的读者来说,本书内容将更容易理解,且能够快速应用本书介绍的技术。

AI从业者可以通过阅读本书获得大量实践指导,深入了解大模型的发展情况、核心技术原理及产业实践等内容。书中的案例分析将帮助AI从业者解决实际工作中的问题,提升开发AI应用能力。

计算机相关专业的师生也可将本书作为教材。本书理论与实践并重,提供完整的大模型技术学习路径,通过实际案例讲解加深学生对技术的理解,为学生未来在AI领域的深入探索奠定坚实基础。

致谢

感谢每一位选择本书的读者,你们的信任与支持是我不断前行的动力。最后,谨以本书献给我挚爱的家人,特别是我的爱人,你们的理解与支持是我创作本书最坚实的后盾。

白钰

资源与支持

资源获取

本书提供如下资源:

本书的代码和提示

书中彩图文件

本书思维导图

异步社区7天VIP会员

要获得以上资源,您可以扫描右侧二维码,根据指引领取。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,点击“发表勘误”,输入勘误信息,点击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给本书的责任编辑(jiajing@ptpress.com.cn)。

如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及各行业使用相关技术的用户。

第1章 大模型技术概述

随着机器学习和深度学习技术的发展,AI领域经历了多个重要发展阶段。从早期的基本算法和模型的突破,到后来的预训练模型和大规模神经网络的崛起,再到现在的多模态大模型的爆发,这些技术变革为AI技术的演进注入了新动力,推动了AI领域的飞速发展。

在这一过程中,大模型技术的出现及逐步成熟,极大地改变了技术生态的构成。本章将介绍大模型相关概念、技术发展历程及系统发展路径,以帮助读者理解它是如何成为新一代应用平台的核心驱动力的。

1.1 大模型相关概念辨析

在阅读相关资料时,我们会频繁见到“基础模型(Foundation Model,FM)”“GenAI模型(Generative AI Model)”“大语言模型(Large Language Model,LLM)”和“大模型(Large Model)”等术语。这些术语看起来似乎都暗示着机器突然拥有了“觉醒的智能”,并已成为大众接受的表达方式。但从学术角度来看,对于ChatGPT这类模型来说,用于定义它们的标准术语应该是“基础模型”

“基础模型”不仅更加准确,也能够更好地反映出这类模型的核心特征——它们具有广泛适应能力和通用性,能够应用于多种任务和领域。

虽然“大模型”这一说法已经深入人心,并且在实际传播中得到了普遍采用,但我们有必要意识到它的局限性。为了保证学术和技术的严谨性,需明确区分基础模型、GenAI模型、LLM和大模型这些术语。

1.1.1 基础模型

在AI领域,Transformer架构长期主导着计算机视觉、自然语言处理(Natural Language Processing,NLP)等多个方向的研究,逐渐成为事实上的基础模型架构。基于Transformer架构的模型不仅在各类任务中表现出色,而且为后续大参数模型的崛起奠定了坚实基础。随着这一技术的不断进步,Fei-Fei Li(李飞飞)等学者在其研究报告“On the Opportunities and Risks of Foundation Models”中,对基础模型给出了详细定义:基础模型是一种大型机器学习模型,通常在海量数据上进行大规模训练,且训练过程常采用自监督或半监督学习方法。这个训练过程就是预训练

通过预训练,基础模型能够学习到通用的、非特定任务的特征和知识,从而获得强大的通用能力。这些能力能够迁移到具体的下游任务中,改善模型在特定任务上的表现。例如,经过预训练的基础模型(如GPT、BERT等),能够出色地完成自然语言处理的各类任务(如文本生成、情感分析、文本翻译等)。

因此,当前提到的基础模型,几乎都建立在预训练技术的基础上。无论是BERT、GPT与Diffusion,还是其他语言模型和图像模型,它们都通过大规模的数据进行预训练,这使得它们能够具备较强的泛化能力,在面对不同领域的任务时,能够实现快速迁移并表现出色。

1.1.2 GenAI模型

GenAI是一种技术体系,它通过算法与模型构建的系统,生成文本、图像、视频等多种形式的内容,来回应用户输入的提示(Prompt)。

这一体系的执行单元是GenAI模型。GenAI模型通常由基础模型构成,具备理解多模态输入,并据此生成对应输出的能力。提示是用户输入的文本图像等任务描述,它为GenAI模型提供生成内容的所需的上下文、方向和约束条件。

下面通过图1-1所示的DeepSeek的用户界面,来解释这两个关键术语。

图1-1 DeepSeek的用户界面

用户在对话框中输入的“中国举办过几次奥运会?”就是提示。输入完毕并按“Enter”键后,提示会被传递到后台的GenAI模型中,由GenAI模型来处理并生成回应的文本内容,其工作流程如图1-2所示。

图1-2 GenAI模型的工作流程

用户输入提示。用户输入的文本作为提示被传递到模型。这些提示是模型生成回应的起点。

GenAI模型生成回应。GenAI模型接收提示后,生成逻辑清晰、语义连贯的回应作为输出结果。

在这个流程中,GenAI模型不仅要理解用户输入的提示,还要能够根据提示生成符合语境、逻辑和规范的回应。它的能力提供者是具备强大泛化能力的基础模型。因此,基础模型是GenAI模型的能力基础,而提示则是激活这些能力的钥匙,二者共同构成了GenAI技术的核心。

1.1.3 LLM

在1.1.2节的例子中,用到的GenAI模型就是LLM。它通过大规模的参数和复杂的训练过程,具备了强大的自然语言理解与生成能力。

LLM的“大”主要体现在其庞大的参数量和海量的训练数据上。典型的LLM包含亿到千亿级参数,通过对海量文本数据的预训练,这些参数学习并建模语言的语法、语义、常识及上下文逻辑,使模型能够在不同语境下理解并生成符合逻辑的自然语言文本。

这使得LLM在生成内容方面具有较高的准确性和灵活性,正逐步成为推动各行业智能化转型的重要技术,在GenAI技术中发挥着重要作用。

1.1.4 大模型

“大模型”这一术语,从表面上看,似乎单纯地描述了模型的参数量和训练数据量庞大;从本质上看,这种庞大的参数规模和训练数据量使得模型能够从更广泛的知识中学习,从而具备更强的推理能力和泛化能力。

在机器学习领域,模型的规模(模型参数和训练数据的规模)越大,其潜在的智能化水平和适应性越高,这使得它们能够处理更多复杂的任务,并在推理、生成、分析等领域展现卓越的性能。

因此,“大模型”这一术语在强调模型规模的同时,也隐含了其所需的高昂成本及其带来的强大能力的回报。模型规模的扩大,通常意味着更多的模型参数和训练数据,进而带来更大的计算资源开销,但这种扩大的真正价值在于,它能够带来更为强大的推理能力、生成能力和多任务处理能力。简单地扩大模型规模并不等于“做大模型”,而通过不断优化模型架构和算法来提高各类资源的利用效率,才能真正释放大模型的潜力。

下面介绍模型常见的3种分类维度,以方便读者更准确地理解大模型相关的概念。

(1)根据模型的模态(输入和输出的数据类型)分类,有语言模型、图像模型、语音模型、视频模型等(注:当前也有跨模态模型,此处为基础分类,暂聚焦单一模态)。模型的模态直接决定了其核心应用场景,例如语言模型多用于文本生成与理解,图像模型则适用于图像生成与识别。

(2)根据模型的参数量分类,有小参数模型和大参数模型。其中,小参数模型的参数量通常为百万级,适用于轻量化、低算力需求的场景;大参数模型的参数量可达十亿甚至万亿,典型代表为GPT系列、DeepSeek系列,具备更强的泛化能力与复杂任务处理能力。

(3)根据模型的构建范式分类,有预训练模型和非预训练模型模型。预训练模型采用了当前主流的构建范式,先在大规模通用数据上完成预训练,再通过“微调”或“提示”等方式,将已习得的能力适配到特定下游任务中,而无须从零开始训练;当这种范式应用于自然语言领域时,便形成“预训练语言模型(Pretrained Language Model,PLM)”。非预训练模型需针对具体任务单独设计训练流程,数据与能力不具备跨任务迁移性,目前在大模型领域应用较少。

在上述分类框架下,“基础模型”这一术能更准确地描述部分模型在技术生态中的核心角色。一个高质量的基础模型,可通过迁移学习、多任务学习等方式,覆盖多个领域的任务需求,为下游任务提供通用能力支撑,而非局限于单一场景。

基于上述分类框架,我们可以对LLM给出更精准的定位:从模态看,它属于语言模型;从参数量看,它属于大参数模型;从构建范式看,它属于预训练模型。可以说,LLM是支撑下游语言任务的基础模型。

可以看到,“大模型”这一术语反映了公众对新技术的理解与期待。鉴于这一点,本书在书名中使用了“大模型”这一术语,以便更好地引发和传播讨论。

1.2 大模型技术发展历程

本节将以时间为轴,梳理大模型技术的发展历程,从最初的简单模型到如今的超大规模模型,剖析每一次技术飞跃背后的关键驱动因素。同时,本节将深入探讨数据、算力和算法这三大要素如何共同驱动大模型技术发展,并详细分析当前技术面临的挑战与未来的发展趋势,为后续的深入学习奠定坚实的基础。

1.2.1 技术发展的阶段

“大模型”并非一个静态的、有着明确规模的绝对概念,而是一个随着技术进步、算力扩张及应用需求的演进而不断拓展的相对概念。简而言之,随着时间的推移,对“大”的定义也在不断发生变化。模型的“大”,不仅在于规模庞大,更在于模型对感知、理解、推理等任务的强大处理能力。

回顾AI的发展历程,模型规模的每一次显著扩大,往往都伴随着AI能力的重大突破。

1.浅层模型的商业化探索(千万级至亿级参数)

在互联网兴起初期,广告、搜索与推荐系统成为AI技术商业化的主要阵地。这一时期的核心任务是对用户行为(如点击、浏览、购买等)进行精准预测,以提升效率和用户体验。

随着互联网的普及和海量用户行为数据的积累,模型开始应用于分析用户点击、浏览、购买等行为数据,以实现更精准的预测和推荐。这一时期以拥有千万级至亿级参数的点击率(Click-Through Rate,CTR)预测模型为代表,这些模型的出现标志着模型规模的首次显著扩大。这些模型通常基于逻辑回归、因子分解机或浅层神经网络等结构,形成了“大数据+浅层模型”的黄金组合,能够有效应对商业挑战,为企业带来显著的经济效益,也为后续更大规模的预训练奠定了基础。

2.深度学习的崛起与感知智能的突破(亿级参数)

进入2010年代,深度学习的崛起将模型参数推向了亿级规模,实现了AI感知能力的飞跃。

2012年,以AlexNet为代表的深度卷积神经网络(Convolutional Neural Network,CNN)在图像识别任务中取得突破性进展,开启了模型规模持续扩张的竞赛。

2016年,由DeepMind开发的AlphaGo战胜了世界顶尖围棋选手,这一里程碑事件标志着深度学习技术的巨大潜力开始被广泛认可。

AlphaGo依赖于近2亿参数的CNN,并结合了强化学习中的蒙特长洛树搜索(Monte Carlo Tree Search,MCTS)等技术,通过与自身进行数百万局的对弈来学习围棋策略。AlphaGo的成功证明了深度学习在处理高度抽象和高复杂性任务方面的有效性。

随后,AlphaZero不再依赖人类棋谱,通过自我博弈掌握围棋、象棋和将棋等多种复杂游戏的策略,展现出了更强的通用性和学习能力。

这一时期的成果离不开算力(特别是GPU)的普及与分布式训练框架的成熟,为“规模驱动能力”的发展范式奠定了坚实基础。

3.基础模型与涌现能力(千亿级参数)

OpenAI发布的GPT系列模型,特别是拥有高达1750亿(近似值)的参数的GPT-3,标志GenAI模型进入了一个新时期。这一时期的关键特征是“涌现”,即模型在没有特定任务监督的情况下,通过大规模预训练,自主学习到了处理复杂任务的通用能力。

与传统的监督学习主要关注分类和预测不同,基础模型通过在大规模无标注文本数据上进行自监督或半监督学习,学习到了丰富的语言模式和世界知识,从而能够生成高质量的文本、进行对话、翻译文本,甚至编写代码。

GPT-3首次展现出的“零样本学习(Zero-Shot Learning)”能力,即在没有特定任务微调的情况下,仅通过自然语言描述即可完成多种不同任务的能力,被认为是涌现能力的典型表现,极大地拓展了AI技术的应用范围。

4.多模态、可控性与生态共荣(千亿到万亿级参数)

2022年以来,大模型技术进入以多模态、可控性与生态共荣为关键特征的新时期,呈现出能力提升、效率提升与生态共建这3大趋势。

2022年年底发布的ChatGPT,基于GPT-3.5进行了指令微调和人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),这使其在对话交互方面表现出色,因前所未有的用户体验迅速吸引了全球众多用户的关注,并将大模型技术推向了公众视野。

2023年,OpenAI发布了GPT-4,其文本生成质量较前代模型大幅提升;其后的GPT-4V(Vision)更是将多模态能力推向新高度,即它可以同时处理复杂的文本和图像信息。进入2024年,文生视频模型Sora凭借其生成视频的高度连贯性、对现实世界模拟的真实感,引发了广泛关注。它的发布标志着AI在动态视觉内容的生成上,取得了重大突破。随后发布的GPT-4o,则首次将文本、音频、视觉等多种模态的处理能力原生整合到单一模型中,实现了近乎实时的语音对话和视觉交互,使人机交互向着更自然的“全能”方向发展。

与此同时,业界也在积极探索如何提高大模型的效率和降低成本。例如,我国推出的 DeepSeek-R1模型,通过采用创新的混合专家(Mixture of Experts,MoE)架构,在实现模型性能优化的同时,显著降低了模型在训练阶段和推理阶段的算力成本,有效推动了开源模型领域进入高质量、高效率的竞争阶段。

回顾大模型技术的发展阶段,其演进路径清晰呈现“参数规模扩大→模型能力跃迁→应用边界拓展”的规律,这一规律与技术发展的4个阶段高度契合。

浅层模型的商业化探索阶段,模型以服务单一特定任务为核心,如早期的机器翻译、简单问答系统,完成了AI技术从实验室到商业场景的初步落地。

进入深度学习的崛起与感知智能的突破阶段后,以深度神经网络为核心的技术架构实现跨越式发展,在图像识别、语音理解等感知任务上取得突破,如能掌握复杂博弈逻辑的AlphaGo,标志着AI技术从“浅层响应”迈向“深度决策”。

在迎来基础模型与涌现能力阶段后,预训练模型成为主流,通过大规模数据训练催生涌现能力,在逻辑推理、跨领域迁移等方面展现出强泛化性,使AI技术从“专项能力”升级为“通用基础能力”。

在迈向多模态、可控性与生态共荣阶段后,模型突破单一模态限制,在文本、图像、视频等多领域实现协同理解与生成,同时通过可控性技术优化与生态体系构建,推动AI技术从“技术突破”走向“规模化普惠”。

每一次阶段跨越,不仅是参数规模的量变积累,更是AI技术范式的革新与工程体系的全面跃升。

1.2.2 技术发展的驱动力

大模型技术的飞跃式发展并非仅仅依赖于模型参数规模的简单扩大,还依赖于数据、算力和算法这三大要素相互促进、协同作用。

1.数据

高质量、大规模且多样化的数据是训练大模型的关键“燃料”。例如,GPT-3的训练数据量高达45TB,涵盖互联网文本、代码、书籍等多种来源的、多种语言和领域的信息。数据的规模和多样性直接决定了模型能够学习到的知识的范围和能够具备的泛化能力。然而,数据质量问题,例如数据中存在的偏见、噪声和不准确信息,仍然会影响模型的性能和可靠性。数据中存在的偏见会严重影响模型的公平性和公正性。因此,在数据收集和处理过程中,必须关注偏见问题,确保数据的公平性和公正性。

如何获取和利用企业内部的私有数据进行模型微调和知识更新,同时保障数据的安全和用户的隐私,也成了重要的研究和应用挑战。任度大模型提出的本地化数据压缩技术,正是为了满足企业数据动态更新和隐私保护的需求。为了解决数据稀缺和偏见问题,研究人员正在探索合成数据和数据增强技术。未来的大模型将更加注重多模态数据,例如文本、图像、音频、视频等的融合。

2.算力

强大的算力是训练和运行大模型的必要条件。现代大模型通常需要数千甚至数万个高性能GPU或张量处理单元(Tensor Processing Unit,TPU)进行数周甚至数月的并行训练。NVIDIA的A100和H100等系列GPU,以及谷歌的 TPU 等专用加速硬件,为大模型的训练提供了强大的算力支持。除了GPU和TPU,研究人员还在探索其他专用加速硬件,例如现场可编程门阵列(Field Programmable Gate Array,FPGA)和专用集成电路(Application Specific Integrated Circuit,ASIC)的应用,以提高大模型的计算效率。

模型的“大”,首先体现在其对算力的极致需求上。训练参数规模达数百亿甚至数万亿的大模型,需完成万亿次级别的浮点运算,且消耗巨大能量。为满足这一算力需求,研究人员不仅要依托数千张高性能GPU构建并行计算体系,还需采用复杂的数据并行、张量并行与流水线并行技术——这一过程对计算集群的通信带宽和延迟提出了极高要求。因此,算力并非简单的硬件堆砌,而是直接决定大模型能否被训练、训练效率如何、最终成本高低的关键瓶颈。

3.算法

算法的创新是推动大模型发展的核心动力。Transformer 架构的提出,彻底改变了序列建模领域的发展。其自注意力机制,既能高效捕捉长距离依赖关系,又能支持并行计算,为构建更大规模的模型奠定了基础。近年来,研究人员围绕模型架构持续探索优化方向,例如从稠密的基于Transformer架构的模型(如GPT-3)到稀疏模型(如DeepSeek-V3),旨在提高模型的参数效率,即在保持甚至提升模型性能的同时,减少模型的参数量和计算量,以降低训练和推理成本。

在Transformer架构成为大模型核心基础后,算法的演进从未停止,研究人员通过多路径改进进一步提升模型性能与效率。

混合专家(Mixture of Experts,MoE)架构:核心逻辑是训练时仅激活模型中的部分“专家”参数(而非全量参数),实现了不显著增加计算量的前提下,大幅扩展模型参数规模,平衡“规模”与“效率”。

状态空间模型(State Space Model,SSM):以Mamba为典型代表,采用与Transformer不同的技术路径,尝试用计算效率更高的结构替代自注意力机制,尤其在处理超长序列文本任务时,展现出低延迟、高吞吐的潜力。

底层算子优化:以FlashAttention为代表,通过重构注意力计算的内存读写逻辑(如减少数据在CPU与GPU间的传输次数),从底层硬件适配层面提升计算效率,显著加快了模型的训练与推理速度。

1.2.3 当前挑战与未来发展方向

尽管大模型技术拥有诸多优势,但也不可避免地存在如下4个方面的挑战,而应对这些挑战的方案无疑是其未来发展方向。

(1)算力与能耗的瓶颈。训练和部署拥有千亿甚至万亿级参数的模型需要巨大的算力资源(成本高达数千万美元),并且会消耗大量的能源,这不仅带来了经济负担,也对环境造成了压力。因此,探索更高效的训练方法、更优化的模型架构以及更节能的硬件(如光子芯片、存算一体芯片)成为未来的重要研究方向。同时,模型量化、剪枝等技术通过大幅压缩模型规模、降低计算需求,为缓解算力与能耗问题提供了解决方案。

(2)知识的时效性问题。大部分大模型的知识都来源于其训练时所使用的数据集,这导致模型无法及时了解和掌握最新的信息和事件。例如,部分模型的知识截止日期为2023年10月,因此其无法准确回答关于在此之后发生的事件的问题。研究人员正在探索动态更新模型知识的方法,例如通过持续学习、增量训练以及与外部信息源(如互联网)的连接,以缓解知识的时效性问题。

(3)交互方式的局限。当前主流的大模型交互方式仍然局限于对话框,这限制了模型与现实世界、其他应用程序以及用户进行更丰富、更直接的交互的能力。这种局限性使得大模型在需要感知环境、操作工具或进行多模态协作的场景中存在瓶颈。为了解决这个问题,研究人员正在探索如何使大模型能够实现对文本、图像、音频、视频等多模态信息的更深层次的理解和融合,并最终发展到能够与现实世界进行交互的具身智能。这将突破当前对话框交互方式的限制,使大模型能够感知环境、执行动作并与用户进行更自然的交互。

(4)安全与伦理的风险。大模型可能会生成不准确、有偏见甚至有害的内容,即所谓的“幻觉”问题。此外,大模型也存在被恶意利用以进行网络攻击、传播虚假信息甚至侵犯隐私的风险。数据泄露也是一个重要的安全隐患。因此,开发更有效的对抗训练方法、增强模型的鲁棒性、为大模型系统构建可靠的“安全围栏”、实施严格的数据隐私保护措施,以及建立完善的伦理规范,对于确保大模型的安全、可靠应用至关重要。差分隐私等技术可以用于在保护数据隐私的同时进行模型训练。

1.3 大模型系统发展路径

LLM技术的快速发展,标志着大模型系统正经历一场由量变到质变的深刻变革。这一变革的核心在于智能水平的阶梯式跃升。首先,LLM催生了智能对话系统,实现了人机之间更加自然、流畅的交互。随着技术的发展,这些基于LLM的大模型系统逐步具备了调用外部工具和资源来完成更复杂任务的能力。进一步地,通过自主思考和推理,LLM能够模拟人类的思考过程,进行决策和规划。最终,这一变革将推动大模型系统走向具身智能,即能够像人类一样感知周围环境、与物理世界进行交互,并自主规划和执行任务。从智能对话到工具利用、自主思考,再到具身智能,本节以LLM技术的演化为线索介绍大模型系统的发展路径。

1.3.1 基础语言理解与生成

这一阶段的核心是LLM的崛起。其技术基石是Transformer 架构,该架构通过引入自注意力机制(Self-Attention Mechanism),使得模型能够有效地捕捉输入序列中的长距离依赖关系,从而更好地理解上下文。Transformer 架构通常包含多个注意力头(Multi-Head Attention),允许模型同时关注输入序列的不同方面,提升了模型的表达能力。

LLM的训练依赖于对海量文本数据的自监督学习。例如,在掩码语言建模(Masked Language Modeling)任务中,模型需要预测文本中被遮盖的词语;在因果语言建模(Causal Language Modeling)任务中,模型需要根据上下文预测下一个词语。通过在数以千亿甚至万亿计的Token上进行预训练,模型能够学习到丰富的语言知识和世界知识,并展现出令人惊讶的涌现能力,例如在通过预训练的情况下,具备了一定的推理、翻译甚至简单的数学计算能力。

早期的 GPT 模型,如GPT-1和GPT-2,虽然参数规模相对较小(分别为 1.17 亿和 15 亿),但在文本生成方面已经展现出令人印象深刻的能力,例如它们能够生成连贯的文章、诗歌和代码片段。然而,它们在理解复杂指令、进行多轮对话和处理特定领域知识方面存在明显的局限性。

为了使预训练的LLM能更好地服务于人类,研究人员提出了指令调优(Instruction Tuning)的方法。该方法利用少量的人工标注数据,让模型学习如何遵循自然语言指令。通过在这些指令数据上进行微调,模型能够更准确地理解用户的意图,并生成更符合用户期望的回答。

更进一步,OpenAI通过引入RLHF技术,推出了ChatGPT。RLHF技术的实施包含以下关键步骤。

收集人类对模型生成不同回答的偏好数据。

基于这些偏好数据训练一个奖励模型(Reward Model),用于评价模型生成回答的质量。

利用强化学习算法,如近端策略优化(Proximal Policy Optimization,PPO)优化LLM的策略,使其能够生成可以获得更高奖励的回答。

RLHF技术的应用使得ChatGPT在对话交互、上下文理解和生成符合人类偏好的、更安全和更有帮助的回答方面的表现有了显著的提升,标志着LLM在人机交互方面迈出了重要一步。

1.3.2 工具赋能的增强智能

扩展LLM的能力边界,使其能够解决更广泛的实际问题的关键在于工具的利用。通过与外部工具和系统的集成,基于LLM的大模型系统获得了超越纯粹语言交互的能力。

1.插件和联网功能

插件功能允许LLM连接到各种外部服务和应用程序。例如,天气插件可以让模型查询实时的天气信息,知识库插件可以让模型访问特定的文档或数据库。插件的实现通常依赖于清晰的API的定义,LLM能够理解这些API,并根据用户的自然语言指令调用相应的插件来完成任务。

联网功能则使得模型能够突破训练数据的时效性限制,像人类一样使用搜索引擎浏览互联网上的资源,获取最新的信息的时效性。例如,用户可以询问ChatGPT最新的股市行情,模型可以通过联网功能实时检索相关信息并给出回答。

2.函数调用功能

函数调用功能使LLM不仅能使用预设的工具,还具备了根据需求与外部系统进行更灵活的交互的能力。开发者可以定义一系列函数及其参数,当用户提出需要模型执行特定操作的请求时,模型可以识别出合适的函数,并生成符合预定格式(如JSON)的、包含具体参数的指令。例如,一个客户服务机器人可以使用函数调用功能来查询用户的订单信息、更新用户的联系方式,或者创建一个新的支持工单。函数调用功能的引入使得LLM能够与各种后端系统和服务进行集成,极大地扩展了其应用场景。

3.高级数据分析功能

集成的高级数据分析(Advanced Data Analysis,原名代码解释器(Code Interpreter))使得LLM不仅能够生成代码,还能够理解、分析、执行和调试代码。例如,OpenAI集成的高级数据分析功能允许用户上传数据文件,然后使用自然语言指示使模型执行数据分析、可视化等操作,模型会在后台生成并执行相应的代码。这为非程序员用户提供了强大的数据处理功能,也为程序员用户提供了更智能的编程助手,为快速完成原型开发、代码重构和错误修复提供支持。

工具利用能力的提升,使得LLM能够跳出纯文本交互的局限,在如内容创作、数据分析、软件开发等场景有更广泛的应用。

1.3.3 自主思考的深入探索

如同科幻作品《西部世界》中通过植入“意识”代码而“觉醒”的机器人一样,对于具备强大语言交互能力和工具利用能力的大模型系统,研究人员也开始积极探索如何赋予其自主思考的能力,以使其能够更独立地完成复杂的任务。尽管“意识”代码的植入在当前仍是科幻构想,但现实中的研究人员正致力于开发能够进行自我反思和独立决策的大模型系统,旨在提升其自主性,从而减少在复杂任务的执行中对人类的依赖。通过赋予LLM更深层次的自主思考的能力,大模型系统将逐步从单纯的任务执行者转变为能够独立思考和决策的智能主体,最终实现真正的自主智能。

人类在处理复杂任务时,通常遵循一套“思考-规划-执行”的流程:首先进行深入的思考和周密的规划,然后搜寻并整合必要的外部信息,之后形成具体的解决方案,最后执行方案并总结结果。LLM在处理任务时,其逻辑与上述流程存在诸多相似之处。虽然大模型系统并非以生物神经元为基础,但它们在处理任务时同样需要执行信息的获取、处理和决策步骤,只不过这些步骤的执行是通过外部知识库的调用以及模型内部复杂的推理能力来实现的。

因此,可以将LLM的内部结构视为一个“思维中枢”,它不仅负责存储和提取庞大的知识,更重要的是,它能够执行复杂的逻辑推理,并最终生成可行的决策和行动方案。为了赋予大模型系统真正的自主思考能力,研究人员通常会将任务规划(Task Planning)、记忆(Memory)机制和工具利用(Tool Use)这3个要素紧密结合,构建一个具备复杂推理与执行能力的完整系统。

1.任务规划

任务规划是引导LLM进行“思考”的首要环节。在这个环节,模型需要理解任务目标,并自主地分解任务、制定步骤。如同苏格拉底的“产婆术”,通过精心设计的对话或问题引导,模型能够逐步发现问题的核心,并自主地寻找解决方案。例如,当要求模型制定一份详细的工作方案时,可以通过一系列具有针对性的提示,不断引导模型思考潜在的风险因素,并在互动过程中帮助其完善方案,使其制定的方案更加安全、可靠。

在任务规划过程中,思维链(Chain of Thought,CoT)发挥着至关重要的作用。该技术使得模型能够将复杂的任务分解,同时制定一系列逻辑上相互关联的可执行步骤,并逐一执行,确保每个步骤的合理性和透明性。通过这种方式,模型不仅能够高效地完成任务,还能使其决策过程具有良好的可追溯性和可解释性。随着CoT的不断完善,模型的思考能力将得到显著提升,其能够在复杂多变的环境中做出更为精准和灵活的决策。

2.记忆机制

在任务执行过程中,大模型系统往往需要访问和调用外部信息,以支持其决策和操作。LLM的记忆机制与人类的记忆系统类似,其中的记忆可以分为短期记忆和长期记忆。短期记忆主要依赖于当前提示中提供的即时信息,这些信息通常与当前对话或任务直接相关;而长期记忆则依赖于外部存储系统,该系统可以存储更早的信息,供模型在未来的任务中检索和使用。

目前,LLM主要依赖短期记忆,通过提示中的上下文信息来理解和完成任务。然而,为了更好地解决需要长期知识和经验才能解决的复杂问题,模型必须能够有效地调用长期记忆,提取历史数据和相关的外部知识,并将其融入当前任务的决策过程。这种高效的记忆机制将显著提升大模型系统在多步骤任务中的表现,减少信息遗忘,并有助于模型在不断变化的环境中保持认知上的一致性和连贯性。

3.工具利用

工具利用,即在LLM能够进行和具备有效的任务规划和记忆机制的基础上,赋予LLM利用各种工具的能力,以使其更高效地执行复杂的任务。通过调用各种插件、函数等外部工具,模型可以扩展自身的能力边界,解决日常任务中涉及的各种复杂问题。

然而,如果LLM不仅能够熟练地利用现有的工具,还能根据需求自主创造新的工具,这将为其能力边界的扩展带来更加深远的影响。如图1-3所示,借助高级数据分析功能,模型能够根据用户的提示生成、运行和调试代码,直接操作数据,处理多模态输入,从而完成复杂度远超传统语言理解任务复杂度的任务。这不仅极大地扩展了模型的应用场景,更使其具备了创造工具的潜力。

图1-3 ChatGPT通过编码回答用户问题

随着模型对工具利用的日益熟练,大模型系统进一步突破传统自然语言处理的局限,能够完成更加多元化的任务,并提供更加个性化的服务。

任务规划、记忆机制和工具利用这3个要素的结合,使得大模型系统能够自动化地处理日益复杂的任务,甚至能够完成一些传统上需要专业人士或工程师才能完成的任务。这一转变标志着大模型系统正逐步超越传统的“助手”角色,具备独立思考和决策能力。通过这些持续的进步,大模型系统正在逐步摆脱对纯粹语言理解的依赖,朝着具备真正独立思考和决策能力的方向发展。

1.3.4 连接物理世界的具身智能

具身智能的核心目标是赋予智能体强大的计算和语言处理能力,并通过在物理世界的感知与行动来实现真正的智能。具身智能的三大核心要素——环境感知、自主规划与决策,以及即时学习与适应——共同推动了这一技术的发展。

1.环境感知

环境感知是具身智能的基础。智能体需要能够通过各种传感器(如摄像头、雷达、声呐、触觉传感器、力传感器、惯性测量单元等)获取关于周围环境的丰富信息,并利用计算机视觉、语音识别、自然语言理解等技术对这些信息进行理解和处理,构建对环境的多维、动态且语义丰富的表征。例如,一辆自动驾驶汽车需要感知周围的车辆、行人、交通信号灯等,并理解它们的行为和意图。

2.自主规划与决策

自主规划与决策是指智能体根据感知到的环境信息和自身的任务目标,自主地制订行动计划,并在面对动态变化的环境时做出实时的决策。这涉及复杂的算法,例如用于实现路径规划、运动控制、目标跟踪等的算法。例如,一个家庭服务机器人需要能够规划出清洁房间的最佳路径,并决定如何抓取和放置不同的物体。

3.即时学习与适应

即时学习与适应使得智能体能够通过与环境的互动不断优化自身的行为。例如,一个机器人可以通过强化学习了解如何更有效地完成一项任务,或者通过模仿学习掌握人类的操作技能。这种能力对于在复杂和未知的环境中实现鲁棒的性能至关重要。

4.关键进展与未来展望

GPT-4o等端到端多模态模型的推出,标志着具身智能的发展迈出了重要一步。GPT-4o 能够直接处理包括文本、音频和图像在内的多模态输入,并生成相应的多模态输出。其极低的延迟特性为实现实时、更自然和流畅的人机交互及更强大的具身智能应用提供了支撑。例如,一个配备 GPT-4o 的机器人可以通过摄像头观察周围环境,通过麦克风接收人类的语音指令,并根据理解到的信息控制自身的行为。

产业界对人形机器人等具身智能形态十分重视,宇树科技、特斯拉和Figure AI等的布局,表明该领域正在取得实质性进展。可以预见,未来会有更多由高性能多模态模型驱动的人形机器人,它们能够在各类复杂场景中执行任务。

展望未来,具身智能将与空间智能和多模态融合更紧密地结合。空间智能是指智能体理解和推理三维空间信息的能力,例如进行同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)、三维场景理解和基于空间的推理。多模态融合则意味着智能体能够无缝地处理和整合来自不同模态(如文本、图像、音频、视频、传感器数据等)的信息,从而获得更全面和深入的理解。

这种紧密结合,将催生更多新兴应用。例如,在增强现实(Augmented Reality,AR)导航中,具身智能体可以利用视觉和空间信息引导用户在现实世界中行走。在虚拟现实(Virtual Reality,VR)环境中,结合了具身智能的虚拟化身可以与用户进行更自然的互动,并根据用户的行为和环境变化做出即时的响应。在工业领域中,结合了多模态融合和空间智能的机器人可以在复杂的环境中完成精密的装配和维护工作。数字孪生的概念也与此相关,通过创建物理世界的高保真数字模型,具身智能体可以在虚拟环境中进行大规模的仿真、测试和优化,再将习得的策略安全地部署到物理世界中执行相应的操作。

相关图书

DeepSeek原理与项目实战大模型部署、微调与应用开发
DeepSeek原理与项目实战大模型部署、微调与应用开发
Python编程快速上手——让烦琐工作自动化(第3版)
Python编程快速上手——让烦琐工作自动化(第3版)
精通MCP:AI智能体开发实战
精通MCP:AI智能体开发实战
C++程序设计语言(第4版)(上、下册)
C++程序设计语言(第4版)(上、下册)
驾驭 Gemini 3与Nano Banana:人人都是AI产品创客
驾驭 Gemini 3与Nano Banana:人人都是AI产品创客
软件工程3.0:大模型驱动的研发新范式
软件工程3.0:大模型驱动的研发新范式

相关文章

相关课程