书名:AI大模型企业落地指南
ISBN:978-7-115-66133-3
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 贾利阳 王 奇
责任编辑 杨绣国
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
随着人工智能(AI)技术的迅猛发展,大模型技术已成为推动各行各业变革的重要力量。为了帮助企业管理者和技术人员更好地理解和应用这一前沿技术,本书精心编排多个篇章,从基础概念到实战应用,全面系统地介绍AI大模型的相关知识。
概念普及篇(第1~2章)简要概述人工智能与大模型的基本概念及其对社会经济的广泛影响。
企业落地准备篇(第3~4章)介绍企业大模型应用落地的常见形式,评估AI能力边界,解析大模型落地的必备要素,梳理公司已有的业务链条,寻找AI落地场景,并细化落地方案。
企业落地步骤篇(第5章)聚焦大模型落地具体步骤以及大模型安全、算法备案和内容版权等相关内容。
大模型原理篇(第6~7章)深入剖析大模型的基础原理和应用原理,旨在提升模型性能。
应用开发篇(第8~9章)通过丰富的实战案例生动展示大模型在企业中的实际应用效果。
未来展望篇(第10章)预测AI技术的发展趋势,并深入分析这些趋势对社会经济产生的深远影响,为企业决策者提供前瞻性的思考角度。
本书适合企业高管及负责人、技术部门负责人及一线IT工程师阅读,旨在帮助读者全面了解大模型技术,把握科技发展的先机。
大模型落地过程复杂,面临技术选型、场景适配等多重挑战。本书提供的落地方法论和实操指南具有极高的实用价值,既能助力企业规避风险、降低试错成本,又能深度挖掘大模型的商业价值。通过理论指导与实战应用的系统结合,本书为企业大模型落地提供了全方位的支持。
—— 颜峰 美团多模态大模型资深技术专家
在企业数字化转型浪潮下,大模型技术正成为核心驱动力。本书系统解析了大模型落地的全流程,从战略规划到实施注意事项,均进行了深入阐述,为企业数字化转型提供了可落地的行动指南。
—— 杜颖 北京颖知科技有限公司创始人
在企业大模型从理论探索走向实践应用的关键阶段,本书堪称不可或缺的落地导航。它不仅构建了大模型实施的全流程框架,还通过行业实战案例深度解析关键要点与潜在风险,助力企业应对攻克技术难题与管理协同的双重挑战,加速实现大模型的稳健落地。对于寻求数字化创新突破的企业来说,本书无疑是战略级的实战指南。
—— 王琳 百度、蚂蚁集团前资深AI技术专家,北京与爱为舞科技有限公司技术合伙人
企业大模型落地既依赖技术支撑,更考验战略协同、组织协同与业务融合能力。本书提出的系统性方法论,通过深度融合技术与业务,覆盖场景洞察、架构设计、部署优化等核心环节,为企业大模型落地全流程赋能,显著提升项目实施成功率。
—— 邱学侃 高途教育前资深AI负责人
对于计划布局大模型应用的企业,本书是值得信赖的行动指南。作者将复杂的大模型落地过程分解为可操作的实施步骤,并结合实战案例给出针对性建议,帮助企业高效构建大模型应用体系,提升企业核心竞争力。
—— 王强 北京泽霖时代智能网络科技有限公司创始人兼CEO
从行业发展趋势来看,大模型技术正在深度重塑商业格局,但其落地过程充满挑战。本书依托系统性方法论,对从战略规划到运维保障的全周期环节进行了系统剖析。通过丰富的实战案例与详尽的注意事项,本书为企业管理者及技术团队提供了清晰的大模型落地实施路径,堪称行业标杆之作。
—— 李昊天 Meta前资深AI技术带头人,Lyft AI团队负责人
近两年来,随着ChatGPT的火爆,AI大模型技术(以下简称大模型技术)在全球范围内引起了广泛关注,成为科技领域的热门话题。这一技术的突破和广泛应用,正在重构人类社会在数字化内容生产、娱乐、教育、消费等各个领域中的生产力与生产关系,其影响巨大而深远。
技术进步是推动大模型技术发展的核心动力。随着深度学习等人工智能技术的快速发展,算法模型变得更加精准和高效,能够处理复杂的生成任务。例如,GPT-3等先进的自然语言处理模型能够生成连贯、逻辑性强的文本内容,其自然语言理解和处理能力,以及人机交互能力,都远超上一代NLP(自然语言处理)技术。此外,GAN(生成对抗网络)、Transformer、扩散模型等技术也在图像生成领域取得了显著成果。这些技术的发展,为大模型技术的广泛应用奠定了基础。
市场需求的增长也是大模型技术迅速发展的重要因素。在信息爆炸的时代,人们对个性化、多样化内容的需求日益增长,对高效率、高质量的内容制作提出了更高要求。大模型技术能有效降低数字化内容创作的门槛和成本,使非专业人士也能创作出高质量的内容。这不仅满足了市场对内容的需求,也为内容创作者提供了新的创作手段和灵感来源,进而催生了一批利用AI工具进行绘画、视频制作、文章撰写的“AI超级个体”,他们通过这些方式创造利润。
大模型技术已在多个领域涌现成功的应用案例。在新闻、娱乐、教育、营销等行业,大模型技术已开始用于生成新闻报道、创作音乐、辅助教学、设计广告等。这些成功案例展示了大模型技术的潜力,吸引了更多企业和投资者关注和投入这一领域。全球范围内的政策支持和资本投入为大模型技术产业的发展提供了持续动力。许多国家和地区出台了支持人工智能发展的政策,为大模型技术的研究和产业化提供了良好环境。同时,风险投资等资本的涌入,为大模型技术相关企业和项目的快速发展提供了资金支持。因此,技术进步、市场需求、成功应用案例及政策和资本的支持共同促进了大模型技术在全球范围内的广泛兴起。随着技术的不断完善和应用领域的拓展,大模型技术有望在未来继续引领科技创新和内容产业的发展。
AI技术的发展趋势必然是越来越普及,越来越“技术平权”的。在未来10年内,AI将以各种方式“融入”人类世界,与人类乃至世界深度融合。随着AI技术的持续演进,AI的使用门槛正不断降低,在可预见的未来,非技术背景人群也将能够借助自然语言便捷地操控AI,并利用其构建数字化系统。大模型、AI工程化、高性能算力芯片以及AGI (通用人工智能)等前沿技术的进步,将显著推动这一进程。
然而,目前AI技术在企业落地方面仍存在认知差异、信息不对称、行业知识差距和技术能力鸿沟,需要专业人员引领和指导。此外,目前国内外市场上尚缺系统论述大模型如何在企业落地的图书。由于缺乏对AI技术的深刻理解,许多企业负责人无法预判AI未来的发展趋势及其对企业产生的深远影响。因此,我们深感有必要结合自身多年的AI实践经验和技术积累,为广大企业负责人、高管及技术负责人撰写此书。
本书的写作目的,一方面是普及大模型在企业落地的相关知识和方法论,帮助企业抓住AI赋能的机遇;另一方面是希望通过本书与读者共同探讨大模型在企业中的应用策略和落地方法,为企业的创新发展提供有益的思路和借鉴。此外,我们还想结合自身的AI从业经验,与读者共同探讨AI的未来发展趋势,以便从容应对AI浪潮带来的挑战和机遇。
本书主要适合企业高管及负责人、技术部门负责人及一线IT工程师阅读。那些有意向从事大模型企业应用工作的职场人士和在校大学生,也可通过阅读本书获得对大模型应用框架的整体认识。期望本书能够成为读者在探索大模型应用过程中的有力工具,能为读者提供全面且深入的指导,帮助企业在AI时代实现转型与快速发展。
本书共包含10章,分为六篇。每篇内容各有侧重,读者可以根据自己的兴趣和需求选择相应的篇章进行重点阅读。企业高管及负责人可能会更加关注大模型的概念、应用价值、落地建设框架、整体成本投入及AI的未来发展趋势等内容,建议这部分读者重点阅读概念普及篇、企业落地准备篇、企业落地步骤篇和未来展望篇;而一线IT工程师及在校大学生可能更关注大模型的技术原理、应用开发及落地建设的具体步骤,建议这部分读者重点阅读企业落地准备篇、企业落地步骤篇、大模型原理篇和应用开发篇。
概念普及篇(第1~2章)简要概述人工智能与大模型的基本概念及其对社会经济的广泛影响。
企业落地准备篇(第3~4章)首先介绍企业大模型应用落地的常见形式,评估AI能力边界,解析大模型落地的必备要素,并梳理公司已有的业务链条,寻找AI落地场景。接着,对比分析不同方案的成本、技术框架及适应性,方便企业选择最合适的落地方案。
企业落地步骤篇(第5章)聚焦大模型具体落地步骤,包括数据预处理、大模型评测、大模型与企业应用无缝衔接、部署上线、效果评估与数据反馈、迭代等关键环节。此外,还介绍了大模型安全建设、算法备案和内容版权等相关内容。
大模型原理篇(第6~7章)首先深入剖析大模型的基础原理,涉及Transformer架构、扩散模型和多模态大语言模型等。接着介绍大模型应用原理,包括大模型微调原理、量化技术和AI Agent,这些内容旨在提升模型性能。
应用开发篇(第8~9章)通过丰富的实战案例生动地展示大模型在企业中的实际应用效果,为企业提供可借鉴的实践经验。
未来展望篇(第10章)预测AI技术的发展趋势,并深入分析这些趋势对社会经济产生的深远影响,为企业决策者提供前瞻性的思考角度。
最后,期待读者在阅读本书的过程中有所收获,并欢迎读者提出宝贵的意见和建议。
贾利阳 王奇
2025年 4 月
本书提供如下资源:
● 本书思维导图
● 异步社区7天VIP会员
要获得以上资源,您可以扫描下方二维码,根据指引领取。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,点击“发表勘误”,输入勘误信息,点击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。
人工智能(全称Artificial Intelligence,简称AI)是计算机科学与其他学科交叉的一个领域,旨在创建具备高级智慧的机器或系统,来执行一系列需要人类智能才能完成的任务。这些任务包括但不限于视觉感知、语音识别、语言翻译和决策制定等。
AI可以分为弱AI和强AI,其中弱AI专注于执行特定任务,如图像识别、语音转换、词性标注等;而强AI则具备可与人类比肩的认知能力,在广泛的领域展示出灵活的智能和自主学习的能力,因此它又被称为通用人工智能(Artificial General Intelligence,AGI)。
AI的发展涉及多个学科和技术,包括计算机科学、数学、逻辑学、心理学等。AI的核心目标是通过模拟人类的认知和推理能力来完成任务。
AI的原理可以类比人脑的学习过程。假如把AI比作一位极其聪明的学生,它需要学习大量的历史经验或学习资料,这里的历史经验或学习资料指的就是数据。接着,这位学生会采用各种学习方式,从这些数据中找出规律,这样在面临新的问题时,这位学生就可以根据其学到的规律来预测未来。
人脑总结的规律在AI看来就是一个模型,AI通过输入大量历史数据并经过训练,从中提炼出一个模型,该模型能够根据新输入的数据,预测未知的属性和结果。值得注意的是,AI并不是学习完既有的知识后停滞不前。相反,它会通过不断吸收新的数据持续优化并改进自己的模型,从而变得更加智能。就像我们人类一样,学习得越多,积累的经验越丰富,能力就会随之增强。
因此,AI的原理是通过学习大量的数据,建立模型,然后利用模型来处理新的数据。随着数据的不断输入,模型会不断地学习和改进,从而逐步提升其智能水平,帮助人类解决各种复杂的问题。AI与人脑思考方式的对比如图1-1所示。
图1-1 AI与人脑思考方式的对比
那么,人工智能、机器学习和深度学习之间又有何区别呢?如图1-2所示,人工智能、机器学习和深度学习这三者存在从广义到狭义的层次关系。人工智能是一个宽泛的概念,包括了机器学习,而机器学习是实现人工智能的一种方法,深度学习则是机器学习的一个重要分支。
深入研究深度学习,可以看到“预训练模型”是深度学习领域中的一个重要概念,我们可通过使用大量数据进行预训练,从而极大地提升模型的性能和泛化能力。
图1-2的最内圈是“大模型”。大模型是近年来深度学习领域的一个热点,它基于Transformer架构构建,参数规模达到数亿甚至数千亿个。由于其具有处理复杂任务的能力,因此代表了当前AI技术向更高层次智能化迈进的趋势。
图1-2以由外到内的方式形象地阐述了不同层次的人工智能概念(从宽泛的人工智能,到更为具体的机器学习和深度学习,再到关键的预训练模型和当下热门的大模型概念),阐明了人工智能领域的发展脉络和最新趋势。
图1-2 从人工智能到大模型的关系
AI技术已经全面融入人们的日常生活,不仅提升了用户体验,还显著提高了生活的便利性。以下是几种典型的AI应用场景。
● 智慧安防:遍布在住宅小区、街道和城市公路等区域的摄像头,会将采集到的图像及视频传输到云端。云端的AI软件会进行图像分析与识别,能够准确甄别出行人身份、行为轨迹和车流量、车牌号等信息,用于交通调度、刑侦、自动停车计费等应用场景的智慧化管理。街道上的智慧安防场景如图1-3所示。
图1-3 街道上的智慧安防场景
● 语音助手:在智能手机应用中,AI技术已广泛用于语音与文字的转换功能。通过AI语音识别技术,手机可以自动将用户的语音转换成文字,显著提升了信息传递效率和便利性。微信语音转文字功能示例如图1-4所示。
图1-4 微信的语音转文字功能
● 直播美颜:使用在线直播软件里的美颜功能,用户可以方便地借助AI图像处理技术对面部进行磨皮、瘦脸、美白、祛斑、去除双下巴等操作,实现快速的美颜效果。直播软件内的相关美颜功能如图1-5所示。
图1-5 直播软件内的相关美颜功能
● 医疗健康:AI已被广泛应用于医疗影像分析、疾病预测、个性化医疗和药物开发等领域,并已展现出巨大潜力。AI技术能够极大提升对基因数据的分析能力,促进DNA测序与匹配,还能缩短新药研发周期。
● 金融服务:AI技术被用于信用评估、股票分析、风险检测和自动化交易等金融服务领域,能够帮助实现更智能和安全的金融服务与决策,提高交易的精确性与效率。
● 自动驾驶:通过AI技术,自动驾驶系统能够感知周围环境,做出决策并自主驾驶车辆。这不仅能有效缓解交通压力,也将为未来的智能交通铺平道路。图1-6展示了自动驾驶汽车与智慧城市的场景。
图1-6 自动驾驶汽车与智慧城市
● 智能制造:AI在制造业中的应用包括预测性维护、质量控制和供应链优化等,可以有效提高制造业的智能化程度,提升制造质量与效率。
● 电子商务:AI运用个性化推荐、价格优化和客户服务自动化等手段,可以极大地提升电商平台的零售效率和用户体验。某电商网站个性化推荐区域示例如图1-7所示。
图1-7 某电商网站个性化推荐区域
上面列举的只是一小部分应用场景,实际上AI的应用场景已经非常广泛,本书会在后续章节中逐步展开讲解。
大模型是AI领域的新兴技术,受到了广泛关注。大模型,也称为大型预训练模型,通常是指拥有巨大的参数量的深度学习模型。这些模型之所以“大”,是因为它们通常包含数十亿、数百亿甚至数千亿个参数,这使得它们能够学习和存储大量的信息,并在多种任务上表现出色。根据输入类型和输出类型的不同,大模型可分为以下几类。
文生文大模型主要提供基本的常识、逻辑、推理能力,结合用户输入的提示词回答问题。该模型通常用于智能客服等场景,大模型赋予用户更大的灵活性,不会限制或强制用户的输入。大模型可根据用户输入信息自动提取关键信息并进行摘要,并以更人性化的方式输出。
OpenAI的ChatGPT、百度的文心一言、阿里云的通义千问等都是文生文大模型的典型代表。文心一言的文生文对话功能如图1-8所示。
图1-8 文心一言的文生文对话功能
文生图大模型通常具备强大的文本理解、细节刻画和风格化能力,可基于输入的自然语言文本生成风格多样、画质精美、创意十足的绘画作品。文生图大模型的代表有Midjourney、Stable Diffusion、OpenAI的Dall·E系列、百度的文心一格等产品。国内某文生图绘画产品的绘画效果如图1-9所示,根据几个简短的提示词即可生成非常理想的画面。
图1-9 国内某文生图绘画产品的绘画效果
文生视频大模型根据文本脚本生成连贯的具备特定风格的视频片段,代表性产品为Runaway、Pika、Sora等。
值得注意的是,目前文生视频产品因技术尚未成熟,应用范围相对有限,但随着文生视频技术越来越成熟,未来一定会大有可为,并且会对影视媒体行业产生深远影响。
图生图大模型可以根据输入的图片生成新的图片,它往往具备以下功能。
● 生成与输入图片相似的图片:可以根据输入的图片生成与之相似的新图片。例如,根据一张风景照片生成一张新的风景照片。
● 生成与输入图片相关的图片:可以根据输入的图片和相关的文本描述,生成与之相关的新图片,例如,根据一张人物照片和相关场景的文本描述,生成一张该人物在不同场景下的新图片。
● 生成不同风格的图片:可以根据输入的图片和相关的风格描述,生成不同风格的新图片。例如,根据一张风景照片和相关的风格描述,生成水墨画风格、油画风格或动漫风格的新图片。
国内外图生图代表性产品如下。
● MiracleVision 4.0:由美图公司研发,涉及 AI 设计和 AI 视频。在AI 设计方面,新增了矢量图形、文字特效、智能分层、智能排版4大功能。同时上线全新视觉模型商店,支持创建个性化视觉模型,助力设计师实现其独特的艺术追求。
● Stable Diffusion:支持文生图、图生图、图修复三种功能。
图生文大模型通常具备如下功能。
● 图像理解与文本生成:能够对输入的图像进行分析,理解图像中的含义,并生成相应的文字描述。
● 创意联想:根据图像展开创意和联想,生成富有创意的文字描述。
● 支持多语言:生成不同语言的文字描述。
图1-10为国内某图生文产品的功能演示,可以根据输入的图片和少量提示词准确理解图片里的内容、风格、元素等。
图1-10 国内某图生文产品的功能演示
视频生文大模型通常具备以下功能。
● 视频理解:对视频中的内容、场景、动作等进行准确识别和理解。
● 语言表达:将视频内容转化为准确、清晰、流畅的文字描述。
● 情感分析:感知视频中所传达的情感和氛围。
● 关键信息提取:提炼出视频中的重要信息和关键元素。
● 多模态融合:综合利用视频的视觉、音频等多模态信息,生成更加丰富的描述内容。
● 自适应学习:通过不断学习和训练,提高生成文字的准确性和质量。
目前,国内在视频生文领域仍处在快速发展和迭代阶段,百度的文心一言在该领域具有一定的代表性。
文生音乐大模型可以根据用户输入的文本和风格描述,模拟特定的音乐流派,创作符合要求的音乐。代表性产品有Suno、昆仑万维的天工SkyMusic等。目前,文生音乐领域的产品仍处于发展初期,未来预计会有更多创新应用出现。
无论是上述哪种类型的大模型,都需要用户输入提示词来控制大模型,以产生符合预期的输出内容。提示词(Prompt)可以被理解为用户向模型发出的指令,就像平时与普通人对话一样,用户可以使用自然流畅的中文、英文等语言来给大模型“发号施令”。
撰写大模型提示词时,需要运用一系列技巧来确保指令明确、有效,且应尽量详细,以便引导模型生成符合预期的结果。下面特意为读者总结了写好提示词的10个核心技巧,具体如下。
● 假定身份:首先为大模型设定一个身份,以便其更好地切换到对应场景,输出更准确和真实的内容。
● 明确目标:明确想要模型生成的内容类型和目标,确保提示词与这一目标紧密相关。
● 使用关键词:为突出核心信息,建议用关键词来引导模型,提高生成内容的准确性。
● 具体描述:给出详细的描述,包括场景、角色、动作等,以帮助模型构建更生动的输出。
● 避免模糊性:尽量使用具体和明确的词汇,减少提示词的歧义和出现误解的可能性。
● 提供示例:在可能的情况下,给出类似的示例,以帮助模型更好地理解用户需求。
● 调整语气和风格:根据需要调整提示词的语气和风格,以确保模型生成的文本符合预期。
● 测试和调整:在实际应用中可以不断地进行测试并调整提示词,以达到最佳效果。
● 保持一致性:在连续的任务中,应保持提示词风格和结构的一致性,这有助于模型更好地理解和学习。
● 利用上下文信息:在给出提示词时,考虑提供相关的上下文信息,以帮助模型更准确地把握整体情境。
一个简单的原则是把大模型当作一位博学的导师。虽然它掌握了大量知识,但如果没有明确的提问或引导,它可能无法提供具体答案。以下是一个写文章任务的提示词案例,完全符合上述10个提示词技巧。
“假定你是一位专业的中文作家,十分擅长用生动优雅的文笔撰写文章。请撰写一篇关于‘春天公园美景’的文章。目标是描绘春天的公园如何给人们带来生机与活力。请简洁明了地描述春天的色彩、气味和声音,使用‘鲜花盛开’‘鸟鸣声声’等关键词。具体描述孩子们在公园中的活动,老人们在树荫下的悠闲。避免使用模糊性词汇,确保文章生动且具体。例如,‘孩子们在花丛中追逐嬉戏,欢笑声此起彼伏。’请保持语气的轻松与活泼,展现春天的轻松愉快氛围。在撰写过程中,请不断调整和优化描述,以达到最佳效果。同时,保持提示词风格的一致性,确保整体描述的连贯性。此外,请结合公园的实际环境和春天的特点,为读者呈现一个栩栩如生的春天公园景象。”
提示工程是一门关于如何写好提示词的系统性学问,对提示词感兴趣的读者可以自行阅读OpenAI官方出品的提示教程中文版或其他专业提示词教程。
我们通常将在大模型技术出现以前使用的AI技术定义为传统AI,有时也称其为小模型。
因为传统 AI 存在诸多问题和瓶颈,所以大模型技术应运而生。传统AI存在的问题和瓶颈包括:处理复杂任务和大规模数据时表现不佳,难以灵活应对场景变化,通常需要特定的任务输入和严格的数据训练。而大模型通过利用海量的数据进行训练,具备更强的学习能力和表达能力,能够更好地处理复杂任务,提升语义理解的精准度,增强模型的适应性和灵活性,从而有效突破传统 AI 的这些局限,为人工智能的发展带来新的机遇。
进一步展开来讲,大模型和传统AI的区别主要体现在以下几个方面。
● 技术原理与算法:传统AI通常依赖基于规则、模板和手工特征工程的算法,这些算法相对较为浅层,难以处理复杂的语言任务。大模型则采用深度学习技术,通过大规模数据集训练出深度神经网络,从而可以高效解决复杂的问题。大模型包含超大规模参数,模型大小可以达到数百GB甚至更大,这种巨大的模型规模为其提供了强大的表达能力和学习能力。
● 任务范围与性能:传统AI通常只能处理特定领域内相对简单的任务,如特定场景下的图像分类、语音识别等。大模型则可以处理多种类型任务,如图文生成、情感分析、问答任务、机器翻译等,具有更广泛的任务范围和更高的性能。
● 灵活性与可扩展性:传统AI在面对新的应用需求时,通常需要重新设计和实现算法和模型,因缺乏快速适应能力,显得不够灵活。大模型的结构和算法可以根据任务需求进行灵活的调整和扩展,以适应不同的应用场景。此外,大模型还具有较好的可扩展性,能够通过增加网络深度和网络宽度来提高性能。
● 计算资源与推理效率:大模型的训练与使用需要大量的计算资源,尤其在大规模数据训练时,通常依赖高性能的GPU、TPU等硬件。传统AI通常需要的计算资源比较少,可以更容易地进行部署和应用,因此在资源有限的条件下,传统AI更加高效。
传统AI和大模型在技术原理、任务范围、灵活性和计算资源等方面存在显著差异。随着技术的发展,大模型正逐渐成为AI的重要发展方向,在处理复杂任务和适应新需求方面展现出显著优势。然而,考虑到计算资源和推理效率的限制,在实际应用中需要根据具体任务和需求选择合适的AI技术。
由于大模型实施成本较高,部分应用场景若采用大模型,可能面临投入产出比较低的问题,此时更适合采用传统AI。因此,在未来较长一段时间内,大模型与传统AI会并行存在,相互演进,甚至分工协作。
表1-1展示了大模型与传统AI在多个维度上的综合对比分析。
表1-1 大模型与传统AI在多个维度上的综合对比分析
维度 |
具体指标 |
大模型 |
传统AI |
---|---|---|---|
质量 |
垂直领域的表现 |
因为在垂直领域未经过微调,所以表现不如传统AI |
在垂直领域经过了数据调优和专门的训练,表现较好 |
可解释性 |
是经过大规模深度学习训练得到的,且存在一定的幻觉与牵强附会现象,因此可解释性较差 |
相对较好,具备一定的可解释性 |
|
输出结果一致性 |
同样的输入,多次交互可能会存在结果不一致的情况,需要应用对齐机制进行修正 |
较好 |
|
成本 |
训练 |
训练需要消耗庞大的数据、算力、存储等资源,一般中小企业难以承受 |
所需资源相对较少,在机器学习场景下仅需普通的CPU即可训练,在深度学习场景下才需要GPU |
推理 |
资源消耗较多。需要使用GPU或NPU进行部署和推理,时延通常为秒级 |
资源消耗较少。仅需普通的CPU即可进行部署、推理,时延通常在几十毫秒内 |
|
人才 |
大模型技术较新,处于快速发展期,由于相关人才供小于求,因此存在高薪和溢价情况 |
技术人才相对成熟,较少存在短缺情况 |
|
数据 |
训练数据通常是GB到TB级的,十分庞大 |
只需几千条到几万条数据即可训练 |
|
效率 |
训练耗时 |
时间较长,需要数月甚至数年 |
时间较短,一般数小时至数月不等 |
泛化能力 |
很强,可以做到一次训练多场景使用,且具备涌现能力 |
较差,必须按场景分别训练,跨场景则需要重新调优 |
|
迭代能力 |
支持零样本或少样本学习范式,通常无须重新训练 |
性能变差后需要重新训练 |
AI、AIGC和AGI是三个容易混淆的重要概念,它们分别代表了人工智能发展的不同阶段和应用领域。
AI是指由人造系统所表现出来的智能行为。这些系统能够通过学习和积累经验来执行任务,解决问题,并能在一定程度上模拟人类的认知过程。AI可以分为弱AI和强AI两大类。
● 弱AI:也称为特定AI,指的是设计用来执行特定任务的智能系统,比如语音识别、图像识别、推荐系统等。
● 强AI:即AGI(也称通用AI),指的是具有广泛的认知能力,能够在各种情境和任务中表现出与人类相当智能水平的系统。
AIGC (Artificial Intelligence Generated Content,人工智能生成内容)是指使用AI技术自动生成文本、图像、音乐、视频等内容的过程。AIGC技术可以根据给定的数据和算法生成新的内容,这些内容可以是原创的,也可以是基于现有内容的变体。AIGC在新闻撰写、艺术创作、游戏开发、娱乐产业等领域有广泛的应用。例如,通过深度学习模型,AIGC可以创作出新的诗歌、故事、音乐作品等。由于它在一定程度上使用了大模型技术,因此AIGC也经常与大模型相提并论。
AGI(通用人工智能)是指一种具有广泛认知能力的智能系统,它可以像人类一样在各种情境和任务中进行学习、理解、推理和创造。AGI是人工智能研究的终极目标,但目前尚未实现。AGI一旦实现,将能够执行任何智力任务,并具有自主意识。这意味着AGI不仅能够理解复杂的概念,进行抽象思维,甚至可能拥有情感和道德观念。
整体来看,AI是一个内涵广泛的术语,包括了所有类型的人工智能系统;AIGC是AI的一个应用领域,专注于内容的自动生成;而AGI则是AI发展的终极目标,代表着与人类智能相当的系统。因此,AGI是人工智能领域的长期追求和巨大挑战。
大模型在人工智能领域的发展可以追溯到人们对神经网络和深度学习的早期探索。大模型的发展历程可以大致概括为以下几个阶段。
人工智能的概念最早在20世纪50年代提出,当时的研究主要集中在由规则驱动的专家系统和简单的模式识别任务上。在这个时期,神经网络这一概念被提出,感知机(Perceptron)是这一概念的重要成果,但由于当时的算力和理论限制,其发展缓慢。
随着算力的提升和算法的进步,神经网络开始受到更广泛的关注。20世纪80年代,反向传播算法(Backpropagation)的提出极大地推动了深层神经网络的发展。这一时期的神经网络规模相比今天的大模型要小得多,但其基本架构与训练方法为后来的大模型发展奠定了基础。
深度学习在21世纪初开始取得显著进展,特别是在图像识别和语音识别等领域。2012年,深度卷积神经网络AlexNet在ImageNet大型视觉识别挑战赛中取得突破性成果,标志着深度学习在图像识别领域内的突破。此后,模型规模逐渐增大,谷歌的Inception与微软的ResNet等网络架构都在图像与视觉领域取得了不错的成果。
2018年,OpenAI发布了GPT(Generative Pre-trained Transformer),这是一个基于Transformer架构的大型预训练语言模型。GPT模型通过在大规模文本数据上进行预训练,然后在特定任务上进行微调,展现出了卓越的自然语言处理能力。此后,BERT、XLNet、RoBERTa等模型相继出现,不断刷新自然语言处理任务的性能纪录。
从这个阶段开始,大模型不再局限于单一模态(如文本),而是开始整合多种数据类型,能够同时处理图像、文本、音频等多种数据类型。例如,OpenAI的CLIP(Contrastive Language-Image Pre-training)模型通过大规模的图像和文本进行预训练,能够理解图像内容并将其与文本描述相关联。
该阶段,随着计算资源的增加和模型设计的进步,大模型的规模呈指数级增长。例如,GPT-3模型拥有1750亿个参数。同时,多模态模型如DALL-E和CLIP等也在不断刷新规模和性能的纪录。ChatGPT等模型正在引发新一轮AI产业革命。大模型的发展历程是人们在人工智能领域不断探索和突破的过程。随着技术的不断进步,在可以预见的未来,大模型将在更多的领域发挥重要作用,推动人工智能技术的发展和应用。
大模型,特别是在自然语言处理(NLP)和计算机视觉(CV)领域的深度学习模型,通常指的是参数众多、结构复杂的神经网络。大模型具备大量的参数,能够从大量数据中学习丰富的特征表示,并在多种任务上展现出卓越的性能。大模型的基本特点如下。
大模型通常包含数十亿甚至数千亿个权重参数。这些参数是在训练过程中学习得到的,它们决定了模型从输入数据中提取特征并进行预测的方式。参数的规模直接影响模型的学习能力和表示能力。
大模型的训练依赖于大规模高质量的标注数据。通过在这些数据上进行训练,模型能够学习到数据中的模式和规律。数据的多样性和质量对于模型性能至关重要。
大模型通常采用预训练与微调相结合的策略。在预训练阶段,模型在大规模的通用数据集上进行无监督或自监督学习,学习到通用的特征表示和语言模式。在微调阶段,模型使用特定任务的标注数据进行有监督学习,通过调整预训练得到的参数来更好地适应特定任务。通过这种两阶段训练方法,大模型在各类任务中都能取得优异的表现。
大模型通常采用先进的神经网络架构,如Transformer等。这些架构能够有效地处理序列数据,并捕捉长程依赖关系。例如,Transformer架构通过自注意力机制(Self-Attention),使得模型在处理序列中的每个元素时都能考虑序列内的所有其他元素。这些先进的架构为模型学习复杂关系提供了强大的支持。
由于大模型的参数规模庞大,它们需要大量的计算资源进行训练和推理。这通常涉及使用高性能的GPU或TPU集群,并采用分布式训练技术来加速训练过程。
当模型达到一定规模时,大模型会突然表现出显著的性能提升,展现出令人惊艳的全新能力,仿佛知晓了一些从未有人告知过的知识和逻辑,这种能力被称为涌现能力,也是大模型最为突出的能力之一。这种能力包括但不限于语言理解、生成和逻辑推理等,通常在模型参数达到100亿到1000亿区间时显现。涌现能力是因为模型规模的增大导致的质变,这使得大模型能够处理更加复杂、细致的任务。
大模型输出的内容可能具有一定的随机性,因此对于其输出内容需要有一个人工监督、人类价值观对齐的过程,这个过程被称为人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)。RLHF是一种结合了强化学习和人类反馈的训练方法,用于提升人工智能模型的性能。在这种方法中,模型通过与人类互动来学习任务的执行策略。人类评估者提供针对模型行为的即时反馈,这些反馈被用作奖励信号,指导模型调整其行为以优化长期性能。RLHF的关键优势在于它能够借助人类的直觉和判断来弥补训练数据的不足,进而在复杂任务中实现更好的学习效果。通过这种方式,大模型能够更好地理解任务目标,提高决策质量和适应性。
基于以上特点可知,大模型的基本原理是借助大量的参数、数据和计算资源,以及先进的模型架构和优化算法,实现对复杂数据的高效学习和处理。这些模型在很多领域都展现出了巨大的潜力,正在推动人工智能技术的发展和应用。目前大模型的本质是根据已有内容预测下一个词,或者更科学严谨的说法是下一个标记(token)。更详细一点的解释是,在给定一串标记的情况下,大模型会尝试预测接下来最可能出现的标记是什么。为了实现此目标,模型会学习词语之间的关联性,即哪些词常常一起出现,或者某个词后面通常跟着哪些词。关联性在这里非常重要,因为它能帮助模型理解语言的模式和结构,从而更准确地预测下一个词。
然而,这种基于关联性的学习方式也带来了一定的局限性,尤其是在创新能力方面。创新能力通常指的是生成全新、独特且有价值的想法的能力。由于大模型主要基于已有的语言模式和数据来进行预测,所以它很难产生完全新颖、前所未有的观点或表达。换句话说,大模型在创新方面存在一定的瓶颈。举个例子,如果让大模型写一篇关于未来科技的文章,它可能会写出一篇结构完整、语言通顺的文章,但其中的想法和观点可能都是基于它之前学习过的数据和语言模式。这些想法虽然可能很有见地,但不太可能包含全新的、它从未接触过的科技概念或理论。
总体来说,大模型在处理和预测语言方面非常强大,但在创新能力上还有所欠缺。这主要是因为大模型的学习方式主要是基于词语之间的关联性,而非深层次地去理解和创造新的概念或想法。
本节只是针对大模型特点与原理加以简述,对大模型详细原理感兴趣的读者可以自行阅读第四篇里的相关内容。
既然大模型的参数规模、数据量和所需计算量都如此庞大,那么这三者之间究竟存在怎样的联系?
OpenAI在研究中发现了一个重要定律,即深度学习模型的性能通常随着模型规模的变化而呈现一定的规律,这个定律被称为Scaling Law。
Scaling Law在大模型领域指模型性能与模型规模(参数数量)、数据集大小及计算量之间的规律。它描述了如何通过增加模型参数量、数据集大小和计算量来提升模型的性能。
随着深度学习的发展,尤其是大模型的兴起,Scaling Law为模型训练提供了重要的理论指导。它有助于研究人员理解如何通过调整模型规模、数据集大小和计算量来优化模型性能,从而实现更高效和准确的训练。
● 模型规模的扩大:Scaling Law强调通过增加模型参数量、数据集大小和计算量,可以得到性能更优的模型。这意味着,在一定程度上,模型的规模越大,其性能通常也会越好。
● 幂律关系:模型参数量、数据集大小及计算量之间存在幂律关系。这种关系可以通过建模来拟合参数,从而在较少投入的情况下,对实际要训练的模型效果进行提前预测。
● 涌现能力:当模型规模超过某一阈值时,模型可能会出现未预期到的涌现能力,它可以推动模型性能进一步提升。
Scaling Law在大模型领域具有重要的理论和实践意义,它为大模型的训练和优化提供了关键指导,有助于推动人工智能技术的不断进步和发展。
(1)指导模型训练
在训练大模型时,研究人员可以根据Scaling Law来调整模型参数量、数据集大小和计算量,以达到最优的性能。这既可以避免盲目增加模型复杂度或训练数据量,又可以提高训练效率和准确性。
(2)预测模型性能
利用Scaling Law中的幂律关系,研究人员可以通过较小的实验模型预测大模型的性能,提前发现潜在的问题并进行调整,从而节省时间和资源。
(3)推动技术创新
Scaling Law不仅为大模型训练提供了理论指导,还激发了研究人员对大模型技术的进一步探索和创新,近年来出现的一些大模型新技术就是在Scaling Law的指导下诞生的。
企业在研发和部署大模型产品时,一般会参照图1-11中展示的整体生态架构。
图1-11 企业大模型的整体生态架构
● 大模型应用:这一层是大模型生态的直接用户接口,包括各种基于大模型开发的智能应用,如智能问答系统、文本生成工具、智能推荐系统等。
● 智能体:也被称为Agent,智能体作为用户的智能代理,在用户与大模型间搭建沟通桥梁,能够记忆对话的上下文,为用户提供连贯的交互体验。它深入洞察用户需求,能将用户需求精准地转化为模型可识别的请求。此外,智能体还具备规划能力,能够根据用户需求制定合理的行动方案。这些功能共同提升了用户体验,使大模型服务更加智能、高效。
MaaS(Model as a Service,模型即服务)平台是近几年随着大模型概念的兴起而逐渐演变出的一种新型软件平台,其核心功能如下。
● 模型服务化:MaaS平台将基础大模型封装成服务,使得上层应用无须关心模型的底层细节,只需通过API调用即可获取模型推理结果,从而极大降低了大模型应用的开发难度和成本。
● 模型管理与调度:MaaS平台负责管理多个大模型,包括模型的部署、更新、版本控制等。同时,它还能根据应用的请求进行模型的调度,确保请求能够快速地被处理。
● 安全与隐私保护:在提供模型服务的过程中,MaaS平台也负责数据的加密、用户身份验证和访问控制,以保护用户数据的安全和隐私。
● 性能监控与优化:MaaS平台还具备性能监控功能,能够实时监控模型的运行状态,及时发现并处理性能瓶颈。此外,它还能根据历史数据进行优化,提高模型服务的响应速度和准确性。
● 模型训练:部分MaaS平台能提供训练数据和计算资源,包括数据预处理、特征工程等步骤,帮助客户训练出符合特定需求的模型,以提高模型的性能。
● 模型微调:部分MaaS平台允许客户使用自己的数据集对预训练模型进行微调,提供微调工具和服务,使客户能够轻松地调整模型的参数和结构,以适应特定的应用场景,优化模型的性能。
这一层包括各种预训练或微调好的大模型,如ChatGPT、Llama、ChatGLM等。这些模型已经在大量数据上进行了预训练,具备了强大的语言理解、生成和推理能力。它们为上层应用提供了丰富的语义信息和特征表示。
算力基础设施层提供高性能的计算资源,以支持大模型的训练和推理,包括大规模的GPU集群、高速存储设备和网络设施等。算力基础设施层需要确保稳定、高效的计算能力供应,以满足大模型应用的需求。
大模型企业生态架构通过各层之间的紧密协作,实现了大模型的高效应用和服务化,共同为构建企业大模型生态奠定坚实的基础。不同类型的企业也可以在其中找到自己适合的生态位。
● 对于全球科技与人工智能领域的领军企业来说,适合从大模型底层基础设施、算力基础设施层入手进行布局,利用自身较强的融资能力、多年积累的海量数据和应用场景来增强技术能力和构建技术壁垒。此类企业研发投入巨大,竞争也最为激烈。代表性企业包括英伟达、OpenAI、谷歌、百度、华为、阿里巴巴等。
● 对于拥有较强技术研发能力的企业来说,可以从MaaS平台层入手,为广大B端企业客户或个人开发者提供完整的大模型应用与服务。此类企业的研发投入相较于上述企业较少一些,但相应的市场空间也会更窄一些。代表性企业包括科大讯飞、昆仑万维等。
● 对于大部分的中小型企业来说,适合从大模型应用及智能体层入手布局,通过与大模型厂商合作、自行微调大模型等方式,落地自己的预训练模型,同时应专注于基于预训练模型的上层应用开发,打造ToB或ToC的应用,并开展相关的培训、咨询、社群等服务解决信息差问题。这种方式属于“轻资产、轻投入”的商业模式,能够较快带来客户价值和收益。由于此类代表性企业非常多,这里不再赘述。
智能体是大模型兴起后的一个全新应用形态。在科技飞速发展的今天,智能体正以一种令人瞩目的姿态,在大模型中崭露头角,成为该领域的重要组成部分。
大模型中的智能体是基于庞大的参数规模以及复杂的计算结构构建的,它将多个模型的逻辑进行了精密整合。智能体在感知、记忆、规划和执行能力等方面都有着卓越的表现,这不仅体现了其高度的自主性,也彰显了令人惊叹的智能化水平。
它们能够凭借各种传感器或数据接口,敏锐地感知外部环境的细微变化,精准捕捉用户的各种需求。对于关键的信息和历史交互记录,它们能够准确留存。在面对复杂情况时,它们能够规划出最优的行动方案,并通过执行机构或者软件接口,将这些方案付诸实践。
智能体基于预训练大模型构建,这赋予了它们处理海量数据以及复杂模式数据的能力。预训练模型犹如智能体的“大脑”,使其能够理解和模拟人类的复杂行为,以及充满不确定性的决策过程。
在不远的未来,这些智能体将会在各种生活与工作场景中得到广泛应用。无论是智能家居领域,还是企业自动化领域,或是客户服务与医疗健康领域,它们都将作为关键的应用入口,与人类密切互动。
想象一下:身处家中,只需轻松地向智能体下达指令,它就能与智能家居系统完美配合,精准控制灯光的明暗,调节室温,保障安全系统的正常运行。在工作中,智能体能协助人们有条不紊地管理日程,迅速且准确地回复重要邮件,提供数据分析,帮助人们做出明智决策。
在医疗健康领域,智能体可以根据患者的病历、实时数据以及医生的诊断意见,规划出个性化的治疗方案并监督执行。在企业中,智能体能够实时监控市场动态,根据数据分析预测市场趋势,为企业的战略规划提供有力支持。
随着技术不断突破,智能体必将成为人类生活与工作中不可或缺的关键部分。它们不仅能够带来极大便利,还能凭借强大的数据分析和智能规划能力,帮助人们在复杂情况下做出更加明智的决策,从而极大地提高生活质量和工作效率。智能体将成为大模型应用中最普及的一种形式,代表着 AI 落地的一种广泛而深刻的模式,值得重点关注和深入思考。
关于智能体的技术原理,详见企业构建AI Agent的章节。