AIGC从入门到实战:ChatGPT+Midjourney+Stable Diffusion+行业应用

978-7-115-62900-5
作者: 韩泽耀袁兰郑妙韵
译者:
编辑: 陈灿然

图书目录:

详情

本书旨在探讨 AIGC(Artificial Intelligence Generated Content)的发展历程、应用范围及其对社会和个人的影响,从而帮助读者深入了解并应用人工智能技术。 本书共分为8章。第1章介绍了ChatGPT和AIGC的发展历史,以及核心技术的演进与应用。第2章详细探讨了ChatGPT的特点、功能,以及它在文科和理科领域的应用。第3章深入介绍了ChatGPT及其他AIGC对个人的赋能,包括原理、成本、应用场景、高质量答案的提问技巧,以及如何利用ChatGPT进行编程。此部分还提到了AIGC时代下的职业规划。第4章重点介绍了AIGC在创意领域的应用,特别是Midjourney工具的使用。第5章讲解了如何使用 AIGC 技术来创建数字人分身,使他们能够说话、唱歌,甚至成为主播。第6章强调了AIGC如何赋能职场,包括辅助设计、思维导图生成、文本创作、市场调研与策划、短视频创作,以及办公软件使用。第7章介绍了 AIGC 在不同行业和领域的创新场景,包括电商、传媒、金融、教育行业,以及工业领域等。第8章介绍了如何有效应对AI革命。书末还推荐了许多 AIGC 相关的资源。

图书摘要

版权信息

书名:AIGC从入门到实战:ChatGPT+Midjourney+Stable Diffusion+行业应用

ISBN:978-7-115-62900-5

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

著    韩泽耀 袁 兰 郑妙韵

责任编辑 蒋 艳

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

本书旨在探讨AIGC(Artificial Intelligence Generated Content)的发展历程、应用范围及其对社会和个人的影响,从而帮助读者深入了解并应用人工智能技术。

本书共分为8章。第1章介绍了ChatGPT和AIGC的发展历史,以及核心技术的演进与应用。第2章详细探讨了ChatGPT的特点、功能,以及它在文科和理科领域的应用。第3章深入介绍了ChatGPT及其他AIGC对个人的赋能,包括原理、成本、应用场景、高质量答案的提问技巧,以及如何利用ChatGPT进行编程。此部分还提到了AIGC时代下的职业规划。第4章重点介绍了AIGC在创意领域的应用,特别是Midjourney工具的使用。第5章讲解了如何使用AIGC技术来创建数字人分身,使他们能够说话、唱歌,甚至成为主播。第6章强调了AIGC如何赋能职场,包括辅助设计、思维导图生成、文本创作、市场调研与策划、短视频创作,以及办公软件使用。第7章介绍了AIGC在不同行业和领域的创新场景,包括电商、传媒、金融、教育行业,以及工业领域等。第8章介绍了如何有效应对AI革命。书末还推荐了许多AIGC相关的资源。

本书的目标读者包括对人工智能和AIGC技术感兴趣的专业人士、创意工作者、职场人士,以及那些希望了解如何在AIGC时代发挥创造力的人。

近年来,人工智能领域出现了若干现象级产品,如耳熟能详的AlphaGo、AlphaFold和ChatGPT,这些现象级产品表现出较强的内容生成能力(即“无中生有”):AlphaGo根据当前落子局势,从对已有落子的学习中生成一个策略,以更好应对当前落子;AlphaFold从蛋白质的基因序列和其三维空间结构的配对数据中进行学习后,按照给定的基因序列输入,生成一个刻画生命功能的蛋白质三维结构;ChatGPT这一复杂的神经网络大模型,按照“共生则关联”的原理,挖掘出句子段落中单词和单词之间共生的概率,辅以人类反馈信息,以机器智能实现统计关联下的语言生成。

上述技术推动人工智能由识人辨物和预测决策等向内容生成跃升,即人工智能生成内容(Artificial Intelligence Generated Content, AIGC)。AIGC塑造了内容生成的新范式,成为智能数字交往的有力手段,悄然促进一场文明范式的转型,使得版权、工作、教育和信任等概念发生巨大变化。

《AIGC从入门到实战:ChatGPT+Midjourney+Stable Diffusion+行业应用》是顺应这个潮流所撰写的一本“及时雨”般的图书。

数学家和哲学家诺伯特·维纳(Norbert Wiener)在1950年出版了一本极具洞察力和先见之明的著作《人有人的用处:控制论与社会》(The Human Use of Human Beings: Cybernetics and Society),目的就是希望人在技术世界中活得更有尊严、更有人性,而不是相反。机器是人创造出来的,人的作用就是在人和机器共处的社会中,不断用自己的知识让机器变得更加强大。可以说,人工智能与人类协作可以创造出精彩文字和精美图案,这些都是对客观世界中诸多元素的一种“概率组合”,真正的创新创作源头在人类自身。

但是,ChatGPT的出现将会带动人类社会诸多领域在业务模式上发生一次变革,为更多的奇妙“多样性”打开一扇窗户,因为“人有人的用处”。

希望本书能帮助更多人实现真正的创新创作。

吴飞

CAAI教育工委会主任

浙江大学人工智能研究所所长

求是特聘教授、国家杰青获得者、CAAI Fellow

前  言

OpenAI的联合创始人之一萨姆·阿尔特曼(Sam Altman)曾说,他希望让每个人都能使用达到人类水平或超越人类水平的AI,从而解放大家的时间、激发创造力。这一观点贴切地阐释了为何需要掌握人工智能生成内容(Artificial Intelligence Generated Content,AIGC)工具的使用。AIGC在文本生成、图像生成和代码生成等领域的应用,显著提升了工作效率,助力了财富的创造。

在成长的岁月里,我亲历了计算机和互联网的飞速发展,见证了人工智能的兴起。这个领域蕴藏的无限潜能激发了我持续学习和探索的动力。

从年少时起,我就对计算机编程充满兴趣。记得386台式计算机刚问世时,我节衣缩食,努力攒下了一笔钱,再加上微薄的奖学金,终于带回了一台。当时,虽然只有Fortran、Pascal等“古老”的编程语言可用,但这并没有减弱我的热情。当我成功编写出第一个游戏程序时,看到同学们沉浸其中,我激动得仿佛在纳斯达克敲钟一样。

这种创造出一个东西,以及解决一个问题的过程让我兴奋无比。而现在,在AIGC的辅助下,这种创造带来的财富和快乐可以属于每一个人。

正因如此,我决定组织本书的撰写。我希望将AIGC的原理与应用方式传播给更多人,让AI工具不再局限于科学家或程序员等专业人士的圈子里,而是成为像Word和Excel一样普惠大众的工具:企业员工能用AI撰写总结和制作报表,大学生能在毕业设计中借助AI进行创作,创作者能用AI制作视频……从而迅速完成复杂且耗时的任务,将更多时间和精力投入更有价值和更加创新的工作中。通过AI,人们可以拓展知识领域和技能,提升专业水平和竞争力,激发潜能和创造力,与我一样享受创造的乐趣,拥有更多的机会和更美好的未来。

使用AI的过程就像与伙伴一同进行头脑风暴。庞大的数据资源和模板资源,使得用户宛如站在巨人的肩膀上,能够快速整合各学科知识,总结古今中外的智慧。在短短几秒内,AI能为我们解读千万册图书,走遍千万里路程。

同时,与AI互动犹如与智者对话,能够激发我们的灵感、想象力和创造力,催生前所未有的创意。例如,在编写这本书时,通过向AI进行精准提问,AI向我们提供了插图,还为目录的编写提供了建议。

无论你是学生,还是刚入职场的新人,抑或已有一定工作经验的人员,若想提高工作效率,激发创造力,提升人力资本价值,本书都可以满足你的需求。

提到AIGC,或许有人会觉得其高深莫测,担心要使用它,需要有编程基础,从而望而却步。实际上,这种顾虑是多余的。我们将在本书中解析AIGC,让你发现它并非天边高不可攀的云彩,而是触手可及的水滴。我们会逐步教你掌握AIGC工具的使用技能。本书语言朴实简洁,避免过多地使用专业术语,你无须具备编程基础,只要熟悉常见办公软件的操作即可。

阅读完本书,你将全面理解AIGC的原理、基本概念和发展过程,了解多种AIGC工具的功能、优劣之处和使用方法。你将能根据个人需求和目标选择适合的AIGC工具,创造高质量、有价值的内容。

同时,我希望你明白AI只是一种技术手段,是辅助工具。它虽强大,但并非无所不能,它目前无法理解人类的情感或价值观,不能准确判断内容的真实性和合理性,也无法匹敌人类的创造力和批判性思维。因此,我们应善用AI,不可盲目依赖。

韩泽耀 博士

2023年9月9日

写于上海张江

第1章 落霞与孤鹜齐飞:AIGC汹涌而来

1.1 涌现:人工智能的应用

1.1.1 基于大模型的人工智能应用的涌现和爆发

在远古的地球上发生了一个重要事件:寒武纪生命大爆发。那是指在5.4亿年前的寒武纪,新的生命形态大量出现的过程。

在那之前,地球上的生命形态相对单一,生命活动主要是单细胞微生物的简单代谢,缺乏多样性。

当海水的氧气水平略微超过某个阈值,生物便能够更高效地进行代谢,这个微小的变化对于地球生命的演化来说却具有深远的影响:氧气的增加促进了生物体的进化和分化,大量生物种类涌现,有机体的形态日益多样、结构越发复杂。涌现仅在一瞬之间——从混沌态中出现的多种多样的生物,构成了绚烂的生物世界,如图1-1所示。

图1-1

和寒武纪的生物进化近似的是,基于大模型的人工智能应用也是这样涌现的。

自2016年3月,DeepMind公司的AlphaGo战胜围棋世界冠军李世石后,人工智能一直在飞速发展,只是和寻常人的交集并不多,通常会在某个特定领域或项目中表现卓越。

而2016年后,在人工智能的自然语言处理领域,随着开源GPT版本的不断演进,Open AI公司在这个基础上持续研究,不断探索、引入新的技术路线,尤其在引入强化学习方法后,很好地提升了模型的效果。

Open AI在模型训练中,引入了人类专家。人类专家一方面能帮助ChatGPT撰写更符合人类习惯的回答,另一方面,也对生成的结果进行排名,实现模型的优化。

而且Open AI自成立之初,就致力于打造通用人工智能(Artificial General Intelligence,AGI),并坚定地持续投入研究。在这样的愿景下,Open AI吸引了一大批高水平的人才,心无旁骛地开展研发工作。当商用GPT大模型的训练参数到达1750亿个时,人工智能也在一瞬间爆发了。

ChatGPT很快便万众瞩目,影响力“破圈”,引发了大众的关注,激发了大众的热情和创造力,大家基于各自感兴趣的话题与ChatGPT“聊天”,或幽默搞笑、或严肃认真,“聊天记录”在朋友圈和媒体上屡屡“刷屏”。还有人用它写新闻、作诗、翻译、编写代码,引发了热议。

2023年1月25日,美国财经杂志《财富》给予了ChatGPT一段精彩的评价:在每一代人的时代里,总有一些创新产品,会突然从工程部门昏暗的地下室里、年轻书呆子们气味难闻的卧室里,或者孤僻的科技嗜好者的“藏身之处”诞生,最终发展成为广大人群,包括你的祖父母在内的各个年龄层人士都能熟练操作的日常用品。

2023年3月21日,在英伟达主办的2023年GTC(GPU Technology Conference,GPU技术大会)上,英伟达的首席执行官黄仁勋提出了“AI的iPhone时刻”的概念,表示以ChatGPT为代表的基于大模型的AI技术,和iPhone横空出世一样,已经到达了给行业带来革命性颠覆的时间点。

说到这里,想必大家会有疑问:什么叫大模型,人工智能大模型是什么?

人工智能大模型是支撑ChatGPT的基石。

之前,人工智能大多针对特定的场景应用进行训练,生成的模型难以迁移到其他场景,属于“小模型”的范畴。整个训练过程中,不仅手工调参工作量大,还需要给机器“投喂”海量的标注数据,这拉低了人工智能的研发效率,且成本较高。

大模型通常是在无标注的大数据集上,采用自监督学习的方法进行训练的。之后,在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。

这意味着,对大模型的改进可以让所有的下游小模型受益,大幅扩展人工智能的适用场景,提升人工智能研发效率,因此大模型成为业界重点投入的方向,Open AI、谷歌、Meta、微软、百度、阿里巴巴、腾讯、华为等纷纷推出了自己的大模型。

特别是OpenAI GPT 3大模型,它在翻译、问答、内容生成等领域的不俗表现,让业界看到了实现通用人工智能的希望。

当前ChatGPT是基于GPT-3.5的,在GPT-3的基础之上进行了调优,能力进一步增强。

ChatGPT是AIGC (Artificial Intelligence Generated Content,人工智能生成内容)的代表性应用之一,我们可以将其理解为,ChatGPT主要实现人工智能的文生文(根据提示文字,利用大模型生成文字内容),而其他的AIGC工具则会不同程度地生成其他内容,譬如图片、音频、视频。

目前,在各大公司推出的AIGC产品中,ChatGPT遥遥领先并有望延续自己的优势。当然,AIGC产品也十分丰富,相关应用层出不穷,并日渐成熟,如表1-1所示。

表1-1 主要的AIGC产品

公司名称

主要AIGC产品

产品领域

OpenAI

ChatGPT、DALL-E 2

文本、图片

Midjourney

Midjourney

图片

Stability AI

Stable Diffusion

图片、音频、视频

Google

Claude、Bard

文本、图片

Microsoft

Bing

文本、图片

Jasper

Jasper AI

文本

Github

Copilot X

代码

Notion

Notion AI

文本

D-ID

D-ID

视频合成

Runway

Runway

图像、视频

百度

文心一言、文心一格

文本、图片

阿里巴巴

通义千问

文本

科大讯飞

讯飞星火

文本

AIGC大潮出现的一大好处是,AI应用门槛迅速下降,它变成了所有人都能用,所有行业都能用的“技术工具”。用唐朝诗人刘禹锡的诗句来形容就是,旧时王谢堂前燕,飞入寻常百姓家。

1.1.2 人工智能应用大规模涌现的原因

大模型基础上的人工智能应用大规模涌现,有多方面原因。

首先,随着硬件技术的不断发展,计算能力得到了大幅提升,让训练更大、更复杂的模型成为可能。例如,图形处理器(Graphics Processing Unit,GPU)、张量处理器(Tensor Processing Unit,TPU)等专门为人工智能任务设计的硬件加速器,以及分布式计算等技术,都为大模型的训练提供了强有力的支持。

其次,数据的大量积累和开放十分有利于机器学习和深度学习模型的训练和优化。特别是互联网和移动设备等的广泛应用,产生了大量的结构化和非结构化数据,如图像、文本、语音等,丰富了机器学习和深度学习的语料库。

再次,新的算法和模型的涌现也推动了大模型的发展。例如,BERT、GPT等基于Transformer结构的预训练模型,在自然语言处理领域表现出色,得到了大规模应用。同时,强化学习、生成对抗网络(Generative Adversarial Network,GAN)、变分自编码器(Variational AutoEncoder,VAE)等新兴算法和模型也在更多的应用场景中发挥着作用。

最后,云计算、容器化、自动化运维等技术的发展,为人工智能的大规模部署提供了可靠的基础设施和运营支持。这些技术为企业和组织提供了便利,创造了经济效益,使得人工智能应用可以更加快速、有效地被部署和应用。

1.1.3 人工智能应用发展较快的领域

表1-2中列出的人工智能应用领域,在ChatGPT、Midjourney等为代表的大模型应用出现前后发展都比较快,未来发展速度会更快,但是具体应用内容有所差别。

表1-2 大模型应用出现前后人工智能应用示例

人工智能应用领域

大模型应用出现之前的典型应用

大模型应用出现之后的应用示例

场景和领域的重要变化

自然语言处理

让计算机理解自然语言,例如,文本分类、情感分析、问答系统等,已经广泛应用于搜索引擎、智能客服、智能写作等领域

在文本生成、文本分类、问答系统、机器翻译等领域广泛应用

代表应用:OpenAI GPT系列模型、百度 ERNIE模型、谷歌BERT模型等

搜索引擎、智能客服、智能写作等领域的改进和创新

语音助手

语音识别

语音助手的普及,语音识别技术在智能家居、智能医疗、智能交通等领域的应用

代表应用:苹果 Siri、亚马逊 Alexa、谷歌 Google Assistant

在语音转文字、语音唤醒、语音交互等领域有着广泛应用

代表应用:百度DeepSpeech、DeepSpeech2

智能家居、智能医疗、智能交通等领域的变革

图像识别/计算机视觉

让计算机识别和理解图像中的物体、场景和情境,例如,人脸识别、车牌识别、智能安防等领域

在图像识别、图像分割、目标检测等领域有着广泛应用

代表应用:Facebook Detectron、谷歌 Inception系列模型

视觉监控、智能驾驶、智能安防等领域的进步

智能推荐系统

根据用户的历史数据和兴趣偏好,为用户提供个性化的推荐服务,例如,社交网络、电商平台、在线音乐等

基于大模型的推荐系统技术在电商、视频、音乐等领域有着广泛应用

代表应用:淘宝的Transformer模型、Netflix的Neural Collaborative Filtering模型

电商、视频、音乐等领域个性化推荐的发展

自动驾驶

使车辆在无人驾驶的情况下行驶,已经开始试验并逐步应用于物流、出租车、公共交通等领域

基于大模型的自动驾驶技术在汽车、物流等领域有着广泛应用

代表应用:特斯拉 Autopilot、Waymo的自动驾驶技术

交通运输领域自动驾驶的进一步发展和应用

生成对抗网络

在图像生成、视频生成、音频生成等领域有着广泛应用

在电商、视频、音乐等领域有着广泛应用

代表应用:英伟达 StyleGAN、OpenAI的DALL-E

创意领域的生成模型应用增多

医疗健康

基于规则的专家系统用于辅助诊断和治疗决策

统计分析和回归模型用于流行病学研究和预测

在医疗影像分析、医疗辅助诊断等领域有着广泛应用,代表应用:IBM的Watson Health、华为云的智慧医疗

基于大模型的医疗影像分析、医疗辅助诊断,如肺部CT扫描分析、病理切片识别等

医学影像分析、辅助诊断等领域的提升和改进

金融科技

传统的统计模型和规则引擎用于风险评估和信用评分

传统的时间序列模型和回归模型用于市场预测和投资决策

基于大模型的金融科技将大展身手:腾讯云的智能投顾、中信银行的AI风控系统

金融风险管理、投资决策等领域的创新和改善

以上只是当前涌现的一部分人工智能应用,随着技术的不断发展和创新,未来还将涌现更多的人工智能应用。

1.2 基建:人工智能时代的变迁

1.2.1 历史上人工智能科学发展史的三个阶段

人工智能的科学发展历程可以分为以下三个阶段。

1.规则推理阶段(1956年至20世纪80年代初)

这个阶段的人工智能主要使用符号推理方法,基于一些规则和知识来进行决策。该阶段的代表性成果是专家系统。然而,专家系统面临的问题是它们需要人工编写大量规则,且不能处理模糊和不确定的信息。

2.统计学习阶段(20世纪80年代至21世纪10年代初)

随着统计学习方法的兴起,人工智能开始转向从数据中学习知识和规律。这个阶段的代表性成果是支持向量机(SVM)和神经网络。这类方法的主要特点是使用数据训练模型,并通过大量数据来提高模型的准确性和泛化能力。然而,由于计算能力和数据量的限制,这些方法并未在实际应用中取得重大突破。

3.深度学习阶段(21世纪10年代初至今)

深度学习是一种基于神经网络的机器学习方法,它可以自动学习高层次抽象特征,并在大规模数据上训练更复杂的模型。这个阶段的代表性成果是深度神经网络(Deep Neural Network,DNN)和卷积神经网络(Convolutional Neural Network,CNN)。深度学习方法的出现,使得人工智能在图像识别、自然语言处理、语音识别等方面取得了重大突破。

当然,我们可以从另外一个角度,即人工智能发展态势的起伏,来将其发展区分为不同的阶段,如图1-2所示。

早期萌芽阶段:指人工智能的起源和初期探索阶段,即1956年至20世纪90年代中期。

沉淀积累阶段:指人工智能技术和理论得到深入研究和积累的阶段,即20世纪90年代中期至21世纪10年代中期。

快速发展阶段:指人工智能技术迅速发展和广泛应用的阶段,即21世纪10年代中期至今。

AIGC作为人工智能的一个分支,也在不断发展壮大。在早期萌芽阶段、沉淀积累阶段及快速发展阶段,AIGC都取得了相应的进步,并且发生了许多里程碑事件。与人工智能领域一样,AIGC也经历了起起落落,其发展的每个阶段各具特点。每一个进展,都为AIGC的蓬勃发展做出了贡献。

同许多领域的发展相似,AIGC的繁荣展现出一种不可被完全计划的特质。就像ChatGPT的核心研发科学家肯尼斯·斯坦利(Kenneth Stanley)和乔尔·雷曼(Joel Lehman)在他们合著的新书《为什么伟大不能被计划》(《Why Greatness Cannot Be Planned》)中提到的,科学领域中最重要的发现,往往不是完全按计划发展而来,而是由各种因素的相互作用塑造而成的。这一观点也可以解释AIGC领域的崛起:各个阶段的进展、里程碑事件和发展特点,构成了一幅不可预测但充满活力的图景。这源于人类创造力和科学探索的交汇,展现出人工智能领域的无限潜力。

图1-2简单梳理了上述三个阶段的发展特点和AIGC领域的典型事件。

图1-2

1.2.2 人工智能时代的三个子阶段:AI 1.0、AI 2.0、AI 3.0

人工智能时代是指人工智能技术得到广泛应用和发展的时期。目前通常将人工智能时代分为三个子阶段:AI 1.0、AI 2.0和AI 3.0。

AI 1.0时代是指2010年至2022年,人工智能主要在算力、算法和数据三个方面发力狂奔,这一时期也被称为“基础建设时代”。

AI 2.0时代从2022年开始,这一时期,人工智能开始进入“应用落地时代”,大规模商业化应用逐渐成为主流,同时人工智能技术也逐渐被整合应用于各个领域。

AI 3.0时代则尚未到来,到这一时期,人工智能技术将进一步发展,开始追求更高层次的“智能”,并逐渐进入与人类协作的新时代。

1.2.3 算法、算力、数据三驾马车的发力狂奔

AI 1.0时代是一个算法、算力、数据三架马车发力狂奔的时代,如图1-3所示。下面就分别介绍三者的发展。

图1-3

1.关于算力那些事

算力是人工智能发展的基础,决定了人工智能的计算能力和效率,就好比人类社会中的电力决定了电车能跑多远的距离、速度能达到多少。随着芯片的不断发展,GPU、TPU等专用芯片极大地提升了人工智能的算力。

GPU最初被设计用于加速计算机图形的处理,但是它们的高并行性能和能够同时执行大量浮点运算的能力,使它们成为深度学习等人工智能应用的首选计算平台。而TPU则是由Google专门为深度学习任务开发的定制芯片,具有更高的能效比和更好的加速性能,可以大幅提高人工智能算法的训练速度和效率。人工智能的芯片可以分为通用处理器和专用处理器两种类型。通用处理器是一种通用的计算机处理器,如中央处理器(Central Processing Unit,CPU)和图形处理器(GPU)。专用处理器是一种针对特定的人工智能任务进行优化的芯片,如全定制化芯片(Application Specific Integrated Circuit,ASIC)中的TPU、半定制化芯片如现场可编程门阵列(Field Programmable Gate Array,FPGA)等。

2.关于算法那些事

算法是人工智能发展的核心,它好比人类社会中的交通工具,或者更具体地说,它就像不同的发动机引擎,决定了人工智能的计算方法、学习能力和应用范围。随着深度学习等技术的不断发展,人工智能的算法得到了极大的提升。深度学习是一种基于神经网络的机器学习方法,它模仿人脑神经元的工作方式,通过多层次的神经元模型来实现对数据的学习和识别。

深度学习算法发展过程中的一个重要的里程碑是2012年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛中,深度学习算法AlexNet的问世。AlexNet使用了卷积神经网络(Convolutional Neural Network,CNN)的结构,成功地解决了大规模图像分类问题,在比赛中取得了惊人的成绩。自此以后,深度学习算法在图像识别、语音识别、自然语言处理等领域的应用不断拓展。

在深度学习算法的基础上,还有一些其他的算法模型也得到了广泛的应用,例如强化学习、迁移学习、生成对抗网络等。这些算法模型的不断发展,让人工智能的应用范围得到了进一步的扩展,进入了诸如自动驾驶、智能客服、智能家居等领域。

3.关于数据那些事

数据是人工智能发展的资源,决定了人工智能的输入和输出,以及应用场景和效果,它就好比人类社会中的物质资源。过去,由于缺乏大规模、高质量的数据,人工智能技术无法大规模应用,因此数据一直是人工智能发展的瓶颈。

随着互联网技术的不断发展和普及,越来越多的数据被数字化并被储存起来,这些数据成为人工智能技术发展的重要基础。同时,由于物联网和移动设备的普及,越来越多的设备能够生成数据,并将这些数据传输到云端进行处理和分析,为人工智能技术提供了更多的数据来源和实时数据处理的可能性。数据的日益丰富是人工智能技术发展的重要驱动力。

1.3 递进:人工智能时代的变化

1.3.1 AI 2.0向多领域、全场景应用迈进

随着AI 1.0时代的基础建设完成,人工智能开始进入AI 2.0时代。在这一阶段,人工智能从单一领域向多领域、全场景应用迈进,改变了人们的生活和工作方式。

在AI 2.0时代,算力、算法、数据依然是人工智能发展的基础。但是随着技术的进步,它们也得到了更加深入的应用和发展。

算力方面,人工智能利用分布式计算和边缘计算技术,更加高效地处理数据和执行任务。

算法方面,人工智能进一步探索深度学习的极限,以及向更加复杂和高级的算法领域拓展,例如强化学习、迁移学习等。

数据方面,人工智能更加依赖自身的数据生成能力,例如自监督学习和增强学习等技术,以及更加广泛的数据共享和协作,这样,人工智能就能更加准确地理解和应用现实世界中的数据。

人工智能应用的涌现,使得人们更加积极地思考人工智能对人类的影响。例如,人工智能的普及可能会导致一些就业岗位消失,但同时也会创造新的岗位和机会。我们需要更加积极地应对这些挑战和机遇,让人工智能成为人类社会可持续发展的助推器。

1.3.2 AIGC的产业图谱带来新的创变纪元

AIGC的产业图谱如图1-4所示,相关产业的发展将开启新的创变纪元,帮助年轻一代逐梦AIGC时代。

图1-4

AIGC的产业图谱自下而上由基础的硬件算力、基于平台的大模型、在此基础上出现的各种功能、相应的各种实际应用及行业场景组成。

图中提到的跨模态生成(cross-modal generation)和多模态生成(multimodal generation)不同,虽然都涉及处理多种类型的数据(如文本、图像、音频等),但它们的含义和应用场景有所不同。

跨模态生成通常指的是从一种模态的数据生成另一种模态的数据。例如,给定一段文本描述,生成对应的图像;或者给定一张图像,生成描述这张图像的文本。这种生成过程涉及从一种模态转换到另一种模态,因此被称为“跨模态生成”。

多模态生成则更多地关注如何利用多种模态的数据共同生成新的内容。例如,给定一段音频和对应的文本,生成一个同步的动画。在这种情况下,生成过程需要同时考虑多种模态的数据,因此被称为“多模态生成”。多模态生成的示例如下。

文本和音频生成视频:给定一段文本和配套的音频,生成一个视频。

图像和文本生成音频:给定一张图像和一段文本描述,生成一个描述图像内容的音频。

音频和视频生成文本:给定一个视频和配套的音频,生成一段描述视频内容的文本。

文本和音频生成音乐:给定一段歌词和一段旋律,生成一首歌曲。

图像和文本生成3D模型:给定一张图像和一段文本描述,生成一个3D模型。

模型层中自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)是自然语言处理(Nature Language Processing,NLP)中的两个关键领域。NLU致力于使计算机能够理解和解释人类自然语言,而NLG则专注于使用计算机生成人类可读的自然语言文本。

以下模型属于NLU。

Transformer:Transformer模型是一种深度学习模型架构,主要用于处理序列数据,核心思想是利用自注意力机制(Self-Attention)来捕获输入序列中的全局依赖关系。Transformer模型的设计使其在处理长序列和捕捉长距离依赖关系方面具有优势,并且由于其擅长并行处理,它能够更有效地利用硬件资源,从而加速模型训练。Transformer作为目前广泛应用于自然语言处理任务的模型,通常用于机器翻译、文本分类等方面。

BERT:BERT全称为Bidirectional Encoder Representations from Transformers,即基于Transformer的双向编码器表示,是由Google在2018年提出的一种自然语言处理模型。它的主要创新之处在于使用了Transformer的双向编码器,这使得BERT能够对输入文本进行全面的理解,从而在许多NLP任务中取得了显著的改进。BERT作为一种预训练的语言模型,通常用于处理自然语言理解任务,如语义理解、命名实体识别等方面的任务。

以下模型属于NLG。

基于流的生成模型(Flow-Based Model):这个模型的基本思想是,将一个简单的概率分布(如高斯分布)通过一系列可逆的变换(也称为“流”)映射到一个复杂的概率分布。这些变换是经过特别设计的,以便计算它们的雅可比行列式,从而能够高效地计算目标分布的概率密度和采样。基于流的生成模型的主要优点是它们能够同时进行精确的密度估计和高效的采样,这使得它们在生成任务中特别有用,基于流的生成模型可以生成具有多样性的文本。

基于预训练的生成式Transformer模型(Generative Pretrained Transformer,GPT):由OpenAI开发,主要用于各种自然语言理解和生成任务。GPT模型采用了Transformer的架构,并对其进行了预训练,使其能够在没有标签的大规模文本数据上进行无监督学习。这种预训练方法可以帮助模型学习到丰富的语言表示,从而在微调阶段可以更好地适应各种下游任务(指其后续进行的如文本分类、情感分析、命名实体识别、机器翻译等任务)。作为一种常用的预训练的生成式语言模型,GPT一般用于生成自然语言文本,如对话系统、文章生成等。

生成式语言模型(Generative Language Model,GLM):是一种广义语言模型,它是在GPT模型基础上的扩展。在中文环境中,该模型常常直接用英文缩写GLM表示,而不进行翻译。它的主要特性是在处理语言生成任务时,不仅仅考虑上文的信息(也就是在当前位置之前的词),还要考虑下文的信息(也就是在当前位置之后的词)。这种特性有助于较好地理解和生成语言,因为在很多情况下,一个词的含义是由它的上下文共同决定的。这种在处理语言生成任务时同时考虑上下文的方法,也被用在了其他的模型中,如BERT模型。然而,不同于BERT使用了双向的Transformer编码器来实现这个目标,GLM是通过在训练过程中使用掩码机制(Masking Mechanism)来实现的,这使得GLM不需要额外的解码过程,可以直接生成语言。GLM作为一种生成模型,作用是生成自然语言文本,主要用于自然语言生成任务。

音频生成模型、图像生成模型、视频生成模型、多模态生成模型也有很多,下面一一进行说明。

以下模型属于图像生成模型。

生成对抗网络(GAN):深度学习领域的一个重要概念,由伊恩•古德费洛等人于2014年首次提出。GAN的基本思想是通过对抗性的过程来生成数据。GAN由两部分组成:一个是生成器(Generator),另一个是判别器(Discriminator)。在训练过程中,生成器和判别器会博弈:生成器试图生成越来越逼真的假数据以欺骗判别器,而判别器则试图变得越来越擅长区分真假数据。通过这种博弈,GAN最终能够生成与真实数据非常接近的假数据。GAN在各种应用中展示了其强大的能力,包括图像生成、图像超分辨率、图像到图像的转换、语音生成等。在图像生成模型中,GAN是一类用于生成逼真图像的模型,包括 DC-GAN、PG-GAN、Style-GAN 等。

扩散模型(Diffusion Model):深度学习领域的一种扩散型的生成模型,核心思想是将数据生成过程视为一种从一个已知的简单分布(如高斯分布)向目标数据分布转变的扩散过程。它的一个关键步骤是定义一系列的转换,这些转换将简单分布逐渐“扭曲”成目标分布。在生成新的数据点时,模型首先从简单分布中抽取一个样本,然后将这个样本通过一系列的转换,逐渐变形为一个新的数据点。扩散模型已经在多种任务中表现出了强大的性能,包括在图像生成、语音生成等任务中。

变分自编码器模型(VAE):一种深度学习模型,在自编码器(AutoEncoder)的基础上,引入了概率编程和变分推断的思想,其目标是学习数据的潜在分布,然后从这个分布中采样生成新的数据,具有类似于输入数据的特征。VAE主要用于生成任务,不过它在许多任务中具有广泛的应用,包括数据生成、图像生成、图像插值、数据降维和特征学习等,在探索数据的潜在结构和生成新的样本方面提供了有效的方式。

以下模型属于音频生成模型。

WaveGAN:WaveGAN 是一种基于GAN的模型,用于生成逼真的音频波形。

WaveNet:WaveNet 是一种基于深度卷积神经网络的模型,可以生成高质量的语音和音乐。

MelGAN:MelGAN 是一种基于GAN的模型,用于生成高质量的梅尔频谱特征,然后将其转换为音频波形。

Tacotron 2:Tacotron 2 是一种序列到序列(Seq2Seq)的模型,用于将文本转换为逼真的语音。

以下模型属于视频生成模型。

VideoGAN:类似于图像生成模型的 GAN,但针对视频生成进行了扩展,例如 VGAN、MoCoGAN 等。

Video Prediction Model:用于预测视频未来帧的模型,可以用于生成连续性视频,如 PredNet、ConvLSTM 等。

以下模型属于多模态生成模型。

对比性语言-图像预训练模型(Contrastive Language-Image Pretraining,CLIP):OpenAI在2021年推出的一种多模态生成模型,它的设计目标是理解和生成图像和文本之间的关系,这是通过同时训练语言和视觉模型来实现的。在训练过程中,CLIP会从互联网上的大量文本和图像对中学习,目标是确保文本与其对应的图像之间的内积(即它们之间的相似度)尽可能大,而与其他图像或文本的内积尽可能小。

DALL-E:是一个图像生成模型,不过它最擅长根据文本描述生成对应的图像。DALL-E是由OpenAI开发的一个AI模型,它的目标是根据给定的文本描述生成对应的图像。DALL-E 是在GPT-3和VQ-VAE-2(用于学习图像的离散表示的生成模型)的基础上训练的。“DALL-E”这个名字来自著名的画家达利,意味着这个模型具有生成图像的能力,并且它的能力是超越了GPT-3文本生成能力的新能力。DALL-E 在许多场景中都表现出了强大的性能,包括生成从未存在过的生物、物体,甚至是符合特定风格或主题的图像,使得它在艺术创作、产品设计、动画制作等领域有着广泛的应用潜力。

Multimodal Transformer:一类结合图像和文本的Transformer模型,用于跨模态生成任务。

神经辐射场(Neural Radiance Fields,NeRF)目前比较难归类,可以归到图像/视频生成模型中,它是一种深度学习方法,用于生成高质量3D场景的建模和渲染。NeRF的目标是从一系列2D图片中学习对一个3D场景的全局表示,然后用这个表示来生成新的2D视图。

自从NeRF在2020年被提出以来,它已经在3D建模和渲染的任务中显示出了很高的性能,包括从稀疏的2D图片中重建3D场景,以及生成新的2D视图。

需要注意的是,上述模型可以在不同任务和领域中灵活应用,它们的归属也会根据模型的设计和主要应用领域而有所变化,并不绝对。

AIGC的产业图谱有如下用途。

了解整体生态:产业图谱可以帮助我们全面了解AIGC领域的整体生态,包括底层基础设施、关键技术和应用场景等,帮助我们把握行业发展的全貌和趋势。

识别发展机会:通过分析产业图谱,可以识别出AIGC领域的发展机会和趋势,了解不同层级之间的关系和相互作用,帮助企业和个人确定合适的发展方向和策略。

指导投资决策:产业图谱可以作为投资决策的参考依据,帮助投资者了解AIGC领域不同层级的发展情况,评估投资项目的风险和潜力,从而做出明智的投资决策。

促进合作与创新:产业图谱可以为不同企业、机构和个人之间的合作提供参考和平台,促进跨领域的合作与创新,推动AIGC领域的发展和进步。

总之,AIGC的产业图谱有助于整合、展示和理解AIGC领域的各个方面,为行业发展提供指导和参考,推动技术创新和商业应用的蓬勃发展。

相关图书

智能驾驶之激光雷达算法详解
智能驾驶之激光雷达算法详解
低代码打造RPA——Power Automate Desktop基础实战
低代码打造RPA——Power Automate Desktop基础实战
场景创新:SAP与初创企业的数字化转型联合创新实践
场景创新:SAP与初创企业的数字化转型联合创新实践
数据驱动的智能驾驶
数据驱动的智能驾驶
元宇宙漫游
元宇宙漫游
自动驾驶网络 自智时代的网络架构
自动驾驶网络 自智时代的网络架构

相关文章

相关课程