拥抱AIGC 应用ChatGPT和OpenAI API

978-7-115-62733-9
作者: 瓦伦蒂娜·阿尔托(Valentina Alto)
译者: 郭涛李静
编辑: 吴晋瑜

图书目录:

详情

本书先概述生成式人工智能所涉及的技术和工具,帮助你了解如何训练模型以生成新数据;接着展示如何用 ChatGPT 提高营销、科研和软件开发等相关工作的生产力和创造力;随后介绍如何通过改进提示设计从与 ChatGPT 的交互中获得最佳效果,以及如何在企业级场景中使用 OpenAI 模型。 通过阅读本书,你可以了解生成式人工智能的相关概念,以及如何通过有效的提示设计最大化ChatGPT的价值,如何基于Python语言构建和部署生成式人工智能系统,如何利用 Azure OpenAI 服务实现企业级应用。 本书适合想用生成式人工智能提升工作效率的所有人阅读,包括但不限于商务人士、数据科学家、软件开发人员、营销人员和科研人员。

图书摘要

版权信息

书名:拥抱AIGC

ISBN:978-7-115-62733-9

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    [美] 瓦伦蒂娜·阿尔托(Valentina Alto)

译    郭 涛 李 静

责任编辑 吴晋瑜

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

版权声明

Copyright ©Packt Publishing 2023. First published in the English language under the title Modern Generative AI with ChatGPT and OpenAI Models (9781805123330). All rights reserved.

本书由英国Packt Publishing公司授权人民邮电出版社有限公司出版。未经出版者书面许可,对本书的任何部分不得以任何方式或任何手段复制和传播。

版权所有,侵权必究。

内容提要

本书先概述生成式人工智能所涉及的技术和工具,帮助你了解如何训练模型以生成新数据;接着展示如何用ChatGPT提高营销、科研和软件开发等相关工作的生产力和创造力;随后介绍如何通过改进提示设计从与ChatGPT的交互中获得最佳效果,以及如何在企业级场景中使用OpenAI模型。

通过阅读本书,你可以了解生成式人工智能的相关概念,以及如何通过有效的提示设计最大化ChatGPT的价值,如何基于Python语言构建和部署生成式人工智能系统,如何利用Azure OpenAI服务实现企业级应用。

本书适合想用生成式人工智能提升工作效率的所有人阅读,包括但不限于商务人士、数据科学家、软件开发人员、营销人员和科研人员。

译者简介

郭涛,主要从事人工智能、软件工程、智能空间信息处理与时空大数据挖掘分析等前沿交叉研究。出版多部译作,包括《Kaggle竞赛官方指南》《机器学习图解》和《深度强化学习图解》。

李静,长期从事IT出版业、IT行业、教育行业及石油技术服务行业,擅长计算机和人工智能等引进版图书的翻译和书稿审校工作。早期从事图形图像、网页设计、三维动画类和人文类等图书的出版工作,崇尚终身学习。

译者序

大语言模型(Large Language Model,LLM)是继深度学习技术之后出现的颠覆性技术,也是实现新一代人工智能的主要途径。从技术角度来讲,语言模型(LM)是提高机器语言智能的主要方法之一。语言模型的发展主要经历了四个阶段,相应的模型如下:① 统计语言模型(Statistical Language Model,SLM),主要有bigram和trigram等;② 神经语言模型(Neural Language Model,NLM),主要有循环神经网络(RNN)、word2vec等;③ 预训练语言模型(Pretraining Language Model,PLM),主要有Transformer和BERT等;④ 大语言模型,基于PLM模型扩展而来。近年来最广为人知的语言模型就是OpenAI从2018年开始陆续发布的GPT,这也是本书主要讨论的内容。

数据、算力、算法是大模型有效发挥作用的主要要素。所谓数据,是指存储在分布式数据库中的海量文本、语言、视频和图像等结构化、非结构化数据,大模型通过对其进行预处理实现知识的跨模型融合,进而为应用场景提供新的解决方案。算力主要从两方面予以保障:一是硬件加速方式,采用GPU/TPU硬件加速算法实现;二是在软件层面采用并行计算策略,为训练万亿参数大模型提供有力保障。算法的突破是大模型的一大创新之处,采用生成式预训练范式,使得模型具有较高的准确率和泛化能力,可有效应用于自然语言处理、图像识别、语音识别等领域。此外,应用场景也可以算作大模型的主要要素,即以业务场景驱动,明确解决方案数据来源和采用的技术架构。

除了大模型,生成式人工智能也是本书的一大亮点。本书先介绍了生成式人工智能的基础知识、发展历程和最新发展,阐释了生成式人工智能典型模型和OpenAI发布的GPT系列模型及产品ChatGPT背后的设计思想;随后逐步教你使用ChatGPT,包括注册、提示工程和应用案例;最后讨论了ChatGPT涉及的伦理道德问题。本书力求让你能基于所学知识实现举一反三,找到更高效、更适合自己的 AI 应用方式。

在翻译本书的过程中,我们对书稿进行了交叉审校工作,以期尽可能准确地体现原书内容。同时感谢人民邮电出版社吴晋瑜编辑为本书所做的大量编辑与审校工作。

由于本书涉及的领域较广,技术有一定深度,加上译者翻译水平有限,书中难免存在不足之处,若读者在阅读过程中发现问题,敬请批评指正。

作者简介

感谢我的父母、朋友和同事,一直以来,他们给予我真诚的陪伴,并支持我完成了这段奇妙的写作之旅。感谢为本书顺利付梓给予支持和帮助的编辑部成员,感谢你们的支持!

瓦伦蒂娜•阿尔托(Valentina Alto)于2020年进入微软公司,任Azure解决方案专家,并于2022年后转至制造业和制药业的数据分析及人工智能树算法负载均衡研究。长期以来,她与客户项目的系统集成商密切合作,共同部署云架构,主要关注现代数据平台、数据Mesh网格框架、物联网和实时分析、Azure机器学习、Azure认知服务(包括Azure OpenAI服务),以及Power BI。她发表了多篇关于统计、机器学习、深度学习和人工智能的技术文章,并撰写了一本关于用Python进行机器学习的入门类图书。

审阅者简介

斯普瑞特•考尔(Supreet Kaur)就职于摩根士丹利,是一名颇有建树的人工智能产品经理,曾担任多个人工智能产品的产品负责人,并牵头开发数据驱动创新的解决方案。她还曾担任过技术和数据科学顾问,为医药客户提供卓有成效的数据科学使用案例和启发性策略。

斯普瑞特还是一位高产作家,且热衷于分享,已做过有关数据科学和人工智能主题的50多次演讲。作为技术领域有影响力的女性,她曾入选“谷歌女性开发者大使”,获评“金融界人工智能领域的25位顶尖女性”之一。

前  言

本书旨在让你深入了解生成式人工智能的相关内容,以及如何在自己的项目中使用ChatGPT和OpenAI模型API。

全书共三部分内容。第一部分简要介绍生成式人工智能的相关概念,重点介绍如何使用机器学习(Machine Learning,ML)算法创建新的、独特的数据或内容。这部分主要介绍生成式人工智能模型的基础知识,并诠释如何训练这些模型以用其生成新的内容。

第二部分重点介绍如何使用ChatGPT提高生产力和增强创造力,同时探讨如何利用零样本学习(Zero-Shot Learning)、一次样本学习(One-Shot Learning)、少样本学习(Few-Shot Learning)等方法改进提示词设计,以充分利用与ChatGPT的交互结果,随后从软件开发、营销、科学研究等领域的视角出发,深入探讨具体的应用。每个领域涵盖4个具体的用例,供你借鉴和参考。

第三部分着重介绍OpenAI模型在企业级场景中的应用,给出了多个用例,最后还总结了全书讨论的内容,并探讨了生成式人工智能领域的发展趋势。

读者对象

本书适合对生成式人工智能、ChatGPT感兴趣的所有读者阅读。通过阅读本书,普通读者可以了解如何使用ChatGPT和OpenAI提升生产力,并深入了解ChatGPT背后的技术和模型架构;来自商业领域的读者可以深入了解ChatGPT和OpenAI模型在实际场景中的作用,并学习如何使用其为组织(企业/公司)赋能;来自数据科学和开发领域的读者可以深入了解ChatGPT和OpenAI模型提升机器学习模型和编码的方式;来自营销和科研领域的读者可以深入了解各自领域中的OpenAI和ChatGPT用例。

本书涵盖了生成式人工智能的概念、OpenAI模型的技术原理等相关内容,并给出了多个用例,以及端到端解决方案、用Python语言编写的代码和具体实现。注意,读者无须按照特定顺序阅读本书。

章节概述

第1章 生成式人工智能概述。本章简要介绍了生成式人工智能的含义及研究历程和新发展。生成式人工智能主要使用机器学习算法生成新的数据或内容。本章还阐释了如何通过训练生成式人工智能模型来生成新数据,以及生成式人工智能的各种应用,如图像合成、文本生成和音乐创作,并对生成式人工智能有望在各行各业引发的革新予以了肯定。

第2章 与OpenAI和ChatGPT面对面。本章概述了OpenAI及其最引人注目的发展——ChatGPT,着重讲述其发展历史、技术和功能,介绍了如何在不同行业和应用中使用ChatGPT,以优化沟通和自动化流程,并探讨了ChatGPT对科技及其他领域的影响。

第3章 熟悉ChatGPT。本章旨在引导你设置ChatGPT账户并着手使用该程序,介绍了如何与Web 界面交互,如何根据主题开展交互以及如何组织对话。

第4章 了解提示设计。提示设计是提高模型准确性的重要技术。实际上,提示对模型生成输出影响很大。设计良好的提示有助于引导模型生成相关和准确的输出,设计不良的提示则可能会让模型生成无关或令人疑惑的输出。本章最后提到,应将伦理及道德考量纳入提示设计,以避免模型生成有害内容。

第5章 ChatGPT助力生产力提升。本章主要介绍普通用户在日常工作中可以使用ChatGPT高效完成哪些事情,例如辅助写作、决策制订、创意启示等,并给出了可供践行的示例。

第6章 ChatGPT助力软件开发。本章主要介绍开发人员如何使用ChatGPT解决或优化相关流程,例如代码审查和优化、文档生成和代码生成,并给出了可供践行的示例。

第7章 ChatGPT助力营销。本章主要介绍市场营销人员如何使用ChatGPT优化相关工作,例如A/B测试、关键词定位建议和社交媒体情绪分析,并给出了可供践行的示例。

第8章 ChatGPT助力科学研究。本章主要介绍研究人员如何使用ChatGPT提升工作效能,例如辅助文献综述的整理、实验设计以及生成参考文献,并给出了可供践行的示例。

第9章 企业OpenAI和ChatGPT——Azure OpenAI。本章主要介绍OpenAI模型的企业级应用,以及Azure OpenAI服务。首先,概述Azure OpenAI服务的模型API以及如何将其嵌入自定义代码中;其次,介绍如何设置模型参数、如何微调及其相关配置;最后,围绕“负责任的AI”这一话题及如何确保AI系统符合道德标准展开讨论。

第10章 企业用例。本章旨在探讨目前开发市场上热门的企业级服务Azure OpenAI及一些具体示例,如智能搜索引擎、AI助手和报告生成器,并重点关注特定行业中的端到端生产项目。

第11章 结语及后记。本章简要回顾了前几章讨论的热门用例,探讨了生成式人工智能对各行各业和日常生活的影响,介绍了道德伦理思考和负责任的AI在项目设计阶段的作用,并对基于GPT-4等新技术快速迭代背景下的生成式人工智能发展趋势进行了探索。

如何充分利用本书

要充分理解本书内容并顺利付诸实践,请满足如下要求。

软、硬件要求及其他

计算机系统要求及其他

Python 3.7.1或更高版本的Python

Windows、macOS或Linux

Streamlit

Windows、macOS或Linux

LangChain

Windows、macOS或Linux

OpenAI模型的API

OpenAI账户

Azure OpenAI服务

启用Azure订阅

下载示例代码文件

你可以访问GitHub仓库Modern Generative AI with ChatGPT and OpenAI Models项目,下载本书的示例代码文件。

体例约定

本书内容遵循如下体例约定。

代码段以如下体例显示。

query = st.text_area("Ask a question about the document")
if query:
 
    docs = faiss_index.similarity_search(query, k=1)
    button = st.button("Submit")
    if button:
        st.write(get_answer(faiss_index, query))

命令行输入或输出都将按以下方式编写。

pip install --upgrade openai

粗体:术语、重要的词或显示在屏幕上的内容(菜单或对话框中的单词)均以粗体形式给出。例如,你可以选择本地文件Azure blob其他共享Web位置来上传文件。”

提示或重要说明以如下方式显示。

第一部分 生成式人工智能与GPT模型基础

第 1 章 生成式人工智能概述

本章主要内容

什么是生成式人工智能

生成式人工智能的应用领域

生成式人工智能的研究历程和最新进展

欢迎阅读本书!我们将带你探索生成式人工智能(Artificial Intelligence,AI)这一迷人的领域及其开创性应用。生成式人工智能颠覆了人们与机器交互的方式,赋予了计算机脱离人类明确指令自行创建、预测和学习的能力。得益于ChatGPT和OpenAI的出现,我们在自然语言处理、图像和视频生成以及许多其他领域取得了前所未有的进展。无论你是心怀好奇的初学者还是经验丰富的从业者,都可以从本书中一窥生成式人工智能领域所涉及的知识和技能。在开启生成式人工智能之旅前,我们先介绍一些相关的定义。

本章先简要介绍生成式人工智能——使用机器学习(Machine Learning,ML)算法创建新的、独特的数据或内容;然后介绍生成式人工智能在各个领域的应用,如图像生成、文本生成和音乐生成,着重介绍生成式人工智能有望在各行业引发的极具潜力的革新。这些内容涉及生成式人工智能技术和实现背景,以及将其与人工智能、机器学习和深度学习(Deep Learning,DL)加以综合应用所需的知识。最后,我们会结合具体示例展示生成式人工智能主要应用于哪些领域,帮助你了解生成式人工智能可能为企业乃至社会带来的影响。

此外,了解生成式人工智能的研究历程,也可以帮助你更好地理解新进展和先进模型的基础。

读完本章,你能了解生成式人工智能的定义、应用、研究历程及其新进展——正在(或者可能会)对企业产生颠覆性影响。

1.1 什么是生成式人工智能

近年来,人工智能取得了重大进展,其中发展迅速的领域之一就是生成式人工智能。生成式人工智能是人工智能和深度学习的一个子领域,主要使用机器学习技术根据现有数据训练算法和模型,生成诸如图像、文本、音乐、视频等新内容。

要更好地理解人工智能、机器学习、深度学习和生成式人工智能之间的关系,如果我们将人工智能视为基础,那么机器学习、深度学习和生成式人工智能就代表着日益专业化和聚焦的研究与应用领域。

人工智能代表着广阔的领域创意生产系统——这些系统可以执行任务,表现出与人类相当的智力和能力,并能与生态系统交互。

机器学习是人工智能领域一个专注于创建算法和模型的分支,这些模型和算法使得上述系统能够随着训练学习实现自我改进。机器学习模型从现有数据中学习,并会随着数据的增长自动更新参数。

深度学习是机器学习的一个子分支。深度机器学习模型指的是神经网络(Neural Network),尤其适用于计算机视觉(Computer Vision,CV)或自然语言处理(Natural Language Processing,NLP)等领域。本书提到的机器学习模型和深度学习模型一般是指判别式模型,可根据数据进行预测或推理。

生成式人工智能是深度学习的一个子分支,不使用深度神经网络来聚类、分类或对现有数据进行预测,而使用强大的神经网络模型生成图像、文字表述、音乐和视频等新的内容。

图1.1形象地展示了这些概念之间的关系。

图1.1 人工智能、机器学习、深度学习和生成式人工智能之间的关系

你可以通过大量数据训练生成式人工智能模型,再利用这些数据中的模式生成全新样本。这一生成过程不同于判别式模型,因为后者旨在预测给定样本的类别或标签。

1.1.1 生成式人工智能的应用

近年来,生成式人工智能取得了显著的进展,并广泛应用于艺术、音乐、时尚、建筑等多个领域。在某些领域中,生成式人工智能逐渐改变着原创者创造、设计甚至理解世界的方式;而在另一些领域中,其正在现有流程和操作的优化和效率的提升方面大显身手。

生成式人工智能的广泛应用,还意味着其模型可以处理不同类型的数据,例如文本、音频或图像。接下来,我们会介绍如何使用生成式人工智能模型处理不同类型的数据。

1.1.2 文本生成

生成式人工智能的伟大应用之一是根据自然语言生成新内容,这也是本书重点介绍的应用。事实上,生成式人工智能算法可以用于生成新的文本,如文章、诗歌和产品描述。例如,OpenAI开发的GPT-3语言模型在经过大量文本数据训练后,可以生成以不同语言表述的连贯且符合语法规则的新文本(无论是输入还是输出),并能从文本中提取出相关特征(例如关键词、主题或完整摘要)。

图1.2所示的是ChatGPT答复用户提示并补充了参考材料的示例。

图1.2 ChatGPT答复用户提示并补充了参考材料的示例

接下来,我们介绍生成式人工智能在图像生成领域的应用。

1.1.3 图像生成

就生成式人工智能在图像生成领域的应用来说,最早且最著名的示例之一是由Ian Goodfellow等人在2014年发表的文章“Generative Adversarial Networks”中介绍的生成对抗网络(Generative Adversarial Network,GAN)架构,这一架构能生成难以与真实图像区分的逼真图像。GAN有一些有趣的应用,例如为训练计算机视觉模型生成合成数据集、生成逼真的产品图像,以及生成用于虚拟现实和增强现实应用的逼真图像。

图1.3所示的虚构人脸图像均由人工智能(生成对抗网络)生成。

图1.3 由GAN StyleGAN2生成的虚构人脸图像(引自Random Face Generator官网)

2021年,OpenAI在图像生成领域引入了一个名为DALL-E的生成式人工智能模型。与GAN不同,DALL-E模型旨在根据自然语言描述生成图像(GAN则以随机噪声向量为输入),这些图像可能看起来没那么逼真,但足以表达所述内容。

DALL-E可以生成独特而富有创造力的图像,在广告、产品设计、时尚等创意产业中具有巨大的应用潜力。

图1.4展示了DALL-E根据自然语言描述生成的4张图像。

图1.4 DALL-E使用自然语言提示作为输入所生成的图像

注意,文本生成可以与图像生成相结合,以产生全新的素材。近年来,将二者结合的新型人工智能工具得到了广泛的应用。

Tome AI就是一个例子。这是一款基于人工智能的自动生成PPT的在线应用,除了基础功能,Tome AI还能利用DALL-E和GPT-3等模型从零开始创建幻灯片,如图1.5所示。

图1.5 一份关于生成式人工智能的演示文稿,完全由Tome AI使用自然语言输入生成

可以看到,Tome AI完全能够根据用户以自然语言输入的简短信息创建一个演示文稿。

1.1.4 音乐生成

生成式人工智能在音乐生成领域的应用可以追溯到20世纪50年代,当时的学者们在算法合成领域开展了相关研究,并将算法用于生成音乐作品。事实上,1957年,Lejaren Hiller和Leonard Isaacson创作了弦乐四重奏——Illiac Suite,这是第一首完全由人工智能创作的音乐作品。自此,学者们一直在研究如何使用人工智能生成音乐。在最近几年的发展中,新的架构和框架已经得到广泛应用,例如,谷歌在2016年推出的WaveNet架构能够生成高质量的音频样本;谷歌开发的Magenta项目使用递归神经网络(Recurrent Neural Network,RNN)和其他机器学习技术来生成音乐及其他形式的艺术作品;OpenAI于2020年推出的能生成音乐的神经网络系统Jukebox,可以根据音乐和声乐风格、类型和参考艺术家等信息自定义输出。

这些框架和其他框架为开发用于音乐生成的“人工智能作曲助手”奠定了基础。由Sony CSL研究开发的Flow Machines就是一个示例,这个生成式人工智能系统经过大量音乐作品数据库训练后,可生成各种风格的新音乐。法国作曲家Benoît Carré用Flow Machines创作了一张名为“Hello World”的专辑(参见Hello World网站),这张专辑收录了Flow Machines与几位人类音乐家合作的乐曲。

图1.6所示的是一首完全由Music Transformer(Magenta项目中的一个模型)生成的曲目。

图1.6 Music Transformer生成的曲目

在音乐领域,生成式人工智能的另一卓越应用是语音合成。事实上,有许多人工智能工具可以用知名歌手的声音作为输入来生成音频。例如,你想听Kanye West演唱某首歌曲的效果,便可以用诸如FakeYou、Deep Fake Text to Speech、UberDuck等工具来实现这一梦想,如图1.7所示。

图1.7 使用UberDuck进行文本转语音合成

不得不说,合成效果的确令人震撼。你甚至可以选用各种卡通人物(例如小熊维尼等)的声音来合成歌曲。

接下来,我们介绍生成式人工智能在视频生成领域的应用。

1.1.5 视频生成

生成式人工智能几乎同时应用于视频生成和图像生成领域,其发展时间线相差无几。事实上,视频生成领域的关键进展之一是GAN的发展。得益于GAN在生成逼真图像方面的高准确性,研究人员开始将其应用于视频生成。最著名的示例之一便是DeepMind的Motion to Video,它仅凭一张图像和一系列动作就能生成高质量的视频。另一个典型示例是NVIDIA的Video-to-Video SynthesisVid2Vid),它基于深度学习框架,使用GAN技术根据输入视频生成高质量的视频。

Vid2Vid可以生成时间上连贯的视频,这意味着视频能够随时间推移保持播放流畅且逼真。该系统可用于执行各种视频生成任务,如下所示。

变换视频风格,例如,将日间效果视频转换为夜间效果视频或将草图转换为逼真的图像。

修改现有视频,例如,更改视频中对象的样式或外观。

根据静态图像生成新视频,例如,将一系列静止图像动画化。

2022年9月,Meta的研究人员宣布推出Make-A-Video,这是一种新的人工智能系统,可以帮助用户将自然语言提示转换为视频剪辑。这一技术背后包含我们刚提到的许多其他领域的模型——用于提示的语言理解模型、用于图像生成的图像和运动生成模型,以及由人工智能作曲助手制作的背景音乐。

综上所述,多年来,生成式人工智能已经给众多领域带来了“冲击”,出现了许多足以给艺术家、企业甚至普通用户的工作提供支持的人工智能工具。相信随着技术的发展,生成式人工智能会有更广阔的应用空间!接下来,在了解OpenAI模型的相关内容之前,我们先介绍生成式人工智能的研究历程和新进展。

1.2 研究历程和新发展

1.1节概述了生成式人工智能领域中的先进技术,这些技术都是在最近几年涌现的。实际上,相关研究可以追溯到几十年前。

生成式人工智能的研究始于20世纪60年代,当时Joseph Weizenbaum开发了聊天机器人ELIZA,这是NLP系统最早的示例之一。ELIZA是一个简单的基于规则的交互系统,旨在通过基于文本输入的答复来取悦用户,并为NLP和生成式人工智能的进一步发展奠定基础。但是,我们知道现代生成式人工智能是深度学习的一个子领域,虽然最早的人工神经网络(Artificial Neural Network,ANN)是在20世纪40年代首次提出的,但当时的研究人员面临着许多挑战,例如算力有限以及和大脑相关的生物学基础知识匮乏。直到20世纪80年代,ANN才引起人们足够的关注。当时除了新硬件和神经科学的发展,反向传播算法(backpropagation algorithm,BP)的出现也促进了ANN的训练。事实上,在BP算法出现之前,训练神经网络是很困难的,因为无法有效地计算与每个神经元相关联的参数或权重的误差梯度,而BP算法使自动化训练过程成为可能,并实现了ANN的应用。

在21世纪的前20年,算力的进步以及大量可用于训练的数据的出现,使得深度学习更加实用,也更便于普通公众使用,这也推动了生成式人工智能研究的发展。

2013年,Kingma和Welling在其论文“Auto-Encoding Variational Bayes”中提出了一个新的模型架构,即变分自编码器(Variational Autoencoder,VAE)。VAE是基于变分推断的生成式模型,其通过编码器组件将数据编码成低维空间(称为潜在空间,latent space),然后通过解码器组件将其解码回原始数据空间,最后给出一种数据的紧凑表示方法。

VAE的关键创新是引入潜在空间的概率解释。编码器并不学习将输入以确定性的方式映射到潜在空间,而是将输入映射到潜在空间上的概率分布。这使得VAE可以通过从潜在空间进行采样并将样本解码回输入空间来生成新样本。

假设要训练一个VAE,使之可以生成看起来像真实照片的猫和狗的新图像。VAE会先接收猫或狗的图像,并将其压缩成潜在空间中的一组较小的数字,即潜在变量(latent variable)。这组数字表征了图像最重要的特征。

随后,VAE使用这些潜在变量来生成一张新图像,使其看起来像是真实的猫或狗的图像。这张新图像可能与原始图像有些不同,但看起来属于同一组图像。

将生成的图像与实际图像进行比较并调整其潜在变量,可使生成的图像与实际图像更相似。随着模型训练的持续,VAE生成的图像愈发逼真。

VAE为生成式人工智能领域的快速发展奠定了坚实的基础。事实上,仅仅一年之后,Ian Goodfellow便提出了GAN。与主要元素是编码器和解码器的VAE框架不同,GAN由生成器和判别器两个神经网络组成,二者采用零和博弈的方式合作。

生成器生成假数据(例如新图像),旨在模仿真实数据(例如猫的图像)。判别器接收真实数据和假数据,并尝试区分二者,扮演着评判者的角色。

在训练期间,生成器会尝试生成数据以欺骗判别器,让判别器将假数据误认为是真实数据,而判别器则尝试变得更擅长区分真实数据和假数据。二者会在对抗式训练(adversarial training)的过程中一起训练成长。

随着训练的持续,生成器变得更擅长创建看起来像真实数据的假数据,而判别器变得更擅长区分真实数据和假数据。最终,生成器会变得非常擅长创建看起来像真实数据的假数据,即使判别器也无法看出真实数据和假数据之间的区别。

图1.8所示的是完全由GAN生成的人脸示例。

图1.8 由GAN生成的逼真的人脸示例(摘自“Progressive Growing of GANs for Improved Quality, Stability, and Variation”,2017)

VAE和GAN这两个模型都旨在生成与原始样本真假难辨的全新数据,并且它们的架构自提出以来一直在改进。与此同时,Van den Oord及其团队提出的PixelCNN以及Google DeepMind开发的WaveNet等新模型的发展也推动了音频和语音生成方面的进步。

另一个重大里程碑事件是Google的研究人员在其于2017年发表的论文“Attention Is All You Need”中介绍了一种名为Transformer的新架构。这一架构可以在保留有关语言上下文的记忆的同时进行并行处理,明显优于在此之前的基于RNN或长短期记忆(Long Short-Term Memory,LSTM)框架的语言模型,并在语言生成领域引发了革命。

Google于2018年推出的大规模语言模型BERT(Bidirectional Encoder Representations from Transformer)是以Transformer为基础的,并且Transformer很快成了NLP实验的基准。

Transformer也是OpenAI提出的所有生成式预训练(Generative Pre-Trained,GPT)模型的基础,包括ChatGPT使用的GPT-3。

虽然早些年里,相关领域的研究人员做了大量的研究并取得了一些成就,但直到2022年下半年,公众才将注意力转向生成式人工智能领域。

2022年被誉为“生成式人工智能元年”绝非偶然。这一年,强大的人工智能模型和工具在公众中得到普及:基于扩散的图像服务(MidJourney、DALL-E 2和Stable Diffusion)、OpenAI的ChatGPT、文本到视频的转换工具(Make-a-Video和Imagen Video)以及文本到3D(DreamFusion、Magic3D和Get3D)的转换工具都可供个人用户使用,有时可以免费使用。

生成式人工智能的普及有望产生颠覆性影响,原因如下。

一旦生成式人工智能模型得到普及,个人用户或组织都有可能使用生成式人工智能并发掘其潜力,即使他们不是数据科学家或机器学习工程师。

这些新模型具有惊人的能力和创造力,但也令人担忧。呼吁个人和政府尽快适应生成式人工智能带来的变革迫在眉睫。

可以预见,在不久的将来,人工智能系统在个人使用和企业级项目中的应用将激增。

1.3 小结

本章探索了生成式人工智能及其各个应用领域,包括图像生成、文本生成、音乐生成和视频生成,介绍了OpenAI训练的ChatGPT和DALL-E等生成式人工智能模型如何使用深度学习技术学习大型数据集中的模式并生成全新且连贯的内容,还讨论了生成式人工智能的研究历程、起源和新进展。

本章旨在让你了解生成式人工智能的基础知识,希望能激发你继续探索这一领域的兴趣。

第2章将重点关注当今市场上最有发展前景的技术之一——ChatGPT,介绍ChatGPT的研究、OpenAI开发的模型框架以及ChatGPT的主要用例。

相关图书

GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
扩散模型从原理到实战
扩散模型从原理到实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能(第3版)
人工智能(第3版)
ChatGPT写作超简单
ChatGPT写作超简单

相关文章

相关课程