深入浅出人工智能——原理、技术与应用

978-7-115-65539-4
作者: 李烨韩慧昌侯鸿志潘旺
译者:
编辑: 龚昕岳

图书目录:

详情

本书深入浅出地讲解人工智能的原理、技术和应用方法。本书从基础概念入手,逐步深入到前沿算法与实际应用,旨在帮助读者从理论学习到实际操作,系统性地掌握人工智能的相关知识。 本书共10章,首先对人工智能进行概述介绍,其次讲解人工智能的原理和技术,包括数据预处理、数据可视化、机器学习基础、有监督学习模型、无监督学习模型、神经网络基础、训练深度神经网络,最后讲解人工智能的应用,包括智能对话与虚拟主播、知识图谱。

图书摘要

版权信息

书名:深入浅出人工智能——原理、技术与应用

ISBN:978-7-115-65539-4

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

著    李 烨 韩慧昌 侯鸿志 潘 旺

责任编辑 龚昕岳

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

本书旨在帮助读者从零开始学习人工智能,掌握人工智能的原理、技术和应用。

本书共10章,首先是人工智能概述,接着深入浅出地讲解人工智能的原理和技术,包括数据预处理、数据可视化、机器学习基础、监督学习模型、无监督学习算法、神经网络基础、训练深度神经网络等内容,最后讲解人工智能的应用,包括智能对话和知识图谱。

本书适合想要学习并掌握人工智能技术和应用的零基础读者阅读,还可以作为高等院校人工智能相关课程的教材或辅导书。

推 荐 语

近年来,大模型技术推动人工智能不断取得突破性的进展,深刻改变了人们的生产、生活方式。与此同时,我们看到人工智能人才缺口较大,因此做好专业人才培养和基础科学技术普及尤为重要。

本书深入浅出地讲解了人工智能的原理、技术与应用,涵盖从数据预处理、模型训练到人工智能应用的完整工程方法,让读者能够系统掌握人工智能技术并将理论应用于实践。这是一部人工智能入门佳作,衷心推荐大家通过本书学习人工智能,探索人工智能的无限可能。

——郑纬民,中国工程院院士

作为一项对各行各业影响日益深远的技术,人工智能本应被更多人所了解,然而其相对复杂的理论与方法却常常令一些人望而却步。本书由从事人工智能应用研发的工程师撰写,他们结合自身丰富的实践经验,用简单易懂的方式让没有本领域专业基础的读者也能掌握人工智能的核心原理与方法。本书是一座连接大众与科技的桥梁,对人工智能技术的普及能起到很好的推动作用。

——陶建华,清华大学自动化系长聘教授、中国人工智能学会会士兼常务理事

人工智能是当下推动科技创新、教育提升、经济发展和社会进步的巨大动力。学生、教师、工程师、科学家等各行各业人士,都需要理解、利用和驾驭人工智能。本书由微软AI专家撰写,从实战出发,讲解人工智能从基础理论到实际应用的方方面面,非常适合对此领域有兴趣又没有受过专门培训的读者阅读,也适合作为高校相关课程的教材或辅导书。

——熊璋,对外经济贸易大学信息学院院长、国家教材委员会科学学科专家委员会委员、中小学信息科技教材研究基地主任

人工智能正在重塑我们的社会,逐步成为每个人都应了解的重要技术。面对这一趋势,我们不能将其神圣化或妖魔化,而应从基础原理出发,理性学习。本书由微软AI部门的几位算法专家撰写,深入浅出地讲解人工智能的核心技术与应用,并提供真实案例,理论联系实际。本书非常适合供零基础读者用于入门AI,也适合用作专业学习AI的参考书。理解人工智能,从本书开始!

——韦青,微软(中国)首席技术官

前  言

人工智能(Artificial Intelligence,AI)正在以前所未有的速度发展和落地。2022年11月底,ChapGPT上线后给整个世界带来的冲击想必大家记忆犹新。虽然本书的4位作者在AI领域深耕多年,但在体验过ChatGPT后,我们的震惊程度相对于不了解AI的大众有过之而无不及。

GPT系列模型堪称AI领域划时代的里程碑,它们的出现彻底改变了AI模型训练和应用的范式;它们给世界带来的冲击不仅是技术的提升,更是壁垒的突破。从此以后,AI技术不再仅限于专业技术人员使用,而是在极低的学习成本下,惠及世界上的每一个人!

在生成式人工智能成为主流的大模型时代,作为个人,如何能够利用好当前的AI技术呢?首要的关键点,在于如何正确看待AI——对AI有一个正确的预期,是有效利用各种AI技术的前提。

然而,由于长期以来AI一直是媒体的热点概念,在诸多宣传之下,AI在大众心中逐步留下了一个“无所不能的黑盒”的印象。因此,通过了解AI背后的技术原理和发展变化过程来对其怯魅,成为当务之急。

本书是一部全面介绍人工智能核心技术与应用的著作,涵盖数据预处理、数据可视化、机器学习、深度学习、神经网络、知识图谱等人工智能领域的众多知识。全书从基础概念入手,深入浅出地讲解前沿算法与实际应用,旨在帮助读者系统化地掌握从理论学习到实际操作的人工智能知识。

本书的写作初心

人工智能技术的发展极其迅速,因此造成了学科教育与实际应用脱钩的情况。本书的4位作者作为人工智能产品研发的一线人员,都没有在学校里学习过机器学习和深度学习的相关知识。而对这些知识的应用则不仅没有现成的教案,连具体的落地方式都要通过自己的摸索才能找到方向和方法。

多年来,我们亲身经历了在实践中学习人工智能知识与技术的过程。同时也不断感受到来自同事、客户乃至更广泛人群对人工智能知识的强烈兴趣。

现在各种讲解人工智能技能的图书和资料非常多,各具特色,有的偏重学术,有的重视实操。4位作者通过自己以应用为目的的学习过程,深切地体会到掌握AI整体知识框架的重要性,以及“学—讲—练”的重要性。这也是我们编写本书的初心。我们希望通过系统化的总结,将人工智能的基础知识、核心模型与实际应用凝练在一起,帮助读者更好地理解人工智能的能力与潜力。

本书的结构经过精心设计,内容层层递进:首先对人工智能进行概述,让读者理解什么是人工智能、人工智能有哪些应用方向;其次讲解数据预处理和数据可视化,让读者了解人工智能的工程方法;接着通过深度剖析基础的AI模型和全面介绍更多实用的AI模型,带领读者学习机器学习、深度学习等AI技术的原理;最后探讨智能对话和知识图谱等实际的AI应用。

通过这种系统化的框架,读者能够从全局理解人工智能的知识体系,掌握从数据处理到模型训练,再到智能系统构建的全过程。本书为有实际应用需求的读者提供了清晰的学习路径。

本书的读者对象

本书适合人工智能初学者阅读,尤其适合具有一定编程基础的大学生、软件开发人员及互联网行业的从业者阅读。

我们相信,通过学习本书,读者不仅能掌握人工智能的理论知识,还能应用人工智能技术解决实际问题。

希望本书能够启发你,助你在AI的世界中不断前行。

本书的内容结构

本书共10章,每章都经过精心的设计,力求深入浅出、通俗易懂。

第1章“人工智能概述”,介绍人工智能的定义、发展史、技术原理、应用方向及其对社会的影响,并概述人工智能行业中的岗位,引领读者走进人工智能的奇妙世界。

第2章“数据预处理”,介绍数据预处理的流程和必要性,以及数据清洗、特征工程等关键技术,帮助读者掌握如何准备高质量的数据以便训练人工智能模型。

第3章“数据可视化”,介绍数据可视化的原则和常用的数据可视化图表,并揭示数据可视化在人工智能中的辅助作用。

第4章“机器学习基础”,介绍机器学习的基本概念、经典模型、模型生命周期等内容,为读者揭开机器学习的神秘面纱,为后续深入学习各类算法打下基础。

第5章“监督学习模型”,深入剖析线性回归、逻辑回归、贝叶斯分类器、决策树、KNN等经典的监督学习模型,帮助读者掌握解决回归与分类问题的有效工具。

第6章“无监督学习算法”,深入剖析聚类、参数估计、降维等无监督学习算法,揭示它们在数据探索、特征提取等方面的价值。

第7章“神经网络基础”,从神经网络的历史讲起,逐步深入讲解全连接神经网络、卷积神经网络、循环神经网络等内容,引领读者走进深度学习的广阔天地。

第8章“训练深度神经网络”,详细介绍深度神经网络的训练方法,包括数据预处理、权重初始化、模型优化算法、正则化、学习率和提前停止等内容,帮助读者掌握提升深度神经网络模型训练效果的方法。

第9章“智能对话”,介绍智能对话系统的基础知识、组成模块和构建方法,展现人工智能在人机交互领域的应用。

第10章“知识图谱”,介绍知识图谱的概念、数据模型、构建方法、存储方法和应用场景,并带领读者构建属于自己的知识图谱,为读者打开知识管理与智能推理的新视角。

致谢

衷心感谢中国工程院郑纬民院士、清华大学陶建华教授、对外经济贸易大学熊璋教授和微软(中国)首席技术官韦青老师在百忙之中给予本书宝贵的支持与鼓励,你们的指导为本书增添了光彩,也为我们的写作之路提供了动力!

资源与支持

资源获取

本书提供如下资源:

书中彩图文件;

本书思维导图;

程序员面试手册电子书;

异步社区٧天VIP会员。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

图书勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”按钮,输入错误信息,然后单击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作译者与读者的在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域40余年的发展与积淀。异步图书面向IT行业及各行业的IT用户。

第1章 人工智能概述

本章将对人工智能(Artificial Intelligence,AI)进行概述,并解决如下6个问题。

(1)人工智能的定义是什么?

(2)人工智能是怎么一步一步发展到今天的?

(3)人工智能背后的技术原理是什么?

(4)人工智能有哪些应用方向?

(5)人工智能给人类带来了什么影响?

(6)人工智能行业有哪些工作岗位?

在回答了以上6个问题后,我们就可以对人工智能有一个初步的了解。

1.1 人工智能的定义

什么是人工智能?人工智能的定义到底是什么?

在介绍人工智能的定义之前,我们先来分析图1-1中,哪些属于人工智能。

图1-1 6个不同的场景

图1-1(A)中的婴儿哭泣是人的自然反应,是婴儿内心情绪的一种宣泄。这里没有人工(人为)的干预,所以不属于人工智能。

图1-1(B)中似乎包含了智能,但说的是动物,所以不属于人工智能。

图1-1(C)展示了语音电话菜单,也就是交互式话音应答(Interactive Voice Response,IVR),传统的实施方式是用电子逻辑来识别通话者按下的数字0~9以及符号*和#,因此是机械的指令操作,不属于人工智能。

图1-1(D)展示了工厂流水线上的机械臂,其中可能包含了人工智能的算法和模型,以使机械臂在操作中具有人的灵活性和认知能力,比如像人的手指一样操作有一定可变参数的零件或工序。

图1-1(E)展示了具有语音识别能力的应用,属于人工智能。

图1-1(F)展示的是客户和在线客服进行电话语音对话,一般不属于人工智能。但是,如果在线客服在接听用户电话的时候,机器人助手能根据聆听到的客服和客户的实时对话,自动从后台查找一些资料提供给客服,以便提高客服的工作效率,则属于人工智能。

那么,如何定义人工智能呢?直观的定义就是将字面意思拆解。

人工,指的是人造的,而不是自然的。

智能,指的是能够独立地做一件事或完成一项任务,具备认知能力和分析判断能力。

人工智能是在计算机科学的基础上,综合信息论、心理学、生理学、语言学、逻辑学和数学等知识,制造能模拟人类智能行为的计算机系统的一门学科。

下面向大家介绍人工智能领域的一个非常有名的测试——图灵测试。

爱看电影的读者可能看过一部名叫《模仿游戏》的电影,这部电影的男主人公就是被誉为“人工智能之父”的艾伦·图灵(Alan Turing)。

1950年10月,图灵发表了一篇论文《计算机器与智能》(Computing Machinery and Intelligence),提出了“机器能思考吗?”(Can machines think?)的问题。为了回答这个问题,图灵引入了后来被称为“图灵测试”的概念。图灵测试说的是,如果一台机器能够与人展开对话且不被人辨别出其机器身份,则称这台机器具有智能,即这台机器是可以思考的。

当时全世界只有几台计算机,这些计算机根本无法通过图灵测试。

要分辨一个想法是“智能”的思想还是精心设计的“模仿”是非常困难的。图灵测试就是想说明这样一种标准:如果一台机器的表现(act)、反应(react)和互相作用(interact)都和有意识的个体一样,那么这台机器就应该被认为是有意识的。

图灵测试是人工智能哲学方面的第一个严肃提案,在人工智能高速发展的今天,依然有着重要的指导意义。

图灵测试采用“问”与“答”的模式,即观察者与两个测试对象通话,其中一个是人,另一个是机器。要求观察者不断地提出各种问题,从而辨别回答者是人还是机器。图灵还为这项测试亲自拟定了几个示范性问题。

问:请为我写一首以“第四号桥”为主题的十四行诗。

答:不要问我这道题,我从来不会写诗。

问:34957加70764等于多少?

答:(停30秒后)105721。

问:你会下国际象棋吗?

答:是的。

问:我在我的K1处有棋子K;你在你的K6处有棋子K,在R1处有棋子R。轮到你走,你应该下哪步棋?

答:(停15秒后)棋子R走到R8处,将军!

其实,通过编制特殊的程序就可以让机器完成对一些问题的回答。然而,如果提问者不遵循常规标准,编制特定的回答程序将是一件极其困难的事情。

比如,我们再看下面的问题。

问:你会下国际象棋吗?

答:是的。

问:你会下国际象棋吗?

答:是的。

问:请再次回答,你会下国际象棋吗?

答:是的。

此时,你多半会想到,回答者是一台机器,因为对于相同的问题,这个回答者总是回答相同的简单答案。

如果提问与回答呈现下面的状态。

问:你会下国际象棋吗?

答:是的。

问:你会下国际象棋吗?

答:是的,我不是已经说过了吗?

问:请再次回答,你会下国际象棋吗?

答:你烦不烦,干吗老提同样的问题?

此时,你会觉得回答者大概率是人而不是机器。上述两种对话的区别在于,对于第一种对话,可以明显地感到回答者是从知识库里提取简单的答案;对于第二种对话,回答者具有综合分析的能力,因为回答者知道提问者在反复提出同样的问题。

“图灵测试”没有规定问题的范围和提问的标准,如果想要制造出能以规则驱动的方式通过图灵测试的机器,就必须在计算机中存储人类可以想到的所有问题,并存储对这些问题的所有合乎常理的回答,还需要让机器理智地做出选择。这几乎无法完成。但是随着人工智能的不断发展,让机器通过图灵测试已经变得可能。

1.2 人工智能的发展史

人工智能的发展就像我们的人生一样,是有起伏的。

一般将1956年的达特茅斯会议看作人工智能的起点。第一个神经网络——感知机——的发展将人工智能推向了第一个黄金时期;反向传播算法获得的广泛关注,使人工智能进入了第二个黄金时期;随着大数据的发展,人们提出了深度卷积神经网络,人工智能在近几年得到了高速发展。

后续我们会详细介绍人工智能在学术领域和工程技术领域的发展情况。在这里,我们先介绍两件公众已经熟知的大事,从中不难看出人工智能在近几十年经历了飞跃式的发展。

1.2.1 “深蓝”战胜人类

第一件大事是IBM公司的“深蓝”计算机在国际象棋比赛上战胜人类世界冠军。

1996年2月,超级计算机“深蓝”首次挑战国际象棋世界冠军卡斯帕罗夫,但以2∶4落败。之后,研究小组对“深蓝”加以改良,于1997年5月再度挑战卡斯帕罗夫,“深蓝”最终以3.5∶2.5击败卡斯帕罗夫,成为首个在标准比赛时限内击败国际象棋世界冠军的计算机。

“深蓝”的算法核心是暴力搜索:生成尽可能多的下棋走法,执行尽可能深的搜索。换言之,“深蓝”走的每一步,几乎都是在遍历后续所有可能的情况下做出的决策。这样的算法可以战胜国际象棋世界冠军,却不敢对弈围棋选手。因为围棋的可行解数量特别大,即便对计算机来说也是天文数字,穷举围棋的可行解对计算机来说无法实现。“深蓝”的设计者们不禁提问:“何时计算机也能下围棋呢?”

1.2.2 AlphaGo

横空出世的AlphaGo回答了“深蓝”设计者们提出的问题。

Go是“围棋”的英文。AlphaGo使用了蒙特卡罗树搜索与强化学习。在这种设计下,计算机可以结合树状图的长远推断,像人的大脑一样自发学习并进行直觉训练,以提高下棋实力。2016年3月,AlphaGo Lee以4∶1战胜韩国顶尖围棋棋手李世石。2017年5月,AlphaGo Master以3∶0战胜中国天才围棋棋手柯洁。至此,AlphaGo一直以人类数据作为学习样本。

2017年10月,AlphaGo团队在《自然》杂志上发表了一篇文章,介绍了AlphaGo Zero,这是一个没有使用人类数据的AlphaGo版本,比以前任何击败人类棋手的AlphaGo版本都更强大。通过跟自己对战,AlphaGo Zero经过3天的学习,就以100∶0的战绩超越了AlphaGo Lee的实力,21天后达到AlphaGo Master的水平,并在40天内超过之前所有的AlphaGo版本,还战胜了柯洁。在人工智能的加持下,人类曾经遥不可及的梦想成为现实。

出现AlphaGo这样强大的人工智能,是人工智能第三次发展浪潮的一项令人激动的成就。而人工智能第三次发展浪潮的到来,在很大程度上要归功于计算机与大数据的迅速发展。近年来,由于互联网与数字化的快速发展,产生了海量的数据,涌现出越来越多的数据存储与处理工具,如中央处理器(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、通用图形处理器(General Purpose Graphic Processing Unit,GPGPU)和张量处理器(Tensor Processing Unit,TPU)等。在摩尔定律的加持下,计算机的算力得到了极大提升。

正因为有了数据和算力,人们得以开发出更加优越和先进的算法。2006年,杰弗里·辛顿(Geoffery Hinton)提出了利用无监督的初始化与有监督的微调来缓解局部最优解问题,从而减少神经网络的数据维度,使深度学习更加有效。预训练模型的提出,使得通用模型可以用专业的数据进行特定任务的学习,还使得深度学习在各行各业得以应用。

1.3 人工智能的技术原理

那么,到底如何实现人工智能呢?人工智能的技术原理到底是怎样的呢?受限于计算机理论和计算机软件条件的限制,人工智能在不同的阶段采用了不同的技术途径。

第一代人工智能基于规则,机器根据配置和规则来完成任务。

第二代人工智能基于传统机器学习,根据有限的数据,学习模型、完成任务。

第三代人工智能基于深度学习,根据大量的数据,自行完成算法的迭代和学习,从而完成任务。

相较于第一代和第二代人工智能,基于深度学习的第三代人工智能所能完成的任务更多,效果更好。本节主要介绍以机器学习为导向的第二代人工智能和以深度学习为导向的第三代人工智能的技术原理。

1.3.1 机器学习和深度学习

机器学习的灵感来源于人类的学习方法。那么,人类是怎么学习的呢?人类是通过认识事物以及事物之间的关系来学习的。在此基础上,人类还会进行相应的行为模仿,并且能够基于对事物的认识进行推理。学习是一个贯穿人的一生的动态过程。简单来说,人类学习的过程就是认识事物的概念和了解事物(概念)之间关系的过程。

人脑具有很多高级的功能,比如接收信息、存储信息、交换信息,以及根据过去的经验学习事物的规则,从而使我们能够理解语言、进行抽象推理,以及对视觉模式进行分类。人脑的这些高级功能,使得我们能够快速、准确地从经验(感性知识)和数据(抽象知识)中学习复杂的知识结构。即使是只有8个月大的婴儿,也能发现口语中的规律,从而确定单词之间的界限。

那么,怎么才能让机器开始学习呢?(这里的机器指的是数字计算机,数字计算机只能处理数字信号。)要让计算机进行学习,首先要把真实世界里的“事物”变成数字,其次要把“事物之间的关系”变成运算逻辑,机器学习就是让计算机处理和学习数字之间的逻辑关系。

关于机器学习,周志华老师在他的著作《机器学习》中是这么描述的:

机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善(计算机)系统自身的性能。

在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

所以,对于一个实际问题,我们可以将利用人工智能解决这个问题的方法分为如下5个步骤。

第一步:提出问题。

第二步:准备数据。

第三步:训练(学习)模型。

第四步:测试模型。

第五步:应用模型。

本书就是按照这样的逻辑来安排内容的。在后续章节中,大家将陆续学习如何准备数据,以及如何利用不同的人工智能算法来训练并测试模型。进一步地,大家还将学习如何利用一个已经训练好的人工智能应用来帮助我们实现一些功能。

机器学习有很多种分类方式。根据所使用数据形式的不同,我们可以定义不同的训练任务。机器学习从任务类型上可以粗略地分为以下两类:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。监督学习的训练数据有明确的预期结果,而无监督学习的训练数据没有明确的预期结果。

机器学习按照学习方法可以分为传统机器学习和深度学习。深度学习主要模拟人脑的工作原理,通过一些被称为“神经网络”的结构来实现,这些神经网络可以有很多层,因此得名“深度学习”。神经网络的每一层由数以千计的“神经元”组成,它们可以自动学习数据的表示。随着层数的增加,神经网络可以识别越来越复杂的模式。需要注意的是,深度学习是机器学习的一个重要分支。机器学习和深度学习并不是并列关系,而是包含关系。

1.3.2 机器学习三要素

数据、算法和模型是机器学习的三要素。数据 + 算法 = 模型。

在特征的选取上,传统机器学习是全人工的,而深度学习是半人工的。传统机器学习对训练数据量的需求比较小,而深度学习对训练数据量的需求非常大。对于计算能力,传统机器学习的需求较小,而深度学习的需求非常大。在所训练出来的模型的自适应性上,传统机器学习比深度学习稍弱,但前者训练出来的模型具有较强的可解释性。

传统机器学习首先需要根据问题的性质和数据的条件,选择合适的模型类型和模型函数。常用的机器学习模型有线性回归、逻辑回归、朴素贝叶斯分类、k均值聚类、支持向量机、隐马尔可夫模型、谱聚类等。

深度学习则主要由神经网络构成。神经网络也称为连接模型,是一种模拟人脑行为特征、进行分布式并行信息处理的数学模型,由神经元和连接构成。

神经网络是一种多层网络,这种网络依靠系统的复杂性,通过调整内部大量节点之间相互连接的关系,实现网络处理效果的最优化。在后续章节中,我们将详细介绍如何使用神经网络搭建深度学习算法,并训练和测试相关模型。

深度学习的发展经历了从追求深度到追求神经元的复杂性,并不断寻求不同类型的深度神经网络的过程,其间出现了卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆(Long Short-Term Memory,LSTM)模型等。近些年,也有Attention、Transformer等更高效的类神经网络的深度学习机制出现。可以说,对于不同的应用,我们可以构造多种多样的深度学习模型来完成任务。

1.4 人工智能的应用方向

1.4.1 深度学习应用的四大领域

当前,深度学习主要应用在如下四大领域:图像处理、语音处理、自然语言处理(Natural Language Processing,NLP)和知识图谱(Knowledge Graph,KG)。

1.图像处理

常见的图像处理有人脸识别、物体识别、光学字符识别(Optical Character Recognition,OCR)等。

人脸识别指的是根据图像识别一个人脸图像和目标数据库里的哪个人最接近,从而判断这个人的身份。我们在电影中经常看到的根据监控录像寻找特定人的踪迹就是应用的人脸识别。

物体识别指的是从图像中识别出不同的物体,让计算机根据物体的不同性质分别做出不同的应对。物体识别已被应用在汽车自动驾驶上,它可以给汽车自动驾驶算法提供接近甚至超过激光雷达目标识别的效果。物体识别还可以用于在偏远的森林里安装红外摄像机来捕捉濒临灭绝的野生动物的踪迹。

OCR指的是对图像中印刷或手写的文字进行识别,从而让计算机能像人一样读取图像中的文字,然后进行相应的处理。OCR的应用十分广泛。图书馆里海量图书的电子化,依靠的就是越来越精确的OCR技术。在现实生活中,车牌号码的识别,也得益于OCR的普及。OCR既可以在云端进行,也可以在远端(边缘)进行,具体采用哪种方式需要综合考虑应用的场景、费用、效率等因素。

2.语音处理

语音处理主要包括语音识别和语音合成,涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等知识。语音处理技术在我们日常生活中的典型应用有智能音箱、电话自动机器人客服、语音输入转文字、自动朗读机、网页语音播报、手机语音助手等。

3.自然语言处理

自然语言处理是指通过对自然语言的处理,使得计算机能够理解自然语言的含义。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等对待处理语料进行分词,形成以最小词性为单位且富含语义的词项。自然语言处理是一门典型的交叉学科,涉及语言科学、计算机科学、数学、认知学、逻辑学等。

4.知识图谱

知识图谱主要用于描述现实世界中的实体(即客观世界中的具体事物,如张三、李四等)、概念(即人们在认识世界的过程中形成的对客观事物的概念化表示,如人、动物等)及事物间的客观关系。

知识图谱由节点和边构成,节点表示现实中存在的实体,边则表示实体之间的“关系”。

知识图谱和深度学习的关系主要体现在知识图谱的构建过程中。知识图谱和深度学习的另一个关联在于,可以将图计算和深度神经网络相结合来进行图结构的预测和大型图谱中图节点的分类。

1.4.2 人工智能的应用场景

人工智能的常见应用场景包括对话系统、智能教育、艺术创作、智能推荐系统和自动驾驶等。

1.对话系统

人工智能可以用于对话系统和聊天机器人。最早的人工智能应用之一就是聊天机器人,它通过允许人与机器进行对话,弥合了人与技术之间的通信鸿沟,使得机器可以根据人提出的请求或要求采取行动。早期的聊天机器人遵循一些脚本规则,这些脚本规则告诉机器要根据关键词采取什么行动。

机器学习和自然语言处理技术使聊天机器人更具交互性和生产力。这些较新的聊天机器人能更好地响应用户的需求,并越来越像真人一样交谈。微软小冰和一些电商网站的智能客服就是将人工智能用于对话系统和聊天机器人的典型实例。

2.智能教育

智能教育也是人工智能常见的应用场景,比如智能课堂——利用人脸识别技术将学生与他们的个人信息相对应,并利用动作识别技术识别学生的听课状态。此外,还可以利用OCR技术实现“一键搜题”等功能,对上传的题目进行智能判别。所有个人的学习数据都可以存储保留,形成个人的教育档案,以进行个人定制化的教育服务,所有的教育数据也可以陪伴学习者终身。

3.艺术创作

人工智能在艺术创作上也占据一席之地。随着图像和语音生成算法的崛起,人工智能可以进行多种多样的艺术创作。只需要输入想要的风格和内容,人工智能就会自动生成相应的画作或乐曲。图1-2展示了人工智能生成的画作。Soundraw等平台可以利用人工智能制作音乐。

图1-2 人工智能画作

4.智能推荐系统

网络上每天都在产生海量的信息,人们想要迅速、准确地找到自己感兴趣的内容或商品越来越难,而且绝大多数用户往往只关注主流内容和商品,而忽略相对冷门的大量“长尾”信息,导致很多优秀的内容或商品没有机会被人发现和关注。如果大量的长尾信息无法得到流量,信息生产者就会离开平台,影响平台生态的健康发展。此时,如果平台能够高效匹配用户感兴趣的内容或商品,就能提高用户体验和黏性,获取更多的商业利益。

人工智能可以帮助平台自动生成用户的画像,并精准地向用户推荐合适的内容和商品。当前,智能推荐系统在精准用户获取、用户个性化推荐、用户流失预警中发挥着十分重要的作用。

5.自动驾驶

火热的自动驾驶技术可以说将人工智能的应用发挥到了极致,它几乎用到了人工智能领域的最新理论和技术成果。

人们投入如此高的热情来研究自动驾驶,主要有4个方面的原因:第一,自动驾驶可以使新能源汽车从根本上摆脱驾驶员的“非节能”驾驶方式;第二,自动驾驶可以把驾驶员从驾车这一技术工种中解放出来,降低汽车的使用门槛,开拓汽车市场的容量;第三,自动驾驶可以大幅提高汽车资源的利用率,从而降低汽车的使用成本;第四,自动驾驶可以提高驾驶安全和道路安全,减少恶性交通事故。

众多中外汽车厂商都在自动驾驶赛道有所布局。国外的有Waymo、特斯拉、Uber等,国内的有百度、小马智行等。大家都认为自动驾驶是我们走向智能汽车的重要目标。

根据自动驾驶的自动化和自主化程度,自动驾驶分为5个级别。

第1级,驾驶员辅助。这是自动驾驶的最低级别。车辆具有单独的自动化驾驶员辅助系统,如转向或加速(巡航控制)。自适应巡航控制系统可以让车辆与前车保持安全距离,驾驶员负责监控驾驶的其他方面(如转向和制动),因此符合1级自动驾驶标准。

第2级,部分自动驾驶。车辆具有高级驾驶辅助系统(Advanced Driving Assistant System,ADAS),能够自动控制转向及加速或减速。因为有驾驶员坐在汽车座位上,并且可以随时控制汽车,所以这一级别的自动驾驶还算不上无人驾驶。特斯拉的Autopilot和凯迪拉克的Super Cruise系统都符合2级自动驾驶标准。

第3级,受条件制约的自动驾驶。汽车具有“环境检测”能力,可以根据信息自己作出决定,如加速超过缓慢行驶的车辆。但是,这一级别的汽车仍然需要人类来操控。驾驶员必须保持警觉,并且要能够在系统无法执行任务时对汽车进行操控。

第4级,高度自动驾驶。汽车能够以无人驾驶模式行驶,但由于立法和基础设施欠缺,这一级别的汽车只能在限定区域内行驶(通常是在城市路况下行驶,平均行驶速度最高可以达到大约48 km/h),这被称为地理围栏(geofencing)。因此,现有的大多数4级自动驾驶汽车面向的是共享出行领域。

第5级,完全自动驾驶。驾驶汽车不需要人为关注,从而免除了“动态驾驶任务”。5级自动驾驶汽车甚至没有方向盘或加速/制动踏板。它们不受地理围栏的限制,能够去任何地方并完成任何有经验的人类驾驶员可以完成的操控。

自动驾驶要求汽车需要有感知环境的传感器,如雷达、激光雷达、可见光照相机、红外照相机、立体视觉、声音传感等,以及GPS(Global Positioning System,全球定位系统)、汽车域网等内/外部设备。自动驾驶的汽车需要根据这些设备知道自己在哪儿,周围环境中都有什么,如何从一个地点行驶到另一个地点,乘客和驾驶员在干什么,以及需要执行哪些操作来控制驾驶。

自动驾驶是人工智能技术的集大成者,它涉及环境感知和行为决策。

环境感知包括对外部环境(道路、行人、周围车辆、障碍物等立体环境)的感知和对内部环境(包括驾驶员或乘客的状态)的感知。对外环境感知利用了大量的与计算机视觉相关的人工智能技术,包括但不限于目标识别、Re-ID、3D模型重建、高精度定位等。对内环境感知在图像方面用到了人脸识别和表情识别,在自然语言处理方面用到了语音识别和合成、自然语言理解等。

行为决策涉及车辆的最优导航路径规划、事故避免策略制定、多路传感信号综合处理判断等人工智能预测和决策任务。

1.5 人工智能的影响

人工智能虽然为人类带来了便捷,但也可能给人类带来一些负面影响。

1.5.1 人类和机器

有很多人担心:未来人工智能崛起,会不会引发人类和机器的竞争呢?

人类未来的工作方式会不会从原来的和工具一起工作,变成和机器一起工作,直到和机器人一起工作呢?人类和机器人会有怎样的竞争呢?

不可否认的是,在未来的社会中,机器一定会占据越来越大的比重。不过,我们并不需要担心被机器打败——机器会为人类解决琐碎的问题,让我们腾出精力做更多有趣的事情。我们将更有机会成为原创者,去创造更优秀的事物。我们人类还有着更多感性的情感,比如对美和感情的认知,这是机器很难学习并具备的。

我们来看一下如何区分鸵鸟和鸸鹋(见图1-3)。乍看两者非常接近,但是通过脖子和尾巴的不同,我们可以很容易地区分它们。

图1-3 鸵鸟(左)和鸸鹋(右)

如果让计算机来识别图1-3中的两张图片,计算机就需要学习每一种鸟的特征,进而判断这究竟是鸵鸟还是鸸鹋。另外,如果样本量较小或者角度有变化,计算机就有可能无法识别图片中鸟的种类。

1.5.2 人工智能对法律的冲击

即便是刚才提到的人工智能的集大成者——自动驾驶,现在也依旧不成熟。比如,若某电动汽车在自动驾驶过程中导致司机死亡,或者在某共享汽车的自动驾驶测试过程中发生事故导致行人死亡,责任如何判定?是司机的错还是算法的错?这些都需要有法律作为评判依据。

同样,机器人也对法律规则带来了冲击,新的智能和主体会带来新的情况,而数据隐私和数据霸权则是我们当今所要面对的问题。

人工智能不仅给法律系统提出了新的问题和挑战,也给全人类提出了对于人性和道德的挑战。如果机器人被他的设计者、制造者或拥有者用来侵害他人的合法权益,甚至威胁他人的生命安全,谁应该为可能发生的灾难负责?如果机器人被当成武器直接派到前线参加战争,不管是以无人机的形式,还是以单兵的形式,我们会为人工智能的发展而感到骄傲和自豪吗?

多数学者认为,人工智能的发展将对法律及其行业生态产生巨大影响。因此,面对人工智能的法律风险,应该如何立法应对,已成为法学界关注的重点问题。学者们主要从法理学的宏观视角审视人工智能的法律风险。对人工智能的立法可以分为两种:一种是对人工智能应用的立法;另一种是对人工智能的利益相关者,包括设计者、生产者、使用者和维修者的立法。立法原则包括目的正当原则、人类善良情感原则、公众知情原则或透明原则、政府管控原则、分类管控原则、全程管控原则、预防原则以及国际合作原则。在这些原则的基础上,推动互联网、大数据、人工智能和全面依法治国的深度融合,树立数据思维,运用互联网技术和信息化手段来推动人工智能的科学立法。

人工智能的广泛应用及人工智能立法的转型,将重构公众认知法律的模式,重构法律规则本身的形态,进而重构法律的价值导向。也有学者对目前法学界对人工智能法学研究明显违反人类智力常识的反智化现象进行了严肃的批判,主张法学研究应该避免盲目跟风,走出对人工智能的盲目崇拜,回归学术研究的理性轨道。一些著名学者认为,人工智能给传统法治带来了重大变革和影响,推动了数字时代的法治范式转型。

总之,我们不要过度地神化人工智能,更不要对它抱有畏惧心理,我们要用科学、客观的眼光来看待这门学科的成就和发展。

1.6 人工智能岗位概述

回顾1.4.1节,深度学习应用的四大领域如下。

图像处理,包含人脸识别、物体识别、OCR等。

语音处理,包含语音识别、语音合成等。

自然语言处理,包含文本分析、摘要提取、自动翻译等。

知识图谱,是图像处理、语音处理和自然语言处理的集大成者。

这四大领域没有高下之分,都是很好的方向,只要深钻下去,必将闯出一片广阔的天地。

人工智能浪潮中的企业也分很多种,既有传统软件企业,比如一线互联网大厂和新型的二线互联网企业;也有以视频、语音、图像等技术见长的明星独角兽企业。除了大公司,也有许多中小型人工智能创业公司,这些创业公司的模式大多为“人工智能+”,比如将人工智能与金融、保险、医疗、安防等领域相结合。这么多的人工智能企业,不仅需要有过硬的技术能力,还需要海量的数据来支持算法模型,因此诞生了许多数据外包公司,这些数据外包公司提供源数据和数据标注服务。

人工智能在工业上的应用也十分丰富,例如,以下工作都涉及人工智能。

工业管理,包括资产管理、供应链管理等。

工业自动化,包括工业人工智能平台、质量控制检测、故障诊断等。

工业上的数据分析,包括工业边缘分析、物联网、边缘计算等。

工业设计,这方面也有大量的人工智能应用。

未来,工业不再是笨重机械的代表,工业也在向智能化发展。

人工智能技术人才栈主要分为三层,最上面是算法层,中间是工程层,下面是数据层。越往上层的岗位,对人才的综合要求越高。

算法层上既有侧重于研究的算法科学家,也有侧重于工业应用的科学家,还有负责算法分布式实现的分布式计算专家。

工程层上的工程师分为三类:第一类是算法工程师,他们负责特征工程和模型训练;第二类是平台工程师,他们负责服务平台开发;第三类是AIOps,他们负责模型的部署、监控和运维。

数据层上的工程师也分为三类:第一类是大数据工程师,他们负责数据的收集、存储、预处理;第二类是负责数据标注工具开发的工程师;第三类是数据标注人员。

如果想深入了解人工智能行业各个岗位的情况,以及如何入行人工智能,推荐阅读《人工智能入行实战:从校园到职场》,该书不但全面介绍了人工智能行业的技术概况、就业市场和求职方法,还分享了8位不同背景AI从业者的真实故事,能够帮助AI行业的新人合理规划职业发展。

相关图书

大模型应用开发 动手做AI Agent
大模型应用开发 动手做AI Agent
AI原生应用开发:提示工程原理与实战
AI原生应用开发:提示工程原理与实战
AI辅助编程实战
AI辅助编程实战
GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
大模型导论
大模型导论

相关文章

相关课程