写给青少年的人工智能 应用

978-7-115-58377-2
作者: 核桃编程
译者:
编辑: 吴晋瑜

图书目录:

详情

这是一本写给青少年看的人工智能科普图书,目的是帮助小读者们启蒙科学素养,开阔科学视野,培养科学思维,锻炼动手能力,让小读者们了解人工智能的过去、现在和未来,从而更好地融入人工智能时代。通过阅读本书,小读者们不仅能了解到“生活中有哪些人工智能”,还会一睹很多人工智能发展的过程和细节:生活中的人工智能都是如何工作的,科学家如何提出问题并想到绝妙的点子,等等。所有这些都旨在激发孩子们的好奇心,帮助他们体会科学研究应具备的精神。 本书从“人工智能为人类服务所需要的功能特点”出发,讲述了图像识别、语音识别和合成、自然语言处理等功能及其实现,并从日常生活、医疗、艺术、农业、无人驾驶五个领域,分门别类地介绍了各种现实中已经存在或即将实现的人工智能应用,最后阐述了人工智能与人类社会如何相互影响及可能存在的问题。全书内容丰富,堪称人工智能的“博览会”。

图书摘要

版权信息

书名:写给青少年的人工智能 应用

ISBN:978-7-115-58377-2

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

著    核桃编程

责任编辑 吴晋瑜

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

这是一本写给青少年看的人工智能科普图书,目的是帮助小读者启蒙科学素养,开阔科学视野,培养科学思维,锻炼动手能力,让小读者了解人工智能的过去、现在和未来,从而更好地融入人工智能时代。通过阅读本书,小读者不仅能了解到“生活中有哪些人工智能”,还会一睹很多人工智能发展的过程和细节:生活中的人工智能都是如何工作的,科学家如何提出问题并想到绝妙的点子,等等。所有这些都旨在激发孩子们的好奇心,帮助他们体会科学研究应具备的精神。

本书从“人工智能为人类服务所需要的功能特点”出发,讲述了图像识别、语音识别和合成、自然语言处理等功能及其实现,并从日常生活、医疗、艺术、农业、无人驾驶五个领域,分门别类地介绍了各种现实中已经存在或即将实现的人工智能应用,最后阐述了人工智能与人类社会如何相互影响及可能存在的问题。全书内容丰富,堪称人工智能的“博览会”。

参与本书编写的成员名单

内容总策划:曾鹏轩 王宇航

执 行 主 编:庄 淼 丁倩玮 陈佳红 孔熹峻

插 画 师:闫佩瑶 林方彪 黄昱鑫 王晶宇

致小读者

小读者们,大家好!我是“核桃编程”的宇航老师。提到“人工智能”(AI),你会想到什么呢?是能听懂你说话的智能音箱语音助手,还是能打败围棋世界冠军的 AlphaGo?是无人驾驶汽车,还是科幻电影里的超能机器人?相信你一定会浮想联翩。人工智能已经渗入我们生活、学习中的方方面面。

为什么这些各不相同的东西都叫作“人工智能”?在《写给青少年的人工智能 起源》一书中,我们探讨了“什么是人工智能”,并沿着人类使用工具的历史,回顾了原始工具以及人工智能的开端——达特茅斯会议,细数了近几十年来人工智能领域的重要发明创造。

那么,科学家们又是怎样研究出这些人工智能产品的呢?在《写给青少年的人工智能 发展》一书中,我们仿佛“进入”了科学家的大脑,沿着他们研究问题的思路,“亲身经历”了人工智能发展的过程,并最终了解常用的几种研究人工智能的思路:让机器学会推理,用机器构建大脑,让机器适应环境,等等。

经过几十年的努力,科学家们“八仙过海,各显神通”,研究出了各种各样的人工智能产品,将人工智能技术应用到了生活、医疗、艺术、农业、商业等领域。在本书中,我们会选取人工智能在各行各业中的典型而有趣的应用,让你了解现在的人工智能到底“智能”到了什么程度、“智能”体现在了哪些方面。

最后,还要告诉你一件好玩的事儿。为了让小读者读得懂、喜欢读,我们把人工智能科学中不好理解的名词和概念,尽可能地用形象的比喻或者贴近生活的类比加以解释,把抽象的知识点用风趣幽默的手绘插画加以诠释。插画中的这些角色可都是“核桃世界”的动漫明星噢,快去和他们打个招呼吧!

小读者们,快来开启你的人工智能启蒙之旅吧!

核桃编程联合创始人

王宇航

导 读

在《写给青少年的人工智能 发展》一书中,我们跟随科学家的思路,了解了人工智能的发展历程,知道了什么是符号主义(推理机器和专家系统)、什么是联结主义(神经网络)以及什么是行为主义(强化学习),还知道了人工智能如何进行思考和决策。

现在,人工智能开始逐渐融入人们生活中的每一个角落。我们希望人工智能可以像人类一样,能感知世界,能和人交流,能理解人类的想法,进而更好地为人类服务,如图0-1所示。

图0-1 让人工智能为人类服务

那么,人工智能到底是如何做到这些的,它在我们的生活中到底起了什么样的作用呢?生活中应用日渐广泛、越来越聪明的人工智能,究竟会对人类产生什么样的影响呢?让我们一探究竟吧!

明察秋毫的人工智能

桃子:禾木,你要是再走路玩手机,就要撞到树了!

禾木:哎呀,这个植物识别软件真是太有意思了,一路上我靠它认识了好多植物呢!

桃子:禾木,你说它这么聪明,应该也算是人工智能吧!

禾木:嗯,我认为是的。摄像头对于人工智能就像眼睛对于人类一样吧!

小核桃:摄像头只是让人工智能具备“看”功能的硬件设备,但只有硬件是不够的,还需要有人工智能算法,这样才能理解看到的内容。下面我们就一起来看看,人工智能到底是如何“看见”的。

人工智能如何“看世界”

眼睛是我们了解外界最重要的器官之一,我们接收的各种信息大部分来自视觉。因此,让人工智能拥有视觉、能识别图像非常重要。那么,如何才能让人工智能看见世界呢?

你可能会想,加个摄像头不就行了?当然没有这么简单,如果只是简单地安装摄像头,那么计算机只能“视而不见”,就好比你看到一篇用完全不懂的文字写就的文章。计算机中的信息都是以二进制数字的形式存储的,摄像头拍摄的内容对于计算机来说也只不过是一串平平无奇的0和1而已,如图1-1所示。无人机可以携带摄像头飞过广阔的大地,但是如果没有盯着屏幕的摄影师,它根本认不出自己正在追踪的斑马;监控摄像头可以覆盖大街小巷,但是如果没有负责监控工作的警务人员,它也认不出隐匿在人群中的嫌疑人,如图1-2所示。

图1-1 图像在计算机中以二进制数字0和1储存

图1-2 摄像头拍摄的视频一般需要人来解读

那么,有什么办法能让计算机真正“看见”呢?人类要看见东西,需要眼睛和大脑的配合,计算机也是如此。除了作为“眼睛”的摄像头,计算机还需要用作“大脑”的人工智能程序去分析摄像头拍摄的内容,如图1-3所示。计算机视觉就是研究如何开发出优秀的程序、让人工智能拥有视觉等问题的技术。和许多其他的重要问题一样,计算机视觉问题也是从人工智能诞生起就困扰着科学家们。还记得我们在《写给青少年的人工智能 发展》一书中提过罗森布拉特用感知机去分辨卡片上的左右标记吗?这其实就是早期对于“如何让机器看见”这个问题的一次探索。

图1-3 人工智能程序就像人类的大脑

不过,直到深度神经网络逐步发展成熟,计算机视觉问题才真正得到了初步解决。

通常来说,计算机视觉主要需要解决四方面的任务:分类、定位、检测和分割。

分类很容易理解,就是去判断这幅图到底属于什么类别,或者是不是我们想要的图像,如图1-4所示。分类虽然简单,但它可是计算机视觉中重要的问题,是其他任务的基础。

如果我们能够判断出这幅图是什么,就可以进行下一步判断——目标在图中的什么位置。在实际应用中,定位一般是采用包围盒的方法实现的,其实就是用一个方框把目标圈起来,如图1-5所示。

图1-4 分类

图1-5 定位

其实这个操作非常常见。大家在用手机里的相机拍照的时候,就会注意到镜头中的人脸周围会自动出现一个方框。这其实就是利用了计算机视觉的图像定位技术。定位人脸之后,相机就会利用算法对人脸进行更精细的拍摄,或者给你“美颜”一下。

检测比定位更进一步。这是因为,在定位目标时,通常只有一个目标,即使有多个目标,通常也是数目固定的,而且是同一种类,但是目标检测更一般化,图像中所出现目标的种类和数目都不确定。也就是说,定位一般是让计算机找出图像中的一只或者几只猫在哪里,但是检测需要计算机找出图像中的猫、狗、小老鼠、鸽子、香蕉、卡车等各种各样不同的目标在什么位置,如图1-6所示。因此,检测是比定位更具挑战性的任务。

不过你一定注意到了,检测和定位其实很像,所以,要进行检测的话,我们可以先只看图像的一部分,就好像从一个小窗口去看图像。虽然原图中可能有很多目标,但是我们从小窗口看到的一般只有一个目标。这样,就把复杂的检测变成了相对简单的定位,只要我们移动小窗口,扫描整个图像,就可以完成检测了,如图1-7所示。

图1-6 检测

图1-7 滑动窗口就像从小窗口看图像

分割比检测更加高级。检测只需要框出每个目标的包围盒,也就是画个框就行,但是分割需要进一步判断图像中的每个像素点是什么,我们可以将其比作“抠图”。

分割也可以分成两个层次,第一层是语义分割。什么是语义呢?顾名思义,就是语言的意义,比如“人”和“车”,这两个词语的意义就不同。在计算机领域,语义是指语言中各个成分的含义。也就是说,语义分割其实是把图像中“含义”相同或相近的物体筛选出来,如图1-8所示。

图1-8 语义分割

比语义分割更高级的是实例分割,也就是说,不仅要分出某一类对象,还要分出不同的个体。让人工智能去看一张合影,它不仅要找出上面哪些像素点是人,还要分出这些像素点到底是禾木还是桃子,如图1-9所示。

图1-9 实例分割

计算机视觉是如何实现的

要让人工智能“看见”世界,现在我们优选卷积神经网络。卷积神经网络是深度神经网络的一种,它的工作原理和人类的视觉神经系统很像。

在用卷积神经网络进行识别之前,我们必须先对它进行训练,或者说让它进行学习,也就是把很多打好标签的图像输入神经网络。打标签就是给图像标记好名字,这就好像我们要认出物体前,势必要见过这个东西或者它的图像,至少要知道它是什么。

卷积神经网络在识别时,会一小个区域一小个区域地扫描图片,然后提取每一部分的特征。这一层神经元得到的特征一般都是线条、轮廓等。你可以认为它是在观察你脸上的每一点细节,耳朵的轮廓是否平滑,眼睛是单眼皮还是双眼皮。

后面的神经元会整合上一层的结构,识别出更复杂的特征,比如某个图案,或者从人脸图像识别出眼睛、耳朵等。

以此类推,卷积神经网络一层层地识别出更复杂、更大的图像,直至认出完整的图像,如图1-10所示。

图1-10 神经网络如何从图像中识别出狗

人工智能为什么能“认出”人脸

计算机视觉技术的一个重要应用就是人脸识别。提到人脸识别,你一定不陌生。我们已经在越来越多的场景中看到了人脸识别的应用,例如,解锁手机用到了人脸识别,输入密码用到了人脸识别,乘坐火车进站登记也用到了人脸识别。

那么,人工智能是怎么“认出”人与人之间的不同呢?总不可能是拍两张照片直接比较是不是同一张照片吧?毕竟只要换个表情、转一下头,得到的照片就不一样了。

人类是根据每个人长相上的差异(不同特征)进行辨认的。这个人的眼睛大一些,那个人的鼻梁高一些,不同的五官组成了不同的脸,如图1-11所示。

图1-11 不同的人有着不同的五官

人工智能没法像人一样凭直觉判断两张脸像还是不像。对它来说,要分辨人脸,必须对人脸照片数据加以精确分析。

进行人脸识别的第一步就是找到人脸的位置,这就是前文提到的定位检测。现在最常用的定位人脸的方法就是方向梯度直方图(Histogram of Oriented Gradient, HOG)。

这又是什么?虽然名字拗口,但实际上它就是一种能够检测物体轮廓的算法。首先我们把彩色图像变成黑白图像,虽然有无颜色并不影响我们辨认人脸,但是去掉颜色可以减少识别的干扰。

然后我们把图像分成一个个小格子,用箭头表示小格子中图像明暗是如何变化的,最终就可以得到HOG图,如图1-12所示。虽然对于人类来说,HOG图不怎么好辨认,但是对于计算机来说,在HOG图中,人脸的五官等关键信息就变得更加明显啦!这样计算机就可以很快找到人脸。

图1-12 “人工智能之父”明斯基的图像和对应的HOG图

为了在HOG图中找到人脸,我们需要利用数学算法找到图中和已知的人脸HOG图最像的部分。这些HOG图需要从其他已知的面部数据中训练提取。

找到人脸之后,人工智能又会面临一个新的问题。在采集人脸信息时,一般只有正面的图像。不过,你可以用支持人脸解锁功能的手机试一试,即使解锁时侧着头,也同样可以解锁成功。但是,正所谓“横看成岭侧成峰,远近高低各不同”,即使是同一张脸,从不同的角度看起来也不一样。除了方向角度,表情、光线等都会让人脸图像发生变化。那么,如何鉴别变形前后是同一张人脸呢?

通常情况下,两个人肯定长得不一样,但都长着一个鼻子、一张嘴、两只眼睛和两只耳朵。也就是说,人脸有很多相同点。科学家们由此想到,可以用人脸上一些普遍存在的特征点作为人脸的基准,适当调整扭曲图像中的人脸,让被识别的人脸“正”起来。

经过反复研究,科学家们找到了下巴、眉毛、鼻子等特征点,其中最常用的有68个,如图1-13所示,图上的数字就是这些特征点的编号(注意:编号是从0开始的)。有了这些特征点,我们就可以知道眼睛和嘴巴在哪儿了。然后我们按照一定规律把图像进行旋转、缩放等调整,使得眼睛和嘴巴尽可能地靠近中心,让各个特征点尽可能和正面的情况对齐,这样就可以把脸变得“正”起来。当然,我们也可以给人脸标注更多的特征点,让人工智能的定位更加精确——有些公司的人脸识别系统有上百个特征点。

图1-13 人脸识别中最常用的68个特征点

把人脸对齐之后,我们就要做最关键的一步了——判断这到底是谁的脸。这就要对我们刚得到的人脸数据和之前采集的人脸库中的数据加以比较,找到最像的那个。如何判断像不像呢?我们可以比较两张图像中耳朵的大小、鼻子的长度、眼睛之间的距离等。

如果要精确地进行数值化比较,人工智能也许比我们更“懂”人脸。利用我们前面提到的卷积神经网络,人工智能可以自动测量人脸上的大量数据。常见的做法是测量128个数据,对于计算机来说也就是128个数字。鉴于神经网络的特点,我们无法理解这128个特征数字到底是什么意思,但这并不重要,人工智能可以理解。只要利用一定的数学方法找到和这128个数字最接近的另一组数字,计算机就可以迅速成功地找到这张人脸的主人。

人工智能如何分辨真人和照片

人脸识别非常方便,但是你也许会忍不住嘀咕:“如果有人拿照片来假冒我,该怎么办?人脸识别能分辨照片和真人吗?”

这个担心非常有道理。实际上,最简单的人脸识别系统确实存在你担心的这个问题,只要拿一张照片就很容易骗过它。尤其是在社交平台非常发达的今天,想要获取某个人的照片通常也不是特别困难。所以,我们还需要用活体检测技术来区分真人和照片。

最常用的活体检测技术可以检测人的面部动作。这个很容易理解,真实的人脸是不会绝对静止的。人的眼睛、嘴巴还有脸颊免不了会有一些小动作(又称为微表情),但照片显然不会动,所以这些微表情就可以作为算法辨认人脸真伪的根据。

不过,攻击者也可以升级他们的手段,那就是把照片换成视频。针对这个办法,我们可以进行动作检测,即随机地要求人来做出特定的动作,比如这次让你眨眨眼,下次让你晃晃头,再下次说某个特定的词来检测嘴型,还可以配合声音,如图1-14所示。不过,如果攻击者的技术进一步升级,提前准备好所有的动作视频来应对活体检测系统,那还是很危险的。此外,让用户做动作,毕竟还是让使用过程变得更烦琐了。

另一种思路的原理是利用照片和视频很难完全还原真实的人脸图像。设备显示的、打印出的图像一般是由三原色或者更多颜色的像素点组成的,相比真实人脸,其精度有限,呈现图像的原理也不同。因此,照片和视频通常会有一些瑕疵,例如分辨率不高,缺少细节纹理,颜色有偏差,图像有点变形,在摄像头下还可能会产生像水波一样的摩尔纹等。真正的人脸自然不会有这些瑕疵。这些微小的差异,是人眼很难注意到的,却逃不过人工智能算法的“火眼金睛”。不过,攻击者也可以通过精心制作高分辨率的照片和视频来欺骗活体检测系统,随着打印和显示技术的进步,这样的欺骗会变得越来越容易实现。

图1-14 动作检测是人脸识别活体检测的一种方法

还有一种思路是利用真正的人脸所独有的一些性质。比如,人脸是立体的,但是照片和视频都是平面的,如图1-15所示,只要能检测立体结构,就可以有效地分辨真假。另外,人脸有温度,因此我们可以用检测红外线的方法来判断是不是真正的人脸。

图1-15 立体结构检测是人脸识别活体检测的另一种方法

保障人脸识别安全性的活体检测和针对活体检测的攻击破解攻击总是一种对抗关系。防守方不断研究出更坚固的“盾”,攻击者也在不断制造更锋利的“矛”。人脸识别的安全性总体来说还是不如传统的密码,在使用人脸识别作为安全认证的地方,必须结合其他手段使用。

计算机视觉都能做什么

对于人类来说,视觉是感知世界最重要的途径之一;对于人工智能来说,同样如此。那么,从“黑暗”走向“光明”的人工智能,都能做到哪些事呢?

把图像中的文字快速输入计算机

利用计算机技术识别图像中的文字已经是很常见的应用了。遇到不会的单词,我们可以用手机拍照,然后用具有识别功能的App识别文字并进行翻译;遇到不会做的题,也可以通过拍照来搜索解题方法(借助一些App);看到优美的文章,也可以拍照并将其直接转换成电子文档,分享给更多的人。人们可以通过类似方法来识别同事的名片,进而快捷地将其加入通讯录。

从图像中识别文字,又被称为OCR技术,已经在人们的生活中得到了广泛应用。

如何识别不认识的植物

外出游玩时,你看到一朵美丽的花,想找一些种子,自己也种上一盆,但却因为不知道它的名字而未能如愿,真是可惜!不过,现在人们开发了很多可以识别植物的App。只要拿起手机,简单地拍一张照片,马上就能知道这是什么,如图1-16所示。

图1-16  人工智能可以通过拍照识别植物

运用人脸识别技术抓捕逃犯

如果你喜欢听华语老歌,也许听说过“歌神”张学友。不过这位歌手还有一项特殊的成就,那就是公安干警通过他的演唱会抓捕了很多逃犯,他因此被戏称为“逃犯克星”。据统计,在张学友2018年世界巡回演唱会上,先后有80余名犯罪分子落网。

之所以能抓到这么多逃犯,无疑离不开广大公安干警的努力和付出。不过值得一提的是,这其中用到了人脸识别系统。一场演唱会经常会有几万人参加,如果只靠人来一一识别谁是逃犯,那实在是太难了。但是,有了人脸识别系统,就像有了一双火眼金睛,可以轻松地从人群中找出犯罪分子。

类似的系统不仅可以安装在演唱会现场,还可以安装在火车站、广场等公共场所。综合利用大数据、人工智能等技术和大量的监控摄像头,我国已经建成了天网系统,能够让犯罪分子无处可逃、难以遁形,让我们的生活变得更加安全。

不过,人脸识别系统也并非万无一失,遇到长得像的人偶尔也会犯错误。2019年,美国一名男子就因为人脸识别系统认错了人而被当成小偷关了10天。这样的错误也不是个例,所以人脸识别系统在抓犯人方面只能起辅助作用,最终还是要靠公安干警的辛勤工作来取得充足的证据。

美颜相机是怎么美颜的

“爱美之心,人皆有之。”不过有的时候,我们的长相距离自己心目中的完美形象总是差那么一点点。这个时候,美颜相机就可以帮我们在拍照的时候“实现”变美的愿望。

不管是想让眼睛大一点,还是想让鼻梁挺一点,人工智能都可以做到,甚至可以在视频直播的时候实时进行修容。这就用到了人脸识别技术,而其中有一个重要操作就是根据人脸上的特征点进行校准和调整。美颜相机也是根据人脸上的特征点进行实时跟踪,进而实现合理的调整。

除了直接提升颜值,类似的软件还可以给你“戴”上喜欢的装饰。

美颜相机还有更高级的玩法,那就是直接“换脸”!通过计算机视觉技术,换上的脸可以和你一样做出各种表情,甚至可以换成老虎、狮子的脸,如图1-17所示。

图1-17 人工智能可以在视频聊天时“换脸”

从相册中快速找到自己的照片

现在的智能手机都有照片自动分类的功能,其中一些可以根据照片中的人脸来分类。经过这样的处理,我们再想找到某个人的照片可就方便多了。

相关图书

GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
扩散模型从原理到实战
扩散模型从原理到实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能(第3版)
人工智能(第3版)
ChatGPT写作超简单
ChatGPT写作超简单

相关文章

相关课程