人工智能技术与大数据

978-7-115-50815-7
作者: 阿南德·德什潘德(Anand Deshpande)
译者: 赵运枫黄伟哲
编辑: 吴晋瑜

图书目录:

详情

本书分为两个部分,共12章。第1章到第5章介绍了大数据的本体论、机器学习的基本理论等内容,为具体场景、算法的实践奠定了基础。读者可以了解到,在工程实践中,对大数据的处理、转化方式与人类学习知识并将其转化为实践的过程是多么相似。在对机器学习的介绍中,会对其数学原理、训练过程做基本的讲解,并辅以代码帮助读者了解真实场景中技术工具的使用。第6章到第12章提供了多个不同的用例,章节之间彼此独立,介绍了如何用人工智能技术(自然语言处理、模糊系统、遗传编程、群体智能、强化学习、网络安全、认知计算)实现大数据自动化解决方案。 如果读者对 Java 编程语言、分布式计算框架、各种机器学习算法有一定的了解,那么本书可以帮助你建立一个全局观,从更广阔的视角来看待人工智能技术在大数据中的应用。如果读者对上述知识一无所知,但是对大数据人工智能的技术、业务非常感兴趣,那么可以通过本书获得从零到一的认知提升。

图书摘要

版权信息

书名:人工智能技术与大数据

ISBN: 978-7-115-50815-7

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


著    [印度]阿南德•德什潘德(Anand Deshpande) [印度]马尼什•库马(Manish Kumar)

译    赵运枫 黄伟哲

责任编辑 吴晋瑜

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315


Copyright © 2018 Packt Publishing. First published in the English language under the title Artificial Intelligence for Big Data: Complete guide to automating Big Data solutions using Artificial Intelligence techniques.

All Rights Reserved.

本书由美国Packt Publishing公司授权人民邮电出版社有限公司出版。未经出版者书面许可,对本书的任何部分不得以任何方式或任何手段复制和传播。

版权所有,侵权必究。


本书分为两个部分,共12章。第1章到第5章介绍了大数据的本体论、机器学习的基本理论等内容,为具体场景、算法的实践奠定了基础。读者可以了解到,在工程实践中,对大数据的处理、转化方式与人类学习知识并将其转化为实践的过程是多么相似。在对机器学习的介绍中,会对其数学原理、训练过程做基本的讲解,并辅以代码帮助读者了解真实场景中技术工具的使用。第6章到第12章提供了多个不同的用例,章节之间彼此独立,介绍了如何用人工智能技术(自然语言处理、模糊系统、遗传编程、群体智能、强化学习、网络安全、认知计算)实现大数据自动化解决方案。

如果读者对 Java 编程语言、分布式计算框架、各种机器学习算法有一定的了解,那么本书可以帮助你建立一个全局观,从更广阔的视角来看待人工智能技术在大数据中的应用。如果读者对上述知识一无所知,但是对大数据人工智能的技术、业务非常感兴趣,那么可以通过本书获得从零到一的认知提升。


都说互联网行业擅长“造”概念,把一个早已存在的事物用一个新词去包装,仿佛完成了一次创新。大数据(Big Data)是近些年最热门的话题之一,在更新迭代如此迅速的互联网领域,这个概念算得上“经久不衰”了。这是为什么呢?我想搞清楚这个问题。要知道,利用数据进行分析是人类生产生活实践中一直都在使用的方式。

何况这个技术一点也不新。仅就工具而论,这两年火起来的Apache Flink,实际上第1版的发行时间比Apache Spark还要早上几年。大数据平台中最重要的工具Hadoop,开发者们在十几年前就完成了基本框架的开发,谷歌的“老三篇”论文发布更要在这之前。现在人人都在用Hive做数据仓库,但是20世纪90年代没有Hive时,人们照样用类似的思想,用不一样的工具,做着同样的事情。哪怕是当前最热、最新的人工智能技术,也早在几十年前就开始了酝酿。而这一切,早在“大数据元年”到来之前,就在悄悄地发生着。

所谓大数据时代,除了带来更多、更丰富的数据,还带来了什么呢?直到我读了这本书,才算是有了一个初步清晰的答案。随着数据量的增大、数据流转速度的增快、数据多样性的增加,人们重新意识到了一件事——数据即信息,而对信息的处理可以将其转变为知识,运用知识就可以获得价值。在数据量不大的过去,人们可获取的知识是片面的,产生的价值也是有限的。在通信、网络、存储等各方面技术都得以发展的今天,人们获得了前所未有的数据量和计算能力。在传统企业中,人们更多地凭借经验来做出决策,数据只是辅助;而在创新型企业中,人们可以彻彻底底地依靠数据驱动业务,进一步还会发生公司组织方式的转变。这便是产业数字化转型的核心。

介绍大数据与人工智能技术的书有很多。有的介绍平台架构,有的分享最佳实践,有的深入源码分析。很多书都有着深刻的洞见,并且十分实用。但是对于初入这个行业的人来说,若不了解它们如何影响人们认知世界的方式,很容易陷入“只研究工具如何使用”的沼泽中。本书不仅对大数据与人工智能有一个综述性的介绍,也提供了多个不同场景中的用例。相信读者读完本书后,会有一种豁然开朗的感觉:“原来人工智能技术在大数据中的应用就是这样的啊!”

本书由赵运枫与黄伟哲共同翻译,因个人水平有限,书中难免有疏漏之处,望广大读者予以指正。

黄伟哲

于成都


阿南德•德什潘德(Anand Deshpande)是Datametica Solutions公司的大数据交付主管。他负责与客户合作制订数据策略,并帮助他们的公司成为数据驱动型企业。他拥有丰富的大数据生态系统技术经验,经常在各种活动中就数据科学和大数据发表演讲,对数据科学、认知智能以及用于数据管理和分析的算法有着浓厚的兴趣。

“本书及我生命中所有有价值的东西都离不开我的精神导师、父母和姻亲的祝福,离不开我的妻子Mugdha、女儿Devyani和Sharvari无条件的支持和爱。感谢本书另一位作者Manish Kumar的合作。非常感谢Rajiv Gupta先生和Sunil Kakade先生的支持和指导。”

马尼什•库马(Manish Kumar)是Datametica Solutions公司的高级技术架构师。作为一名数据、解决方案和产品架构师,他拥有超过11年的数据管理行业经验,经常就大数据和数据科学发表演讲。他在构建有效的ETL管道、通过Hadoop实现安全性、实现实时数据分析解决方案,以及为数据科学问题提供创新和最佳的可能解决方案方面拥有丰富的经验。

“感谢我的父母N.K. Singh博士和Rambha Singh博士,感谢他们的祝福。感谢我的妻子Swati Singh和我可爱的儿子Lakshya Singh,在写作本书期间,我没能很好地陪伴他们,感恩有他们的支持。感谢我的合著者和朋友Anand Deshpande先生,并向给予我们支持的Niraj Kumar先生和Rajiv Gupta先生表示感谢。”


阿尔本索•科莱塔(Albenzo Coletta)是机器人、国防、航空电子和电信领域的高级软件工程师和系统工程师。他拥有计算机器人硕士学位。他是人工智能领域的工业研究人员、COMAU机器人通信系统的设计师和业务分析师。他设计了一个针对财务问题的模糊神经系统(与Sannio大学合作),还为几个意大利重要的编辑团体设计了一个推荐系统。他同时也是UCID(经济和财政部)的顾问。他开发了一个可移动的人机交互系统。

詹卡洛•扎克卡恩(Giancarlo Zaccone)在管理科学和工业领域的研究项目方面拥有超过10年的经验。他曾在CNR(国家研究委员会)担任研究员,在并行数值计算和科学可视化项目工作。他是一家咨询公司的高级软件工程师,为太空和国防应用开发和测试软件系统。他拥有意大利那不勒斯费德里克二世(Naples Federico Ⅱ)大学的物理学硕士学位和罗马大学(La Sapienza of Rome)的科学计算二级PG硕士学位。


赵运枫 数据工程师/架构师,对大数据、金融科技、信用风控、知识图谱有浓厚兴趣。目前就职于新希望金融科技有限公司。联系邮箱:zyf0880@163.com。

黄伟哲  大数据开发工程师、软件咨询师,大数据与人工智能技术爱好者,擅长敏捷软件开发与交付。目前就职于思特沃克(ThoughtWorks)。联系邮箱:weizhe.huang@ thoughtworks.com。


人们正处于数字时代发展的十字路口,每个人手中都掌握着巨大的计算能力和数据——当前的电子数据量呈指数级增长。在接触数据相关技术的6年多里,我们看到了一个快速的转变,即企业愿意利用数据资产,从最初的获取洞见,到最终的获取高级分析。最初听起来像炒作的东西在很短的时间内变成了现实。大多数公司已经意识到,数据是保持话语权所需的最重要资产。作为大数据分析行业的从业者,我们通过与不同规模、不同区域和不同功能领域的客户合作,已经真切地看到了这种转变。它们都利用开放分布式开源计算存储数据资产,并通过执行高级分析预测企业未来趋势和业务风险。

本书旨在分享我们长期以来获得的知识,以期大数据领域的新从业者能从我们的经验中受益。我们认识到,人工智能领域是广阔的,它只是人类历史上一场革命的开始。我们将看到人工智能成为每个人生活中的主流,它会通过补充人类的能力来解决一些长期困扰我们的问题。本书对机器学习和人工智能的理论做了全面的介绍,从最基本的知识到用认知智能构建应用程序,采用一种简单的方法来说明核心概念和理论,并给出了图解和示例。

如果读者从本书中受益,并将他们的学习和创新快速推进到令人兴奋至极的某个计算领域,创建一个真正的智能系统,将人的能力提高到下一个层次,这对于我们来说将是最大的鼓舞。

本书是为那些对机器学习、人工智能和大数据分析领域充满好奇的读者准备的。本书并不要求读者对统计学、概率论或数学有深入的了解。这些概念通过易于遵循的示例进行了说明。如果读者对Java编程语言和分布式计算框架(Hadoop/Spark)的概念有基本的了解,那么有助于更好地阅读本书。本书对数据科学家、IT产品和服务公司的技术人员、技术项目经理、架构师、业务分析师以及任何处理数据资产的人都很有用。

第1章,大数据与人工智能系统。本章为数据革命伊始人类智能和机器智能的融合提供背景。人们有能力去消费和处理以前不可能达到的数据量。本章将解释人们那些决定性的力量和行为如何影响生活质量,以及如何转化成机器世界。在深入了解人工智能的基础知识之前,本章将介绍大数据的范式及其核心属性。接下来,本章将提炼出“大数据框架”的概念,并研究如何利用它们在机器中构建智能。最后,本章将展示大数据和人工智能的一些令人兴奋的应用。

第2章,大数据本体论。本章会把数据的语义表示引入知识资产。如果想要实现人工智能,语义化和标准化的世界观是必不可少的。人工智能从数据中获取知识,利用上下文知识进行洞察并做出有意义的行动,以增强人类的能力。这种语义的世界观被表示为本体论。

第3章,从大数据中学习。本章展示机器学习的广泛分类,如监督学习和无监督学习,并介绍一些广泛使用的基本算法,最后概述Spark编程模型和Spark的机器学习库(Spark MLlib)。

第4章,大数据神经网络。本章介绍神经网络的相关内容,并探索它们如何随着分布式计算框架计算能力的提升而发展。神经网络从人脑中得到灵感,帮助人们解决一些非常复杂的问题,这些问题是传统数学模型无法解决的。

第5章,深度大数据分析。本章通过探索深度神经网络和深度学习的组件——梯度下降和反向传播,将人们对神经网络的理解提升到一个新的层次。本章将介绍如何构建数据准备管道、实现神经网络体系结构和超参数调优,并通过使用DL4J库的示例来探索用于深度神经网络的分布式计算。

第6章,自然语言处理。本章介绍自然语言处理(Natural Language Processing,NLP)的一些基本原理。当人们构建智能机器时,与机器的接口必须尽可能自然,就像日常的人类交互一样。NLP是实现这一目标的重要步骤之一。本章介绍文本预处理、从自然语言文本中提取相关特征的技术、自然语言处理技术的应用,以及使用自然语言处理实现情感分析。

第7章,模糊系统。本章提到,如果人们想要构建智能机器,一定程度的模糊性是必不可少的。在真实的场景中,虽然模型(如深度神经网络)需要实际的输入,但是它不能依赖精确的数学和定量输入来让系统工作。上下文信息的不完整、特征的随机性和对数据的忽略使得真实场景的许多特性被放大,不确定性更加频繁。人类的推理能力足以处理现实世界的这些属性。类似的模糊性对于构建能够真正补充人类能力的智能机器至关重要。本章还会介绍模糊逻辑的基本原理和它的数学表示,以及一些模糊系统的真实实现。

第8章,遗传编程。大数据挖掘工具需要借助高效的计算技术来提高效率。在数据挖掘上使用遗传算法可以创建具有强大健壮性、计算高效的自适应系统。事实上,随着数据呈指数级增长,数据分析将花费更多的时间,并反过来影响吞吐量。此外,由于它们的静态特性,复杂的隐藏模式常常被忽略。本章展示如何使用“基因”高效地挖掘数据,为此还将介绍遗传编程的基础知识和基本算法。

第9章,群体智能。本章分析使用群体智能解决大数据分析问题的潜力——结合群体智能和数据挖掘技术,可以更好地理解大数据分析问题,设计更有效的算法来解决现实世界中的这类问题。本章展示如何在大数据应用中使用这些算法,并介绍该领域的基本理论和一些编程框架。

第10章,强化学习。本章涵盖了作为机器学习范畴之一的强化学习。通过强化学习,智能代理根据它在特定环境中采取的行动所获得的奖励来学习正确的行为。本章介绍强化学习的基本原理、数学理论以及一些常用的强化学习技术。

第11章,网络安全。本章分析维生管线的网络安全问题。数据中心、数据库工厂和信息系统工厂不断受到攻击。在线分析可以检测这些潜在的攻击,以确保基础设施的安全。本章还将阐释安全信息和事件管理(Security Information and Event Management,SIEM)的概念,强调管理日志文件的重要性,并解释它们如何带来好处。本章还将介绍Splunk和ArcSight ESM系统。

第12章,认知计算。本章把认知计算作为人工智能发展的下一个层次。通过利用人类的5种主要感官和大脑作为第六感,认知系统的新时代开始了。本章展示人工智能的各个阶段,展示它朝着强人工智能发展的自然进程,以及实现它的关键推动者。大数据在分布式计算框架中带来了巨大的数据量和处理能力,本章会介绍认知系统的历史,回顾认知系统是如何随着大数据的出现加速发展的。

本书的章节顺序是这样安排的:读者可以从基础知识开始,逐步了解大数据的人工智能,最终走向认知智能。第1章“大数据与人工智能系统”到第5章“深度大数据分析”,涵盖了机器学习的基本理论,为人工智能的实践方法奠定了基础。从第6章“自然语言处理”开始,我们将理论概念化为实际的实现和可能的用例。为了充分利用本书,建议按顺序阅读前5章。从第6章“自然语言处理”开始,读者可以选择任何感兴趣的话题,按照喜欢的顺序阅读。

CodeInText:表示文本中的代码字、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄。下面是一个例子:挂载下载的WebStorm-10*.dmg,将磁盘映像文件作为系统中的另一个磁盘。

代码块设置如下:

StopWordsRemover remover = new StopWordsRemover()
  .setInputCol("raw")
  .setOutputCol("filtered");

任何命令行输入或输出如下:

$ mkdir css
$ cd css

黑体加粗:表示新术语、重要的词或在屏幕上看到的词。例如,菜单和对话框中出现的词:从Administration面板中选择System info

 

警告或重要注意事项会以这样的形式出现。

 

 

提示和技巧会以这样的形式出现。


本书由异步社区出品,社区(https://www.epubit.com/)将为读者提供后续服务。

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎读者将发现的问题反馈给我们,帮助我们提升图书的质量。

当读者发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”,输入勘误信息并单击“提交”按钮即可,如下所示。本书的作者和编辑会对读者提交的勘误进行审核,确认并接受后,将赠予读者异步社区的100积分(积分可用于在异步社区兑换优惠券、样书或奖品)。

我们的联系邮箱是contact@epubit.com.cn。

如果读者对本书有任何疑问或建议,请发送邮件给我们,并请在邮件标题中注明书名,以便我们更高效地做出反馈。

如果读者有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区在线提交投稿(直接访问www.epubit. com/selfpublish/submission即可)。

如果读者所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果读者在网络上发现针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请将怀疑有侵权行为的链接发邮件给我们。这是对作者权益的保护,也是我们持续为广大读者提供有价值的内容的动力之源。

“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT技术图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT技术图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社近30年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、AI、测试、前端、网络技术等。

异步社区

微信服务号


人脑是宇宙中最复杂的“机器”之一,它历经千万年进化到了现在的状态。持续不断的进化使人们能够理解自然的内在进程及其因果关系。基于这些理解,人们能够从自然中学习,去设计相似的机器设备和机制来不断提升生活品质,例如,摄影机的设计灵感就源自对人眼的理解。

从根本上讲,人类的智能基于感知存储处理行为这一范式工作。人们通过感应器官收集、存储(记忆)、处理周围的信息以形成信念/模式/链接,并利用这些信息来做出基于情境和刺激的行为。

目前,人类正处于一个在进化上非常有趣的关键时刻,并且已经找到了一种以电子格式存储信息的方式。我们也正在努力设计能模仿人脑的机器,用于感知、存储和处理信息,从而做出有意义的决策,补充人类的能力。

本章旨在介绍数据革命伊始人类智能和机器智能融合的背景。人们有能力去消费和处理前所未有的大量数据。通过阅读本章,读者可以了解那些决定性的力量和行为如何影响了人们的生活质量,以及它们如何转化成了机器世界。在深入了解人工智能(Artificial Intelligence,AI)以及它的基本原理前,读者可以先来了解大数据的范式及其核心属性。本章将对大数据框架概念化,并对如何利用这些框架将智能构建到机器中形成观念,最后介绍大数据和人工智能一些令人兴奋的应用。

本章主要包括以下内容:结果金字塔、人类大脑和电子大脑的对比,以及大数据概述。

人类做决策时需要将生活质量纳为考量因素。根据领导力伙伴顾问(Partners in Leadership)公司的说法,经验形成信念,信念产生行为,行为导致结果(积极的、消极的、好的或坏的)。这可以表示为结果金字塔,如图1-1所示。

图1-1 结果金字塔

结果金字塔理论的核心是,相同的行为无法产生更好或不同的结果。以一个组织为例,这个组织无法实现其既定目标,并且已经几个季度都偏离了它的愿景。这是管理层和员工们采取的某些行为的结果。如果这个团队继续持有同样的信念,并转化为相似的行为,这个公司将无法看到其结果发生明显改变。为了达成既定目标,需要对这个团队的日常行为做出根本性的改变,这只能通过一套新的信念来实现。这意味着对该组织进行文化变革。

同样,在计算演化的核心,人造机器无法在传统的操作(行为)、模型(信念)和数据(经验)上进化得更具效用。如果人类的智能和机器的能力开始互补,那么我们可发展得更好。

尽管机器的智能成长很快,但人脑的某些能力是机器无法比拟的。

人脑具有不可思议的能力,它利用所有感觉并行地收集感官输入。人们能同时看、听、触、尝、嗅,并且实时处理这些输入。在计算机术语中,这些是传输信息的不同数据源,而人脑能够处理这些数据并将其转化为信息和知识。人脑有一定程度的复杂度和智能,可根据情境对输入产生不同的反应。

例如,如果皮肤感觉到外界温度很高,则大脑就会在淋巴系统内产生引发出汗的触发器,从而控制体温。其中许多反应都是实时地被触发而无须有意识的行为。

大脑会有意或无意地把从感觉器官收集的信息存储起来,并高效过滤掉那些对生存无关紧要的信息。尽管人脑的存储容量还没有确定值,但人们相信它的存储容量与计算机中的TB级别差不多。人脑的信息检索机制也高度复杂且高效。大脑可以根据上下文检索有价值和相关的信息。据了解,大脑以链表的形式存储信息,其中对象通过关系彼此连接,这是数据作为信息和知识可用的原因之一,以便在需要时使用。

人脑可以读取感官输入,使用先前存储的信息,在不到1ms的时间内做出决策。神经元网络和它们之间的连接使这样的决策过程成为可能。人脑有1000亿个神经元,这些神经元被千万亿个突触连接在一起。它们协调成数十万种身体内部与外部的处理过程,对环境信息做出反应。

人脑感知、存储和处理信息需要的能量更少。与等效的电子设备功率要求相比,人脑对能量(或功率)的要求是微不足道的。随着数据量的增长,以及人工机器处理能力的要求不断提高,我们需要考虑对人脑的能量利用进行建模。计算模型需要从根本上转向量子计算,最终转向生物计算。

随着计算机处理能力的提高,计算机在某些方面要比人脑好得多,我们将在下面几节中进行探讨。

“电子大脑”(计算机)能以极快的速度阅读和存储大量的信息。存储容量呈指数级增长。信息很容易从一个地方复制和传输到另一个地方。用于分析、模式提取和建模的信息越多,预测就会越准确,机器也会变得更加智能。当所有因素保持不变时,跨机器的信息存储速度是一致的。然而,就人脑而言,存储和处理能力因个体而异。

“电子大脑”可以用蛮力处理信息。分布式计算系统可以在几毫秒内扫描/排序/计算,并在非常大的数据量上运行各种类型的运算。人脑无法与“电子大脑”的蛮力相比。

“电子大脑”很容易联网和协作,以增加集体存储和处理能力。集体存储可以实时协作并产生预期的结果。虽然人脑可以协作,但在这方面无法与“电子大脑”相比。

人工智能正在寻找并利用人脑与“电子大脑”这两者的优点来增强人类的能力。将人脑的复杂性和效率与计算机的蛮力结合在一起,可以产生智能机器,解决人类面临的一些最具挑战性的问题。届时,人工智能将补充人类的能力,并通过促进集体智能,向和谐社会迈进一步。人工智能的例子有流行趋势预测、基于DNA采样和分析的疾病预防、自动驾驶汽车、在危险环境下工作的机器人,以及为不同能力的人提供的机器助手等。

在机器学习和人工智能领域中,采用统计和算法处理数据已经流行了很长一段时间。然而,直到有了大量的可用数据和海量的处理速度(即大数据),其功能和适用场景才得以拓展。1.4.1节将介绍一些大数据的基础知识。大数据的可用性加快了人工智能和机器学习应用的发展和演变。人工智能在大数据出现前后的对比如表1-1所示。

表1-1 人工智能在大数据出现前后的对比

大数据出现前的人工智能

大数据出现后的人工智能

有限数据集的可用性(MB)

不断增长的数据集的可用性(TB)

样本数量有限

大量样本可提高模型准确性

无法在毫秒内分析大数据

大数据分析(以ms为单位)

面向批次

实时

缓慢的学习曲线

加速的学习曲线

有限的数据源

异构和多种数据源

大多数是基于结构化的数据集

基于结构化/非结构化/半结构化的数据集

人工智能的主要目标是在机器中实现类似人类的智能,并创建收集数据的系统,对数据进行处理,创建模型(假设),预测或影响结果,最终改善人类生活。以大数据为金字塔的核心,可以实时获得来自不同来源的海量数据集。这将为真正增强人类能力的人工智能打下一个坚实的基础,如图1-2所示。

图1-2 以大数据为核心的金字塔

“我们没有更好的算法,只有更多的数据。”

——皮特·诺维格(Peter Norvig),谷歌研究总监

在字典中,数据被定义为收集在一起以供参考和分析的事实与统计数字。存储机制在人类进化过程中有了很大的发展,如雕刻、在叶子上手写的文字、穿孔卡片、磁带、硬盘、软盘、CD、DVD、SSD、人类DNA等。每种新媒介的出现使人们能够在更少的空间中存储更多的数据,这是朝着正确的方式转变。随着互联网和物联网的出现,数据量呈指数级增长。

 

数据量呈爆炸式增长,过去两年间创造的数据比人类整个历史上的还要多。

“大数据”一词用来表示不断增长的数据量。除了数据量大,这个词还包括高速、多样和价值这3个属性。

(1)大量。这代表了呈指数级增长的数据量。现在人们通过越来越多人造物和自然物体之间的接口收集数据。例如,一位病人的日常就诊现在能产生MB级别的电子数据,一位普通的智能手机用户每天至少产生几GB的数据,一次点到点的飞行能产生半TB的数据。

(2)高速。这代表了数据产生的速度,以及对某些关键操作进行准实时数据分析的需要。人们用传感器收集来自自然现象的数据,将数据进行处理后用来预测飓风或地震。医疗保健是关于数据生成速度一个很好的例子,分析和行动是关键,如图1-3所示。

图1-3 持续增长的数据量与速度

(3)多样。这代表了数据格式的多样。在历史上,大多数电子数据集都是结构化的,并且适合数据库表(列和行)。然而,现在我们生成的超过80%的电子数据集不是结构化的,如图像、视频和语音数据文件。有了大数据,我们就可以分析绝大多数结构化、非结构化和半结构化的数据集。

(4)价值。这是大数据最重要的方面。数据只有产生可操作的洞见时才有价值。记住结果金字塔的结论——行为导致结果。毫无疑问,数据是这种可操作的洞见的关键。然而,系统需要快速地发展,以便能够分析数据、理解数据中的模式,并基于情境背景的细节,提供最终能够产生价值的解决方案。

存储和处理这些海量数据的机器与机制随时间发生了巨大的变化。下面简要地看看机器(简单地说就是计算机)的发展。在大部分发展进程中,计算机都是迟钝机器,而不是智能机器。计算机的基本构件是中央处理单元(Central Processing Unit,CPU)、随机存储器(临时内存)和磁盘(持久存储)。CPU的核心组件之一是算术逻辑单元(Arithmetic and Logic Unit,ALU)。这个组件能够执行数学计算的基本步骤和逻辑操作。有了这些基本能力,传统计算机就有了更强大的处理能力。然而,它们仍然是没有任何内在智能的迟钝机器。这些计算机非常擅长使用蛮力执行预定义的指令,并为未定义的场景抛出错误或异常。这些计算机程序只能回答它们要解决的特定问题。

尽管这些机器可以处理大量的数据并执行繁重的计算任务,但总是被限制在它们被设计要做的事情上。例如,自动驾驶汽车就存在很大的局限。如果计算机程序按照预定义的指令工作,那么通过编写程序的方式来让汽车处理所有的情况几乎是不可能的。要想在所有路况下驾驶汽车,就需要花费大量时间去编写程序。

传统计算机对未知或非编程情况的响应能力有限,这导致了一个问题:机器能被开发得像人类一样思考和进化吗?需要记住的是,人们在学习开车的时候,只是在一些特定的情况和特定的道路上驾驶它。人脑能非常快速地学会对新情况做出反应,并触发各种操作(休息、转弯、加速等)。这种好奇心促进了传统计算机向人工智能机器的进化。

 

传统上,人工智能系统的发展是以创建专家系统为目标的,这些专家系统展示智能行为,并在每一次交互和结果中学习,类似于人脑。

1956年,“人工智能”这个词被创造出来。尽管在这个过程中有一些大大小小的发展,但20世纪的最后10年才标志着人工智能技术的显著进步。1990年,出现了一些机器学习算法,这些算法的原理包括基于案例的推理以及自然语言理解与翻译。1997年,当计算机“深蓝”击败当时的世界象棋冠军加里·卡斯帕罗夫(Gary Kasparov)时,机器智能的发展来到了一个重要的里程碑。此后,人工智能系统又取得了很大的进步,以至于一些专家预言人工智能最终将在所有方面击败人类。本书将着眼于构建智能系统的细节,并了解核心手段与可用的技术。我们将共同参与人类历史上最伟大的革命之一。

从根本上说,智能,尤其是人类智能,是一个不断进化的现象。当应用于感官输入或数据资产时,智能通过4个“P”进行演化:感知(Perceive)、处理(Process)、持久化(Persist)和执行(Perform)。为了开发人工智能,需要用同样的循环方法为机器建模,如图1-4所示。

图1-4 为机器建模的循环方法

1.智能的类型

以下是人类智能的一些大致分类。

(1)语言智能。能够将单词与对象联系起来,并使用语言(词汇和语法)来表达意思。

(2)逻辑智能。能够计算、量化和执行数学运算,并使用基本和复杂的逻辑进行推理。

(3)人际关系和情感智能。能够与他人互动,理解他人的感受和情绪。

2.智能任务的分类

智能任务的分类如下。

(1)基本任务。包括感知、常识、推理和自然语言处理。

(2)中级任务。包括数学和游戏。

(3)专家任务。包括金融分析、工程能力、科学分析和医学分析。

人类智能和机器智能的根本区别在于处理基本任务和专家任务。对人类智能来说,基本任务很容易掌握,这种能力与生俱来;对于机器智能来说,感知、推理和自然语言处理是一些在计算上最具挑战性和最复杂的任务。

为了从大量、在形式和结构上多样、生成速度不断加快的数据中获得价值,并基于对事件发生(数据生成)与数据可供分析和操作的时间差的考虑,出现了两大类框架。

1.批处理框架

传统上,数据仓库系统中的数据处理管道需要提取(Extracting)、转换(Transforming)和加载(Loading)用于分析和操作的数据(ETL)。随着基于文件的分布式计算的新范式出现,ETL处理顺序发生了变化。现在需要对数据进行多次提取、加载和重复转换以进行分析(ELTTT),如图1-5所示。

图1-5 对数据进行分析

在批处理中,数据从不同来源收集到暂存区中,并按规定的频率和时间表加载和转换。在大多数使用批处理的用例中,没有必要实时或准实时地处理数据。例如,关于学生出勤数据的月报将在月末通过一个处理(即批处理)生成。这个处理过程从源系统中提取数据,加载数据,并将数据转换为各种视图和报告。Apache Hadoop是最流行的批处理框架之一。它是一个高度可伸缩的分布式/并行处理框架。Hadoop的主要构建模块是Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)。

顾名思义,这是一个封装的文件系统,以分布式的方式在Hadoop中的数据节点上存储数据(结构化/非结构化/半结构化)。对于数据的处理(而不是被处理的数据)被发送到各个节点上。计算由每个单独的节点执行,结果由主进程进行合并。在这种数据计算本地化的范式中,Hadoop严重依赖于中间的硬盘I/O操作。因此,Hadoop以牺牲处理时间为代价,以可靠的方式处理大量的数据。该框架非常适合于批量模式下从大数据中提取价值。

2.实时处理框架

虽然批处理框架适用于大部分数据仓库用例,但是在数据生成后就立刻对其进行处理并产生可操作的洞见也是十分急切的需求。例如,在信用卡欺诈检测系统中,一旦记录了恶意活动的第一个实例,就应该立即生成告警。如果在月末批处理后才得到可操作的洞见(如拒绝交易),则没有任何价值。实时处理框架的思想是减少事件时间处理时间之间的延迟。在理想系统中,事件时间和处理时间之间的期望差为0。然而,时间差是关于数据源输入、执行引擎、网络带宽和硬件的函数。实时处理框架依赖分布式的内存计算,以最小的I/O实现低延迟。一些最流行的实时处理框架如下。

(1)Apache Spark。这是一个分布式执行引擎,它依赖于内存处理,这种内存处理由一种称为弹性分布式数据集(Resilient Distributed Dataset,RDD)的容错数据抽象实现。

(2)Apache Storm。这是一个分布式实时计算框架。Storm应用程序易于处理无界流,这些流以非常高的速度生成事件数据。

(3)Apache Flink。该框架能够高效、分布式地处理大量数据。Flink的关键特性是程序的自动优化。Flink为大规模迭代、计算密集型算法提供了原生支持。

随着生态系统的发展,有更多的框架可用来进行批处理和实时处理。回到机器智能的演化周期(感知、处理、持久化、执行),我们将利用这些框架创建处理大数据的程序,采用算法过滤相关数据,根据数据中的模式生成模型,并得出可操作的洞见和预测,最终从数据资产中获得价值

技术发展到这一阶段,系统可以收集大量来自异构数据源的数据,并用越来越低的成本进行存储,人们可从数据中获得洞见并创造价值,进而构建智能机器改善人类生活。人们需要使用一种算法来处理手头大量的数据和计算资产。利用人类智能、大量的数据和分布式计算能力,人们可以构建专家系统,这些系统将有利于引导人类走向更美好的未来。

AI领域

虽然我们还处于人工智能发展的初级阶段,但下面这些基本领域也不乏重要研究和突破。

(1)自然语言处理。促进计算机和人类语言之间的交互。

(2)模糊逻辑系统。这些系统基于真实的程度,而不是使用if/else逻辑为所有情况编写程序。基于可接受的推理,这些系统可以控制机器和消费品。

(3)智能机器人。这些机械装置可以执行日常的或危险的重复性任务。

(4)专家系统。这些系统或应用程序可以解决特定领域中的复杂问题。它们能够基于知识库和模型提供建议、诊断和预测结果。

让我们简要回顾一下本章的内容。

问:什么是结果金字塔?

答:无论是人还是机器得到的某个结果,都源于经验(数据)、信念(模型)和行为(操作)。如果需要更改结果,就需要不同的(更好的)数据集、模型和操作。

问:这种范式如何适用于人工智能和大数据?

答:为了改善生活,人们需要智能系统。随着大数据的出现,由于海量数据的可用性和处理能力的提高,机器学习和人工智能理论得到了极大的发展。机器智能和大数据的融合将为人类带来更好的结果。

问:大数据框架的基本类别是什么?

答:基于事件时间与处理时间的差值,大数据框架分为批处理框架和实时处理框架两类。

问:AI的基本目标是什么?

答:AI的基本目标是改善人类生活。

问:机器学习和人工智能有什么不同?

答:机器学习是人工智能不可或缺的核心概念。在机器学习中,概念模型是基于数据进行训练的,模型可以预测新数据集的结果。人工智能系统试图模仿人类的认知能力,并且对上下文环境敏感。根据上下文环境的不同,人工智能系统可以改变它们的行为和结果,以适应人脑所做的决策和行为。

看一下图1-6,可以获得更好的理解。

图1-6 人工智能的核心概念

本章介绍了结果金字塔的概念。该模型指导人们不断改善生活,通过数据(经验)建立模型(信念),提高对世界的理解,努力获得更好的结果。将不断进化的人脑和计算机最精粹的部分结合在一起,可以实实在在地改善人们的生活。前文讲述了计算机如何从迟钝机器进化到智能机器,提供了智能和大数据的高层次概述,以及各种处理框架。

基于本章的介绍和上下文语境,本书后续章节将深入探讨采用算法处理数据的核心概念,并以一些算法作为例证进行机器学习基础的研究。本书将使用现成的框架实现这些算法,并用代码示例进行演示说明。


相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战
医疗大数据挖掘与可视化
医疗大数据挖掘与可视化

相关文章

相关课程