机器学习入门与实战

978-7-115-50722-8
作者: [美]约翰·保罗·穆勒(John Paul Mueller)[意]卢卡·马萨罗(Luca Massaron)
译者: 黄申
编辑: 武晓燕

图书目录:

详情

机器学习是计算机科学和人工智能的重要分支之一,它被广泛应用在多种领域,如机器人、无人驾驶汽车等。 本书是“达人迷”经典系列中关于机器学习的一本。本书内容分为6个部分,共计23 章,由浅入深地讲解机器学习的基本知识、本书使用的语言——Python 和 R、必备的数学知识、处理数据的常用工具、机器学习的应用以及常见的学习包和模型 6 个方面,以帮助读者了解并掌握机器学习的相关知识,并能将其应用于自己的工作中。

图书摘要

版权信息

书名:【抢读版】机器学习入门与实战

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


著    [美] 约翰• 保罗• 穆勒(John Paul Mueller)

     [ 意] 卢卡• 马萨罗(Luca Massaron )

译    黄 申

责任编辑 武晓燕

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315


John Paul Mueller,Luca Massaron

Machine Learning For Dummies

Copyright © 2016 by John Wiley & Sons, Inc.

All right reserved. This translation published under license.

Authorized translation from the English language edition published by John Wiley & Sons, Inc.

本书中文简体字版由John Wiley & Sons 公司授权人民邮电出版社出版,专有出版权属于人民邮电出版社。

版权所有,侵权必究。


机器学习是计算机科学和人工智能的重要分支之一,它被广泛应用在越来越多的领域,如机器人、无人驾驶汽车等。

本书是“达人迷”经典系列中关于机器学习的一本。本书内容分为6个部分,共计23章,由浅入深地讲解机器学习的基本知识,本书使用的语言——Python和R,必备数学知识,处理数据的常用工具,机器学习的应用,以及常见的学习包、模型等6个方面,以帮助读者了解并掌握机器学习的相关知识、并能将其应用于自己的工作中。

本书适合Python程序员、R程序员、数据分析人员、机器学习领域的从业人员以及对算法感兴趣的读者阅读。


如今,机器学习一词有多种多样的含义,特别是在好莱坞(和其他)电影制片厂介入之后。例如电影《机械姬》(Ex Machina),挑战了世界各地观众的想象力。在该电影中,机器学习使各种各样的可能成为现实,而真实情况并非如此。当然,我们大多数人必须生活在现实世界里,在这里机器学习实际上执行的任务数量多到令人难以置信,这些任务与机器人是否可以通过图灵测试无关(图灵测试指机器人可以欺骗它们的制造者,使他们相信机器人是人类)。本书为你提供了一个从现实世界看机器学习的视角,并让你有机会使用这些技术来创造惊人的成果。即使你使用机器学习所执行的任务与电影版相比,似乎有点平凡,但是在你读完这本书后,你会意识到这些平凡的任务将影响到地球上每个人的生活,影响到日常生活的方方面面。总之,机器学习是一项不可思议的技术——只是不像有些人想象的那样。

本书的主要目的是帮助你了解如今机器学习能够帮你做什么、不能做什么,以及将来可能为你做什么。虽然这本书包含了许多代码的示例,但并不意味着你必须是计算机科学家才能使用它。实际上,你需要拥有任何强调数学的学科背景,因为这是本书关注机器学习的方式。你将使用特定的算法与大数据进行交互以获得特定的、有价值的结果,你会看到具体的结论,而不是处理一些很抽象的东西。我们强调的是实用,因为机器学习有能力以前所未有的方式执行各种各样的任务。

本书的重点之一是使用正确的工具。这本书同时使用Python和R执行各种任务。这两种语言拥有特殊的功能,使得它们在机器学习的环境中特别有用。例如,Python提供了大量的库,让你几乎可以做任何你能想到的事情。同样地,R所提供的易用性,没有几种语言可以和它媲美。本书会帮助你了解Python和R这两种语言各自扮演的角色,并给出例子阐述何时这种语言会比另一种语言更有效,以达到你所想要的目标。

你还会在本书中发现一些有趣的技术。最重要的是,你不仅仅会看到用于执行任务的算法,还会得到算法如何工作的解释。与其他图书不同,本书让你可以充分理解自己正在做什么,而且并不要求你拥有数学的博士学位。读完本书后,你最终会拥有建立自己知识库所需的基础,并可以进一步使用机器学习在特定的领域中执行任务。

当然,你可能仍然担心整个编程环境的问题,这本书也不会让你在黑暗中独自摸索。在本书一开始,你可以找到RStudio和Anaconda的完整安装说明,它们是本书使用的集成开发环境(IDE)。此外,快速入门(包含引用)可以帮助你了解基本的R和Python编程。其重点是让你可以尽快地进入状态,并使示例简单直观,这样代码就不会成为学习的绊脚石。

你很难相信我们已经为你假设了所有的事情——毕竟,我们甚至还没有见过你!虽然大多数假设看似不必要,但我们还是做了一定的假设,为这本书提供了一个起点。

第一个假设是你熟悉你所要使用的平台,因为关于这点本书没有提供任何指导(不过,第4章提供了RStudio的安装说明,第6章将告诉你如何安装Anaconda)。为了向你提供更多R和Python中关于机器学习的信息,本书不讨论任何和特定平台相关的问题。在开始阅读本书之前,你需要知道如何安装应用程序、使用应用程序,以及如何在你所选的平台上工作。

这本书不是数学的入门读物。是的,你将看到很多涉及复杂数学知识的例子,但是,本书的重点是帮助你使用R、Python和机器学习来执行分析任务,而不是让你学习数学的理论知识。而且,你将看到本书使用的许多算法的解释,如此一来,你就可以理解算法是如何运作的。第1章和第2章引导你更好地理解:为了成功地使用这本书,你需要知道什么。

本书还假设你可以访问互联网。本书参考了大量的在线材料,这些在线资料将会提升你的学习体验。但是,只有你找到并使用这些扩展资源,它们才会产生价值。

在阅读本书时,你将碰到书页边缘的图标,它们的作用是指示你可能感兴趣的材料(也可能不是,看具体情况而定)。这些图标的含义如下。

 

提示是非常好的东西,因为它们可以帮助你节省时间或者在无须许多额外工作的前提下执行一些任务。本书中的提示是节省时间的技巧,提供了值得尝试的资源,让你可以从R、Python或机器学习相关任务的执行中得到最大的收获。

 

我们不想让自己听起来像生气的父母或某些狂人,但是你应该避免做任何标有“警告”图标的事情。否则,你可能会发现你的应用程序无法像预期那样正常工作,可能从看上去完美无误的方程式那里得到错误的答案,甚至(在最坏的情况下)丢失数据。

 

每当你看到这个图标时,都要想到高级的技巧或技术。你可能会发现这些有用的信息使用了太多无聊的词语,又或者它们包含了你所需的解决方案,让你的程序可以运行起来。当然如果你愿意,也可以跳过这些信息。

 

如果你没有从某个章或节学到什么内容,那么至少请记住该图标所标示的材料。这些文字通常包含了一个基本过程,也许是你使用R、使用Python成功执行机器学习相关任务所必须知道的一点信息。

 

RStudio和Anaconda自带的功能让它们可以执行众多的常见任务。 但是,机器学习还要求你执行一些特定的任务,这意味着需要从网络下载额外的支持功能。此图标表示以下文字包含在线资源的引用,你需要了解这点并特别注意,这样你才能安装让示例成功运行所需要的一切。

这本书对你而言,不是R、Python或机器学习体验的终点——而只是一个开始。我们提供的在线内容,使得本书更加灵活、并更好地满足你的需求。这样一来,当我们收到你的电子邮件时,就可以解决你的问题,并告诉你如何更新R、Python或其关联的插件,它们都会影响本书所讨论的内容。事实上,你可以获得所有这些超棒的补充材料。

备忘录:你还记得在学校使用夹带的纸条,试图在考试中获取更好的分数吗?还记得?好吧,那么备忘录就是这样的东西。它提供了一些特殊的注释和说明,让你了解可以使用R、Python、RStudio、Anaconda和机器学习做哪些事情,不是每个人都知道这些的。要查看本书的备忘录,只需访问达人迷官网并在搜索框中搜索“Machine Learning For Dummies Cheat Sheet”即可。它包含的信息井井有条,比如你需要经常使用的机器学习算法。

更新:变化时有发生。例如,在撰写本书期间,我们可能没有预见即将到来的变化。在过去,这种可能性只是意味着这本书变得过时了,不太有用了。但是现在,你可以在官网找到本书的更新。
除了这些更新,请在John Number Books官网中查看博客帖子、针对读者提问的答案,以及与本书相关的实用技术的展示。

指南文件:嘿!谁真的想手动敲入书中所有的代码,并重建所有的任务?大多数读者更愿意花时间来研究如何使用R、Python,以及机器学习任务的执行,找些有趣的事情来做,而不是打字。幸运的是,这本书中所使用的例程都可以下载,因此你所要做的全部就是阅读本书,掌握机器学习的使用技巧。你可以在达人迷官网中找到这些文件。

现在是开启机器学习冒险之旅的时候了!如果你对机器学习完全陌生,应该从第1章开始,并控制进展的速度,让自己消化和吸收尽可能多的知识。一定要阅读R和Python的内容,因为本书的例子使用了这两种语言。

如果你是一个初学者,但是希望尽快上手机器学习,可以从第4章开始阅读,但是你可能会在稍后发现有一些内容有点难以理解。如果你已经安装了RStudio,你可以略过第4章。同样,如果你已经安装了Anaconda,你可以略过第6章。为了使用本书,你必须安装R 3.2.3版。 我们使用的Python版本是2.7.11。这些示例将不能用于3.x版本的Python,因为这个版本不支持我们所使用的一些库。

对于有一些R和Python经验的读者,如果安装了适当的语言版本,则可以直接跳到第8章来节省阅读的时间。当你有疑问时,可以随时回到之前的章节。但是,每当进入到下一步之前,你需要了解每项技术是如何运行的。每种技术、代码示例和过程对你而言都很重要,如果一开始就跳过太多的内容,你可能会错过重要的信息。


黄申博士,现任LinkedIn(领英)资深数据科学家,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者、IBM ExtremeBlue天才计划成员。长期专注于大数据和人工智能相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、IBM美国研究院、eBay中国、沃尔玛1号店(现京东1号店)和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。期间发表了20多篇国际论文,并拥有10多项国际专利,《计算机工程》杂志特邀审稿专家。2016年和2017年先后出版了《大数据架构商业之路》和《大数据架构和算法实现之路》系列图书,同时也是图书《Python机器学习实践指南》《Elasticsearch实战》中文版的译者。2015年,因对业界做出卓越贡献,获得美国政府颁发的“美国杰出人才”称号。可以通过如下渠道联系该作者。

QQ 36638279

微信 18616692855

邮箱 s_huang790228@hotmail.com

LinkedIn https://cn.linkedin.com/in/shuang790228

扫一扫就能微信联系作者:

个人

公众号


在这一部分,你会:

了解AI(人工智能)是如何运作的,并清楚它能为你做些什么

思考大数据这个词的含义

理解统计在机器学习中的角色

定义机器学习将来在社会中如何发展


本章内容

超越人工智能(AI)的炒作

定义AI的梦想

区别现实世界和幻想

比较AI和机器学习

理解AI和机器学习中的工程部分

描绘工程和艺术之间的界限

人工智能(AI)成为了当下一个巨大的话题,由于Siri等技术的成功,这个话题在持续地发酵。与智能手机谈话不仅非常有趣,而且还能帮助你找到镇上最好的寿司店或发现如何前往音乐厅。当你与智能手机谈话时,它会更多地了解你说话的方式,并在理解请求的过程中减少错误。智能手机这种学习和解释特定说话方式的能力,就是AI的一个例子。而对于实现这些所需的技术而言,其中一部分就是机器学习。如今,你可能无处不在地使用机器学习和AI,而却没有仔细地对其进行过思考。例如,对设备说话并让它们执行你所期望的事情,就是机器学习实践的一个例子。同样,像亚马逊所提供的那些推荐系统,可以根据你之前购买过的商品或当前选择商品的补充,协助你进行购买的决策。随着时间的推移,AI和机器学习的使用只会不断增加。

在本章中,你将深入AI,并从不同的角度了解其意义,例如,从消费者、科学家或工程师的角度出发,了解它是如何影响你的生活。你也会发现AI并不等同于机器学习,虽然媒体经常将两者混为一谈。尽管机器学习与AI是相关的,但它们是不同的。

任何技术随着其变得越来越强大,相关的炒作也会尘嚣甚上,AI肯定也是如此。一方面,有些人开始渲染恐怖气氛,而不是宣传科学。电影《终结者》里所描述的机器人杀手,其实没什么大不了的。你第一次亲身体验机器人AI的形式,更有可能是享受一名保健助理的服务(见文Why Robots Are the Future of Elder Care)或者是和它共事(见文Meet the virtual woman who may take your job)。现实是,你已经以一种非常平凡的方式在和AI及机器学习进行交互了。阅读本章的部分原因是你需要看清炒作的背后,AI到底可以做些什么。

 

你也可能看到有人将机器学习和AI同等对待。AI包括机器学习,但机器学习并不能完全定义AI。本章将帮助你理解机器学习和AI之间的关系,以便你能更好地了解本书,了解它是如何帮助你进入仅仅在科学小说中才会出现的技术。

机器学习和AI都具有很强的工程元素。也就是说,你可以根据理论(经过实证和测试的解释)精确地量化这两种技术,而不是仅仅依赖简单的假设(对某种现象的建议性解释)。此外,两者都拥有强大的科学成分,人们通过科学来测试概念,并创造出新的思路,以发现思想过程有多强的表达力。最后,机器学习也需要艺术的细胞,这让才华横溢的科学家有了用武之地。在某些情况下,AI和机器学习与艺术看似毫无逻辑,而只有真正的艺术家才能让它们按照我们所预期的那样进行工作。

是的,全自动武器是存在的

曾经有人向我们表述了有关全自主武器的最新科研,是的,确实有些愚蠢的人正在研究这种技术。你会在本书中发现一些有关AI道德伦理的讨论,但在大多数情况下,本书着重于积极有益的AI应用,它们将帮助人类,而不是杀死人类,因为大多数的AI研究都致力于此。你可以在网上找到关于AI利弊的文章。但是,请记住,这些人是在猜测——他们实际上并不知道AI的未来。

然而,需要记住的重点是,对空间、化学和某些激光武器的禁令也都是存在的。各国也意识到这些武器并不能解决问题。各国也可能会禁止完全自主的武器,因为人民不会支持杀手机器人。本书的重点在于帮助读者以正面的视角来解读机器学习。

Android(一种外观和行为看起来像人类的特殊机器人,例如《星际迷航》中的Data)和某些类型的人形机器人(一种具有人类特征但容易与人类区分的机器人,例如《星球大战》中的C-3PO)已成为AI的海报代言人。它们通过拟人化的形式向我们展示了计算机系统。事实上,这是完全有可能的,有一天你将无法轻松地区分人类和人造人。科幻小说的作者,如菲利普•迪克(Philip K.Dick),很早之前就预言了这点,现在看来也很有可能成为现实。“Android是否会梦见电子羊”[1]的故事讨论了整个概念,而这个概念也越来越真实。这个想法出现在电影《银翼杀手》的剧情中。以下内容可以帮助你了解目前的科学技术与科幻小说及电影所提出的理念到底有多接近。

 

当前的艺术品可谓是栩栩如生,但你可以轻松地辨别自己是否正在和一位Android进行通话。你观看在线的视频,就能了解与人类无法区分的机器人至今尚不存在。其中一个更逼真的例子是Amelia。她的故事被ComputerWorld报道报道。关键是,这些技术才刚刚开始,也许最终人们能够创造逼真的机器人和Android,但是今天它们还不存在。

人类将最终的AI看作包含在某类Android中的产物,除了拟人化之外,还有一个原因。自从古希腊人以来,人类就开始讨论将意志置于机械体内的可能性。相关的一个神话就是一位名叫Talos的机械人(详见Ancient Wisdom网站中的Greek Automata)。实际上古希腊人拥有很多复杂的机械设备,虽然只有一个保存至今,但很可能他们的梦想不仅仅是建立在幻想之上。几个世纪以来,人们已经讨论了能够思考的机械人物(例如Rabbi Judah Loew的石头人Golem)。

AI建立在这个假设之上:思想机械化是可能的。在公元后的1000年间,希腊、印度和中国的哲学家都在思考如何实现。最早在17世纪,戈特弗里德•莱布尼兹(Gottfried Leibniz)、托马斯•霍布斯(Thomas Hobbes)和雷内•笛卡尔(René Descartes)就讨论了将所有思想转化为简单数学符号的可能性。当然,这个问题的复杂性让他们百思不得其解(尽管你在本书第三部分将读到目前所取得的进展,但至今它仍然让我们困惑不已)。关键是AI的愿景已经存在了很长时间,但AI的实现却只是最近才刚刚开始。

如今我们所知道的AI实际上诞生于1950年阿兰•图灵(Alan Turing)出版的《计算机与智能》。在这篇文章中,图灵探索了如何确定机器是否能够思考的想法。当然,这篇文章引入了3个角色的模拟游戏。角色A是一台计算机,角色B是一个真实的人。这两位角色都必须说服角色C(一个看不到角色A和角色B的真人),自己是人类。如果角色C无法准确地分辨谁是人、谁是机器,那么就判定计算机获胜。

AI领域一直存在过于乐观的问题。科学家试图用AI解决的问题是非常复杂的。然而,二十世纪五六十年代的乐观主义使科学家相信,世界将在短短20年内生产出智能机器。无论如何,机器确实正在做各种令人惊讶的事情,比如参与复杂的游戏。目前AI在物流、数据挖掘和医疗诊断等领域取得了巨大的成功。

机器学习依赖算法来分析巨大的数据集。目前,机器学习还不能提供电影所描述的那种AI。即使是最好的算法也不能思考、感觉、呈现出任何形式的自我意识,或者运用自由意志。机器学习所能做的是以远远超过任何人类的速度执行预测分析。因此,机器学习可以帮助人们更有效地工作。所以,AI的现状是它只作为执行分析的类型之一,而人类仍然需要考虑到这一分析的影响——做出必要的道德和伦理上的决定。1.4节将深入研究机器学习对整个AI的贡献。这个问题的本质在于机器学习只是AI的学习部分,而且它尚无能力创造你在电影中所看到的那种AI。

 

学习和智力让人困惑的地方主要在于:人们认为只要机器将工作干得更好(学习),那么它也就具有了意识(智力)。这种机器学习的观点还没有得到任何证据的支持。当人们认为计算机在故意给他们制造麻烦时,会产生同样的现象。计算机没有情绪,因此只能利用包含在应用程序中的指令,对所提供的输入进行处理。当计算机能够正确地模拟这些大自然中巧妙的事物时,才会拥有真正的AI。

目前,AI是基于机器学习的,而机器学习从本质上来说和统计学有所区别。确实,机器学习以统计学为基础,但是由于目标不一样,所以它与统计学有一些不同的假设。表1-1列出了比较机器学习和统计学的时候,需要考虑的一些特征。

表1-1 比较机器学习和统计学

技术

机器学习

统计学

数据处理

处理网络和图形类的大数据;来自传感器的原始数据或者被切分为训练数据和测试数据的网络文本

模型用于在小样本上创建预测能力

数据输入

数据经过采样、随机化、转换,以将采样(或全新)样本预测的准确率最大化

参数解释现实世界的现象,并提供了量级
参考

结果

比较哪种是最佳猜测或决策的时候,考虑到概率的问题

输出捕获参数的变异性和不确定性

假设

科学家根据数据来学习

科学家假设某种特定的输出,并试图
证明它

分布

在依照数据进行学习之前,分布是未知的或被忽略的

科学家假设一个定义好的数据分布

拟合

科学家创造一个最好的拟合,但是模型是可泛化的

结果拟合目前的数据分布

巨大的数据集需要大量的内存。不幸的是,需求还不仅仅是这些。当你拥有海量的数据和内存时,你还必须拥有多个内核和高速的处理器。如何更有效地利用现有的硬件,是科学家正在努力解决的问题之一。在某些情况下,等待几天才能获得机器学习的结果是无法接受的。即使结果并不是那么正确,科学家仍然想快速地知晓答案。请记住这一点:投资更好的硬件意味着投资更好的科学。本书涵盖了以下一些问题,来提升你的机器学习体验。

 

当你开始意识到环境对机器学习的重要性时,你也开始理解为什么需要合适的硬件、 适当的权衡来获得所需的结果。实际上,目前最新的系统依赖于图形处理单元(GPU)来执行机器学习任务。GPU的使用大大地加快了机器学习的过程。关于GPU的详细探讨超出了本书的内容范围,但你可以在Nvidia Developer的博客中阅读有关该主题的更多信息。

与许多其他技术一样,AI和机器学习都有非常梦幻以及时髦的用法。例如,有些人使用机器学习从照片创建毕加索风格的艺术品。当然,这种用法带来很多问题。一方面,除了赶时髦(因为以前没有人这么弄过),是否有人真的想要以这种方式来创建毕加索作品是值得怀疑的。艺术的价值并不在于对特定的现实世界表现做出一个有趣的解释,而在于理解艺术家是如何进行诠释的。文章的结尾指出,计算机在现阶段只能复制已有的风格,而不是创造它自己的全新风格。下面将讨论AI和机器学习的各种奇幻应用。

AI正在进入一个只在科幻小说中存在的创新时代。我们很难确定某种AI的应用是真实有效的、还只是某位固执的科学家的梦想。例如,《无敌金刚》(The Six Million Dollar Man)这部电视剧,在当时看上去是那么科幻。当初播放的时候,实际上没有人想到后来现实世界中真的出现了仿生学。然而,休•赫尔(Hugh Herr)有他自己的想法——现在仿生腿已经成为可能。当然,它们现在还没有普及,该技术现在才刚刚开始变得有用。还有部类似的电视剧是《造价60亿美元的人》。实际上,我们已经处于这样一个阶段:AI和机器学习都为我们提供了创造惊人技术的机会。但是对于所听到的内容你仍要保持谨慎和怀疑的态度。

 

为了使未来AI和机器学习的使用与科幻小说多年来所呈现的概念相吻合,现实中的程序员、数据科学家和其他参与者需要创建工具。第8章探讨了在使用AI和机器学习时可能使用的一些新工具,但这些工具仍然处于初步阶段。尽管有些事物看上去很魔幻,让你无法理解其背后到底发生了什么,然而魔法是并不存在的。为了使AI和机器学习的时髦用法成为现实世界的真实应用,开发人员、数据科学家等需要在现实世界中持续构建相关的工具,尽管现在人们可能难以想象这些工具将来有什么用处。

如今,你在许多应用中都会发现AI和机器学习的存在。唯一的问题是,相关技术运作得是如此之好,你甚至都没有感觉到它的存在。事实上,你可能会惊讶地发现,家中的许多设备都已经利用了这两种技术。毫无疑问,这两种技术会出现在你的车中、甚至是工作场所中。事实上,AI和机器学习的用途数量在百万数量级——即使本质上已经很夸张了,但是仍然容易被人们所忽视。这里只列出了几种AI的应用。

这个列表还只是冰山一角。你还会发现许多其他使用AI的方式。然而,在公认的AI领域之外来审视机器学习的用法也是很有价值的。以下是一些可能与AI无关的机器学习应用。

即使影视作品让人感觉AI会给我们的生活带来巨大的变革,而且有时在现实生活中你也会看到一些令人难以置信的AI应用,但事实上,AI的大多数用途是很普通的,甚至有些乏味。本书的第5部分为你提供了这类分析的真实案例。与其他类型的AI活动相比,这种分析是平淡无奇的,但Verizon可以通过基于R的分析来节省成本,效果也更理想。

此外,Python开发人员(有关Python语言的详细信息,请参见第6章和第7章)可以使用大量的库,让机器学习变得更容易上手。事实上,Kaggle提供了竞赛的平台,让Python开发人员和R的使用者磨炼他们的机器学习技能,并创建实用的应用程序。这些比赛的结果在日后往往会成为人们实际使用的产品中的一部分。尽管R仍然依赖于统计学界在学术研究方面的大力支持,但Python开发社区一直致力于创建新的库,以便人们可以更轻松地开发复杂的数据科学和机器学习应用。

一个系统想要成为AI,机器学习只是其中需要的一部分。机器学习这部分使得AI能够执行以下任务:

使用算法来操作数据是机器学习的核心。为了证明其有效,机器学习必须使用适当的算法来获得所期望的结果。此外,数据必须经过预期的算法进行分析,或者经过科学家精心的准备。

AI涵盖许多其他学科以成功地模拟思维过程。除了机器学习,AI通常包括以下内容。

事实上,你可能会惊奇地发现,创建人工智能所需的学科涉及面非常广泛。因此,这本书只会让你了解AI的一小部分。然而,即使是机器学习部分也非常复杂,原因是理解计算机的数据世界是一项困难的任务。想象一下你们经常做的、不假思索的所有决定。例如,只是识别某些东西并弄清是否可以成功地与之交互,就可能成为一项复杂的任务。

随着科学家持续利用技术、并将假设转化为理论,技术变得更像是工程(实践理论)而非科学(创造理论)。技术规则变得越来越清晰,专家们在一起以书面的形式制定了这些规则。这种结果就是规范(每个人都同意的一组规则)。

最终,规范的实现成为了标准,诸如IEEE(电气和电子工程师协会)或ISO/ IEC(国际标准化组织/国际电工委员会)这样的机构就会管理这些标准。AI和机器学习已经出现了很长的时间,但是目前我们没有发现任何技术的标准。

机器学习的基础是数学。算法决定了如何以特定方式来解释大数据。机器学习的数学基础将在本书的第3部分介绍。你会发现算法以特定方式处理输入的数据,并根据数据模式创建可预测的输出。数据本身是不可预测的。你需要AI和机器学习的原因是,你可以通过这样的方式解密数据,识别出其中的模式并加以理解。

你将在第4部分看到规范的细节,其形式是用于执行特定任务的算法。当你进入第5部分时,你将了解为什么每个人都同意使用特定的规则来规范算法的使用和任务执行。关键是要使用一种最适合你手头数据的算法,并实现你所设立的特定目标。专业人员使用最适合某项任务的语言来实现算法。而机器学习依赖于Python和R,在某种程度上也依赖于Matlab、Java、Julia和C ++。(有关详细信息,请参阅Quora上面的相关讨论)。

AI和机器学习两者都是科学而不是工程学,其原因是,两者都需要一定程度的艺术成分才能取得良好的效果。机器学习的艺术元素有许多形式。例如,你必须考虑如何使用数据。一些数据充当训练算法的基线,以获得特定的结果。而剩余的数据提供理解底层模式的输出。没有规则可以确定数据分割的平衡性;在这些数据上进行研究的科学家必须自己发现特定的平衡是否会产生最佳的输出。

 

数据清理也为结果带来一定的艺术性。科学家准备数据的方式也很重要。一些处理,例如删除重复的记录,时常会发生。然而,科学家也可以选择以某种其他的方式过滤数据,或仅仅查看数据的一部分。因此,某位科学家用于机器学习任务的干净数据集可能与另一位科学家所准备的干净数据集不完全一致。

你还可以通过某些方式调优算法。再次强调一下,其思想就是找到一种结果,它能真正地揭示所期望的模式,以便你能够理解数据。例如,当机器人查看图片时,它可能必须确定图片中哪些元素可以与之交互,而哪些元素不行。如果机器人必须避免某些要素来保持轨迹或实现特定的目标,那么这个问题的答案就很重要。

在机器学习的环境中进行工作,你还需要考虑输入数据的问题。例如,某台智能手机中的传声器所产生的输入数据,与另一台智能手机中的传声器所产生的不会完全相同。麦克风的特性有所差别,但对用户所提供的声控命令的理解必须保持不变。同样,环境噪声会改变声控指令的输入质量,而且智能手机可能会遇到某种形式的电磁干扰。显然,在创建机器学习环境时,设计者所面临的变量数量庞大而且相当复杂。

工程学背后的艺术是机器学习的重要组成部分。科学家通过处理数据问题而获得的经验是至关重要的,因为它可以让科学家提供附加值,并让算法更好地运作。机器人是成功地穿过布满障碍物的道路,还是撞上所有的障碍,其差别就在于一个充分调优的算法。

[1] 这是科幻小说家菲利普•迪克于1968年出版的小说。


相关图书

ChatGPT原理与应用开发
ChatGPT原理与应用开发
动手学机器学习
动手学机器学习
机器学习与数据挖掘
机器学习与数据挖掘
机器学习公式详解 第2版
机器学习公式详解 第2版
自然语言处理迁移学习实战
自然语言处理迁移学习实战
AI医学图像处理(基于Python语言的Dragonfly)
AI医学图像处理(基于Python语言的Dragonfly)

相关文章

相关课程