机器学习公式详解

978-7-115-55910-4
作者: 谢文睿秦州
译者:
编辑: 郭媛

图书目录:

详情

周志华老师的《机器学习》(俗称“西瓜书”)是机器学习领域的经典入门教材之一。本书(俗称“南瓜书”)基于Datawhale 成员自学“西瓜书”时记下的笔记编著而成,旨在对“西瓜书”中重难点公式加以解析,以及对部分公式补充具体的推导细节。 全书共16 章,与“西瓜书”章节、公式对应,每个公式的推导和解析都以本科数学基础的视角进行讲解,希望能够帮助读者达到“理工科数学基础扎实点的大二下学期学生”水平。每章都附有相关阅读材料,以便有兴趣的读者进一步钻研探索。 本书思路清晰,视角独特,结构合理,可作为高等院校计算机及相关专业的本科生或研究生教材,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。


图书摘要

版权信息

书名:机器学习公式详解

ISBN:978-7-115-55910-4

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


编  著 谢文睿  秦 州

译    郭 媛

责任编辑 

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315


周志华老师的《机器学习》(俗称“西瓜书”)是机器学习领域的经典入门教材之一. 本书(俗称“南瓜书”)基于Datawhale成员自学“西瓜书”时记下的笔记编著而成,旨在对“西瓜书”中重、难点公式加以解析,以及对部分公式补充具体的推导细节.

全书共16章,与“西瓜书”章节、公式对应,每个公式的推导和解析都以本科数学基础的视角进行讲解,希望能够帮助读者达到“理工科数学基础扎实点的大二下学期学生”水平. 每章都附有相关阅读材料,以便有兴趣的读者进一步钻研探索.

本书思路清晰,视角独特,结构合理,可作为高等院校计算机及相关专业的本科生或研究生教材,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考.


虽然与本书的编著者素不相识、从未谋面,但是看过书稿之后,我便很乐意也感觉很荣幸有机会给这本书写序.

这是一本与众不同的书.

首先,确切地说,这是一本“伴侣书”. 类似于咖啡伴侣一样,这本书是周志华教授的“西瓜书”——《机器学习》的伴侣书, 它也有一个可爱的名字——“南瓜书”. “南瓜书”对“西瓜书”中的公式进行了解析,并补充了必要的推导过程;在推导公式的过程中有时候会需要一些先验知识,编著者也进行了必要的补充. 上述做法对学习机器学习时“知其然”并“知其所以然”非常重要. 现在能用一些机器学习工具来实现某个任务的人越来越多了,但是具有机器学习思维且了解其原理从而能够解决实际问题的能力在工作中更重要,具有这种能力的人也更具有竞争力.

其次,这是一本通过开源方式多人协作写成的书. 这种多人分工合作、互相校验、开放监督的方式,既保证了书的质量,也保证了写作的效率. 在我看来,这是一种站在读者角度且非常先进的生产方式,容易给读者带来很好的体验.

最后,我想说这是一本完全根据学习经历编著而成的书. 也就是说,这本书完全从读者学习的角度出发,分享编著者在学习中遇到的“坑”以及跳过这个“坑”的方法,这对初学者来说是非常宝贵的经验,也特别能够引起他们的共鸣. 其实,每个人在学习一门新的课程时,都会有自己独特的经验和方法. 这种经验和方法的共享非常难能可贵. 在这里,理解公式便是编著者认为了解机器学习原理的最好方法,其实对于这一点我也深表赞同,因为在学习中我就是那种喜欢推导公式的典型代表,只有公式推导成功,才觉得对知识的原理理解得更深刻,否则总是觉得心里不踏实.

对于本书,我有几点阅读建议,供大家参考.

首先,这本 “南瓜书”要和“西瓜书”配套阅读,如果在阅读“西瓜书”时对公式疑惑或对概念理解不畅,可以通过“南瓜书”快速定位公式并进行推导,从而深入理解. 从这个意义来说,“南瓜书”可以看成是“西瓜书”的公式字典.

其次,阅读时一定要克服对公式的排斥或者畏惧心理. 公式是通过符号对原理本质的高度概括,是一种精简而美丽的数学语言. 推几个公式之后,相信读者会从中感觉到没有体验过的乐趣.

最后,这本书非常偏技术原理,看上去也有点儿枯燥,阅读时读者还是要事先做好克服困难的准备. 有时,即使编著者给出了推导过程,读者也不一定一眼就能理解,这就需要自己静下心来仔细研读. 只有这样,才有可能成为具有机器学习思维而不只是会用机器学习工具的人.

祝大家阅读愉快!

王 斌

小米AI实验室主任、NLP首席科学家


由于国内相关资料的匮乏,机器学习算法的公式推导历来都被认为是初学者的“噩梦”. 笔者两年前也受到了相同的困扰,但是在笔者师兄的鼓励下,笔者开始尝试做读书笔记, 经年累月遂有了编著本书的基本素材. 本书就是以笔者拜读周志华老师的《机器学习》 (俗称“西瓜书”)时记下的笔 记为蓝本编著的. “西瓜书”作为机器学习领域的经典中文著作, 已经成为相关从业人员和学习者的必读 书目. 周老师为了兼顾更多读者,在“西瓜书”中尽可能少地使用数学知识. 然而这对笔者这 类对公式推导感兴趣的读者来说就颇费思量. 为此,本书便在“西瓜书”的基础上,对其中的 重难点公式进行一些补充. 具体地说,本书会对“西瓜书”中缺少推导细节的公式补充了详细的推导过程, 对不太易懂的公式补充解析.

全书的章节编排和“西瓜书”保持一致,共16章,各章中的内容都对应“西瓜书”中相应章节与公 式. 为了尽可能地降低阅读门槛,本书以本科数学视角编写,所以有本科数学基础的读者 基本都能畅读本书. 对于超过本科数学范围的数学知识,本书都会在相应章节附上详细讲 解的附注,以及具体的参考文献,读者可以按图索骥,拓展阅读. 由于本书主要是对“西瓜 书”进行的补充,所以在编写具体章节内容时,默认读者已经阅读过“西瓜书”相应章节.

本书需要搭配“西瓜书”一起阅读. 在阅读“西瓜书”的过程中,当遇到推导不明白的公 式时再来查阅本书,效果最佳.

本书是由开源组织Datawhale的成员采用开源协作的方式完成,参与者包括2位主要编著 者(谢文睿和秦州)、6位编委会成员(贾彬彬、居凤霞、马晶敏、胡风范、周天烁和叶梁)、 12位特别贡献成员(awyd234、feijuan、Ggmatch、Heitao5200、huaqing89、LongJH、 LilRachel、LeoLRH、 Nono17、spareribs、\linebreak sunchaothu和StevenLzq).

本书可作为《机器学习》一书的配套读物,读者也可以 将其视为“一份现学现卖的读书笔记”. 由于编者水平有限,书中难免有所纰漏和表述不当的地方,还望各位读 者批评指正.

谢文睿

2020年12月27日


标量

向量

变量集

矩阵

单位阵

样本空间或状态空间

概率分布

数据样本(数据集)

假设空间

假设集

学习算法

行向量

列向量

向量或矩阵转置

集合

集合中元素个数

范数, 缺省时为L范数

概率质量函数, 条件概率质量函数

概率密度函数, 条件概率密度函数

   函数)对在分布下的数学期望; 意义明确时将省略和(或).

上确界

指示函数, 在为真和假时分别取值为1, 0

符号函数, 在时分别取值为


式(1.1)

参见式 (1.2)

式(1.2)

  ①

   ②

   ③

   ④

   ⑤

③→⑤显然成立

解析

①→②:

②→③:首先要知道此时我们假设是任何能将样本映射到{0,1}的函数.存在不止一个时,服从均匀分布,即每个出现的概率相等.例如样本空间只有两个样本时,.那么所有可能的真实目标函数如下:

一共个可能的真实目标函数.所以此时通过算法学习出来的模型对每个样本无论预测值为0还是1,都必然有一半的与之预测值相等.例如,现在学出来的模型的预测值为1,即,那么有且只有的预测值相等,也就是有且只有一半的与它预测值相等,所以.

值得一提的是,在这里我们假设真实的目标函数服从均匀分布,但是实际情形并非如此,通常我们只认为能高度拟合已有样本数据的函数才是真实目标函数,例如,现在已有的样本数据为,那么此时才是我们认为的真实目标函数,由于没有收集到或者压根不存在这类样本,所以都不算是真实目标函数.这也就是“西瓜书”式(1.3)下面的第3段中“骑自行车”的例子所想表达的内容.


相关图书

ChatGPT原理与应用开发
ChatGPT原理与应用开发
动手学机器学习
动手学机器学习
机器学习与数据挖掘
机器学习与数据挖掘
机器学习公式详解 第2版
机器学习公式详解 第2版
自然语言处理迁移学习实战
自然语言处理迁移学习实战
AI医学图像处理(基于Python语言的Dragonfly)
AI医学图像处理(基于Python语言的Dragonfly)

相关文章

相关课程