图神经网络:基础、前沿与应用

978-7-115-59872-1
作者: 吴凌飞崔鹏裴健赵亮
译者:
编辑: 秦健

图书目录:

详情

本书致力于介绍图神经网络的基本概念和算法、研究前沿以及广泛和新兴的应用,涵盖图神经网络的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。全书分为四部分:第一部分介绍图神经网络的基本概念;第二部分讨论图神经网络成熟的方法;第三部分介绍图神经网络典型的前沿领域;第四部分描述可能对图神经网络未来研究比较重要和有前途的方法与应用的进展情况。 本书适合高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考。

图书摘要

版权信息

书名:图神经网络:基础、前沿与应用

ISBN:978-7-115-59872-1

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

编    吴凌飞 崔 鹏 裴 健 赵 亮

审  校 郭晓洁 等

责任编辑 秦 健

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

读者服务:

微信扫码关注【异步社区】微信公众号,回复“e59872”获取本书配套资源以及异步社区15天VIP会员卡,近千本电子书免费畅读。

内 容 提 要

本书致力于介绍图神经网络的基本概念和算法、研究前沿以及广泛和新兴的应用,涵盖图神经网络的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。全书分为四部分:第一部分介绍图神经网络的基本概念;第二部分讨论图神经网络成熟的方法;第三部分介绍图神经网络典型的前沿领域;第四部分描述可能对图神经网络未来研究比较重要和有前途的方法与应用的进展情况。

本书适合高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考。

推荐语(按姓氏拼音排序)

图神经网络是对深度学习的重要拓展和延伸。本书由知名学者编著,全面、系统地介绍了该领域的基础问题、前沿算法和应用场景。编者对章节之间的逻辑关系给出了清晰的梳理和导读,对初入该领域和具有一定基础的读者均具有重要的学习和参考价值。

——陈恩红

中国科学技术大学大数据学院执行院长

图神经网络是当前AI领域的重要前沿方向之一,在学术界和工业界都得到广泛的关注和应用。本书由相关领域的知名专家编撰而成,系统性地总结了图神经网络领域的关键技术,内容涵盖了图神经网络的基础方法和前沿应用。2021年英文书出版时我就关注到这本书,现在很高兴看到中文版即将出版。对于国内研究和应用图神经网络的专业人士和初学者来说,本书是一本不可多得的参考书。

——崔斌

北京大学教授

图神经网络是机器学习非常热门的领域之一。本书是非常好的学习资源,内容涵盖图表征学习的广泛主题和应用。

——Jure Leskovec

斯坦福大学副教授

图神经网络已经成为图数据分析处理的基本工具。本书全面介绍了图神经网络的基础和研究前沿,可作为有关科研人员、开发者和师生的重要参考书。

——李飞飞

阿里巴巴集团副总裁,IEEE会士

图神经网络作为一种新兴技术,近年来受到学术界和工业界的广泛关注。本书由工作在此领域前沿的杰出学者编撰,内容涵盖了图神经网络的基础概念、经典技术、应用领域以及与产业结合的进展。受益于作者在该领域的深厚积累,本书为图神经网络研究人员提供了全局视角,既适合对此领域感兴趣的初学者,其模块化的结构也适合对该领域有一定积累的学者针对某一内容进行深入研究。

——林学民

上海交通大学讲席教授,欧洲科学院外籍院士,IEEE 会士,AAIA会士

图神经网络是一个快速发展的领域。本书涉及图神经网络的概念、基础和应用,非常适合对此领域感兴趣的读者阅读。

——刘欢

亚利桑那州立大学教授,ACM会士,IEEE会士

图神经网络把深度学习和图结构融合起来,是机器学习领域过去几年重要的理论发展之一,在金融科技、搜索推荐、生物医药等领域有着广泛和重要的应用。本书由该领域的知名专家编撰,是研究人员、学生和业界实践者学习图神经网络的一本参考图书。

——漆远

复旦大学浩清教授、博导,AI³研究院院长,前阿里巴巴副总裁及蚂蚁集团首席AI科学家

图机器学习是当前机器学习领域热门的研究方向之一。本书针对图神经网络的基础、发展、前沿以及应用进行全面且细致的介绍,是图神经网络领域值得深入学习的作品。

——陶大程

京东探索研究院院长,京东集团高级副总裁,澳大利亚科学院院士

图神经网络是一种新兴的机器学习模型,已在科学和工业界掀起风暴。现在正是加入这一行动的时机—这本书无论对新人还是经验丰富的从业者都是很好的资源!书中的内容由这一领域的专家团队精心撰写而成。

———Petar Veličković

——DeepMind高级研究科学家

图神经网络是一类基于深度学习的处理图结构数据的方法,在推荐系统、计算机视觉、生物制药等众多科学领域展现出了卓越的性能。本书由该领域的知名学者倾力打造,从图神经网络的理论基础出发,着重介绍了图神经网络的研究前沿和新兴应用。图神经网络方兴未艾,本书内容厚重,是从事该领域研究的科研人员和学生不可多得的参考书。

—文继荣

中国人民大学教授,信息学院院长,高瓴人工智能学院执行院长

图神经网络是一个具有巨大潜力的研究方向,近年来受到广泛关注。本书作者都是该领域的知名学者,具有学术界和工业界的丰富实践经验。他们通过这本书从概念、算法到应用全面地介绍了图神经网络的相关技术。强烈推荐对这个领域感兴趣的学生、工程师与研究人员阅读!

——谢幸

微软亚洲研究院首席研究员,CCF会士,IEEE会士

图深度学习近年来已经被广泛应用到很多人工智能的研究领域,并取得了空前的成功。本书全面总结了图神经网络的算法和理论基础,广泛介绍了各种图神经网络的前沿研究方向,并精选了10个图神经网络广泛应用的行业。这是一本经典的深度学习教科书!

——熊辉

香港科技大学(广州)讲座教授,AAAS会士,IEEE会士

图神经网络是机器学习、数据科学、数据挖掘领域新兴的发展方向。本书作者都是这个领域的知名科学家,他们全面探讨了图神经网络权威和最新的理论基础、算法设计和实践案例。这是一本不可多得的好书,我强烈推荐!

——杨强

香港科技大学讲座教授,AAAI会士,ACM会士,加拿大皇家科学院、加拿大工程院院士

深度学习时代,图计算与神经网络天然地结合到一起。图神经网络为人工智能的发展注入了新动力,同时也成为热门的领域之一,在工业界得到广泛应用。本书对图神经网络的基础、前沿技术以及应用做了全面讲解,是图神经网络的研究者以及实践者不可多得的参考资料。

——叶杰平

密歇根大学终身教授,IEEE会士

本书是当前介绍图神经网络方面非常全面的书籍之一,由该领域的知名学者编撰,是不可多得的参考和学习资料。

——俞士纶

伊利诺伊大学芝加哥分校讲席教授,ACM会士,IEEE会士

本书全面、详细地介绍了图神经网络,为在大型图数据上更深一步研究及探寻快而准的方法提供了不可缺少的基础和方向。

——于旭(Jeffrey Xu Yu)

香港中文大学教授

本书由领域专家团队编撰,对图神经网络的基础理论进行了详细介绍,对不同主题进行了广泛覆盖。通过本书,读者可以一览图神经网络全貌,快速开展前沿研究或将之落地于实际应用。

——张成奇

悉尼科技大学副校长,人工智能杰出教授

推荐序

图神经网络(Graph Neural Network,GNN)是近年来在传统深层神经网络基础上发展起来的一个新领域,也可以称之为图上的深度学习。20世纪末,基于传统人工神经网络的深度学习迅猛发展,深刻影响了各个学科,并促使基于数据驱动的第二代人工智能的崛起。尽管深度学习在处理大数据上表现出许多优势,但它仅能有效地处理欧氏空间的数据(如图像)和时序结构的数据(如文本),应用范围很有限。一方面,大量的实际问题,如社交网络、生物网络和推荐系统等都不满足欧氏空间或时序结构的条件,需要用更一般的图结构加以表示。另一方面,虽然深度学习可以处理图像、语音和文本等,并取得了不错的效果,但这些媒体均属分层递阶(hierarchical)结构,无论是欧氏空间还是时序结构都难给予充分的描述。以图像为例,在像素级上图像可以看成一个欧氏空间,但在其他视觉单元上,如局部区块、部件和物体等层次上并不满足欧氏空间的条件,如缺乏传递性或(和)对称性等。单纯的欧氏空间表示无法利用这些非欧氏空间的结构信息,因此也需要进一步考虑和探索图的表示形式。其他像语音与文本等时序结构的数据的处理也存在类似问题。综上所述,由于“图”(包括有环与无环、有向与无向等)具有丰富的结构,图神经网络将图论和深度学习紧密地融合在一起,充分利用结构信息,有望克服传统深度神经网络学习带来的局限性。可见,探索与发展图神经网络是必然的趋势,这也是它成为近年来在机器学习中发展最快和影响最深的研究领域的一个原因。

《图神经网络:基础、前沿与应用》一书系统地介绍了图神经网络的各个方面,从基础理论到前沿问题,从模型算法到实际应用。全书分四部分,共27章。

第一部分 引言:机器学习的效率不仅取决于算法,还取决于数据在特征空间中的表示方法。好的表示方法应该由数据中提取的最少和最有效的特征组成,并能通过机器学习自动获取,这就是所谓的“表示学习”(也称表征学习)。图表征学习的目标除给图中的节点指派一个低维的向量表征以外,还要求尽量保留图的结构,这是它和传统深度学习中的表征学习的重大差别。这一部分系统介绍了基于深度学习的表征学习与图表征学习的各种方法,其中包括传统和现代的图表征学习以及图神经网络等。

第二部分 基础:这一部分系统讨论了以下几个重要的基础问题。由于图神经网络本质上是深度学习在图中的应用,因此不可避免地具有深度学习带来的许多根本性缺陷,即在表达能力、可扩展性、可解释性和对抗鲁棒性等方面存在的缺陷。不过由于图神经网络与传统神经网络处理的对象有很大的不同,因此面临的挑战也有很大的区别,许多问题需要重新思考和研究。以表达能力为例,在传统神经网络中,我们已经证明前向神经网络可以近似任何感兴趣的函数,但这个结论不适用于图神经网络,因为我们通常假设传统神经网络(深度学习)所处理的数据具有空间或者时间的位移不变性。图神经网络所处理的数据更为复杂,不满足空间或时间的位移不变性,仅具有排列的不变性,即处理的结果与图中节点的处理顺序无关,因此图神经网络的表达能力需要重新定义与探索。尽管可扩展性、可解释性和对抗鲁棒性等同时存在于深度学习和图神经网络之中,但由于图神经网络中具有更复杂的结构信息,因此可扩展性、可解释性和对抗鲁棒性等问题变得更为复杂和困难。不过与此同时,由于有更多的结构信息可以利用,解决图神经网络中的这些问题则有更多可供选择的手段,因此有可能解决得更好。总之,图神经网络给我们带来挑战的同时也带来更多的机遇。

第三部分 前沿:这一部分系统介绍了图分类、链接预测、图生成、图转换、图匹配、图结构学习、动态图神经网络、异质图神经网络、自动机器学习和自监督学习中模型和算法的发展现状、存在的问题以及未来发展的方向。

第四部分 广泛和新兴的应用:这一部分讨论图神经网络在现代推荐系统、计算机视觉、自然语言处理、程序分析、软件挖掘、药物开发中生物医学知识图谱挖掘、蛋白质功能和相互作用的预测以及异常检测和智慧城市中的应用。这一部分包括应用图神经网络的方法、已达到的效果、存在的问题以及未来的发展方向等。

这是一本内容丰富、全面和深入介绍图神经网络的书籍,对于所有需要了解这个领域或掌握这种方法与工具的科学家、工程师和学生都是一部很好的参考书。对人工智能来说,图神经网络有可能是将概率学习与符号推理结合起来的一种工具,有可能成为将数据驱动与知识驱动结合起来的一座桥梁,有望推动第三代人工智能的顺利发展。

张钹

清华大学教授,中国科学院院士

前  言

近年来,图神经网络(GNN)取得了快速、令人难以置信的进展。图神经网络又称为图深度学习、图表征学习(图表示学习)或几何深度学习,是机器学习特别是深度学习领域增长最快的研究课题。图论和深度学习交叉领域的这波研究浪潮也影响了其他科学领域,包括推荐系统、计算机视觉、自然语言处理、归纳逻辑编程、程序合成、软件挖掘、自动规划、网络安全和智能交通等。

尽管图神经网络已经取得令人瞩目的成就,但我们在将其应用于其他领域时仍面临着许多挑战,包括从方法的理论理解到实际系统中的可扩展性和可解释性,从方法的合理性到应用中的经验表现,等等。然而,随着图神经网络的快速发展,要获得图神经网络发展的全局视角是非常具有挑战性的。因此,我们感到迫切需要弥合上述差距,并就这一快速增长但具有挑战性的主题编写一本全面的书,这可以使广大读者受益,包括高年级本科生、研究生、博士后研究人员、讲师及相关的从业人员。

本书涵盖图神经网络的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。我们致力于介绍图神经网络的基本概念和算法、研究前沿以及广泛和新兴的应用。

在线资源

如果读者希望进一步获得关于本书的相关资源,请访问网站https://graph-neural-networks. github.io。该网站提供本书的中英文预览版、讲座信息以及勘误等,此外还提供与图神经网络有关的公开可用的材料和资源引用。

写给教师的建议

本书可作为高年级本科生、研究生课程的教辅或参考资料。虽然本书主要是为具有计算机科学背景的学生编写的,但是也适合对概率、统计、图论、线性代数和机器学习技术(如深度学习)有基本了解的学生参考。如果学生已经掌握本书某些章节的知识,那么在教学的过程中可以跳过这些章节或作为家庭作业帮助他们复习。例如,如果学生已经学过深度学习课程,那么可以跳过第1章。教师也可以选择将第1章~第3章合并到一起,作为背景介绍课程的内容。

如果课程更注重图神经网络的基础和理论,那么可以选择重点介绍第4章~第8章,第19章~第27章可用于展示应用、动机和限制。关于第4章~第8章和第19章~第27章如何相互关联,请参考每章末尾的编者注。如果课程更注重研究前沿,那么可以将第9章~第18章作为组织课程的支点。例如,教师可以将本书用于高年级研究生课程,要求学生搜索并介绍每个不同研究前沿的最新研究论文,还可以要求他们根据第19章~第27章描述的应用以及我们提供的材料建立他们自己的课程项目。

写给读者的建议

本书旨在涵盖图神经网络领域的广泛主题,包括背景、理论基础、方法论、研究前沿和应用等。因此,本书可作为一本综合性的手册,供学生、研究人员和专业人士等读者使用。在阅读之前,您应该对与统计学、机器学习和图论相关的概念和术语有一定了解。我们在第1章~第8章提供并引用了一些基础知识的背景。您最好也有深度学习相关的知识和一些编程经验,以便轻松阅读本书的大部分章节。尤其是,您应该能够阅读伪代码并理解图结构。

本书内容是模块化的,对于每一章,您都可以根据自己的兴趣和需要有选择性地学习。对于那些想要深入了解图神经网络的各种技术和理论的读者,可以选择从第4章~第8章开始阅读;对于那些想进一步深入研究和推进相关领域的读者,请阅读第9章~第18章中感兴趣的内容,这些章提供了关于最新研究问题、开放问题和研究前沿的全面知识;对于那些想使用图神经网络来造福特定领域的读者,或者想寻找有趣的应用以验证特定的图神经网络技术的读者,请阅读第19章~第27章。

致  谢

在过去的几年里,许多有天赋的研究人员进入图机器学习领域并做出开创性贡献。我们非常幸运能够讨论这些挑战和机遇,并经常与他们中的许多人在这一激动人心的领域就丰富多样的研究课题进行合作。我们非常感谢来自京东、IBM研究院、清华大学、西蒙弗雷泽大学、埃默里大学和其他地方的这些合作者或同事,他们鼓励我们创作这样一本全面涵盖图神经网络各种主题的书,以指导感兴趣的初学者,并促进这一领域的学术研究人员和从业人员进步。

如果没有许多人的贡献,这本书是不可能完成的。我们要感谢那些为检查全书数学符号的一致性以及为本书的编著提供反馈的人。他们是来自埃默里大学的凌辰和王诗雨,以及来自清华大学的何玥、张子威和刘昊昕。我们要特别感谢来自IBM Thomas J. Watson Research Center的郭晓洁博士,她慷慨地为我们提供了帮助,并对许多章节提供了非常有价值的反馈。

我们也要感谢那些允许我们转载他们出版物中的图片、数字或数据的人。

最后,我们要感谢我们的家人,在我们编撰这本书的这段不寻常的时间里,感谢他们的爱、耐心和支持。

编者简介

吴凌飞博士 毕业于美国公立常春藤盟校之一的威廉与玛丽学院计算机系。他的主要研究方向是机器学习、表征学习和自然语言处理的有机结合,在图神经网络及其应用方面有深入研究。目前他是Pinterest公司主管知识图谱和内容理解的研发工程经理(EM)。在此之前,他是京东硅谷研究中心的首席科学家,带领一支由30多名机器学习/自然语言处理方面的科学家和软件工程师组成的团队,构建智能电子商务个性化系统。他目前著有图神经网络方面的图书一本,在顶级会议或期刊上发表100多篇论文,谷歌学术引用将近3000次。他主持开发的Graph4NLP软件包自2021年中发布以来收获1500多颗标星,180多个分支,深受学术界和工业界欢迎。他曾是IBM Thomas J. Watson Research Center的高级研究员,并领导10多名研究科学家开发前沿的图神经网络方法和系统,3次获得IBM杰出技术贡献奖。他是40多项美国专利的共同发明人,凭借其专利的高商业价值,共获得8项IBM发明成果奖,并被任命为IBM 2020级发明大师。他带领团队获得两个2022年AAAI人工智能创新应用奖(全球共8个),以及IEEE ICC’19、DLGMA’20、DLG’19等多个会议或研讨会的最佳论文奖和最佳学生论文奖。他的研究被全球众多中英文媒体广泛报道,包括Nature News、Yahoo News、AP News、PR Newswire、The Time Weekly、VentureBeat、新智元、机器之心、AI科技评论等。他是KDD、AAAI、IEEE BigData会议组委会委员,并开创和担任全球图深度学习研讨会(与AAAI20-22和KDD20-22等联合举办)与图深度学习自然语言处理研讨会(与ICLR22和NAACL22等联合举办)的联合主席。他同时担任IEEE影响因子最高期刊之一IEEE Transactions on Neural Networks and Learning Systems和ACM SIGKDD旗舰期刊ACM Transactions on Knowledge Discovery from Data的副主编,并定期担任主要的AI/ML/NLP会议如KDD、EMNLP、IJCAI、AAAI等的SPC/AC。

崔鹏博士 清华大学计算机系长聘副教授。他于2010年在清华大学获得博士学位。他的研究兴趣包括数据挖掘、机器学习和多媒体分析,擅长网络表示学习、因果推理和稳定学习、社会动力学建模和用户行为建模等。他热衷于推动因果推理和机器学习的融合发展,解决当今人工智能技术的基本问题,包括可解释性、稳定性和公平性问题。他被公认为ACM的杰出科学家、CCF的杰出成员和IEEE的高级会员。他在机器学习和数据挖掘领域的著名会议和期刊上发表了100多篇论文。他是网络嵌入领域被引用最多的几位作者之一。他提出的一些网络嵌入算法在学术界和工业界产生了重大影响。他的研究获得了IEEE多媒体最佳部门论文奖、IEEE ICDM 2015最佳学生论文奖、IEEE ICME 2014最佳论文奖、ACM MM12大挑战多模态奖、MMM13最佳论文奖,并分别入选2014年和2016年的KDD最佳专刊。他曾任CIKM2019和MMM2020的PC联合主席,ICML、KDD、WWW、IJCAI、AAAI等会议的SPC或领域主席,IEEE TKDE(2017—)、IEEE TBD(2019—)、ACM TIST(2018—)和ACM TOMM(2016—)等期刊的副主编。他在2015年获得ACM中国新星奖,在2018年获得CCF-IEEE CS青年科学家奖。

裴健博士 杜克大学教授,数据科学、大数据、数据挖掘和数据库系统等领域的知名领先研究人员。他擅长为新型数据密集型应用开发有效和高效的数据分析技术,并将研究成果转化为产品和商业实践。他是加拿大皇家学会(加拿大国家科学院)、加拿大工程院、ACM和IEEE的会员。他还是数据挖掘、数据库系统和信息检索方面被引用最多的几位作者之一。自2000年以来,他已经出版一本教科书、两本专著,并在众多极具影响力的会议和期刊上发表了300多篇研究论文,这些论文被广泛引用。他研究的算法已在工业界的生产中以及流行的开源软件套件中被广泛采用。他还在许多学术组织和活动中表现出杰出的专业领导能力。他在2013—2016年担任IEEE Transactions of Knowledge and Data Engineering(TKDE)主编,在2017—2021年担任ACM的Knowledge Discovery in Data专委会(SIGKDD)主席,并担任许多顶级会议的总联合主席或程序委员会联合主席。他是企业数据战略、医疗信息学、网络安全智能、计算金融和智能零售等方面的顾问和教练。他获得了许多著名的奖项,包括ACM SIGKDD创新奖(2017年)、ACM SIGKDD服务奖(2015年)、IEEE ICDM研究贡献奖(2014年)、不列颠哥伦比亚省创新委员会青年创新者奖(2005年)、NSERC 2008年Discovery Accelerator Supplements Award(全加拿大共100个获奖者)、IBM Faculty奖(2006年)、KDD最佳应用论文奖(2008年)、ICDE最具影响力论文奖(2018年)、PAKDD最佳论文奖(2014年)、PAKDD最具影响力论文奖(2009年)以及IEEE杰出论文奖(2007年)等。

赵亮博士 埃默里大学计算科学系助理教授。他曾在乔治梅森大学信息科学与技术系和计算机科学系担任助理教授。他于2016年从弗吉尼亚理工大学计算机科学系获得博士学位。他的研究兴趣包括数据挖掘、人工智能和机器学习,特别是时空和网络数据挖掘、图深度学习、非凸优化、模型并行、事件预测和可解释机器学习等方向。他在2020年获得亚马逊公司颁发的机器学习研究奖,以表彰他对分布式图神经网络的研究。基于在空间网络的深度学习方面的研究,他于2020年获得美国国家科学基金会杰出青年教授奖;基于在生物分子的深度生成模型方面的研究,他于2019年获得杰夫里信托奖。他在第19届IEEE国际数据挖掘会议(ICDM 2019)上获得最佳论文奖,他还在第27届国际万维网大会(WWW 2021)上因深度生成模型获得最佳论文奖提名。基于在时空数据挖掘方面的研究,他于2016年被微软搜索评选为数据挖掘领域二十大新星之一。因为在空间数据深度学习方面的研究,他被计算社区联盟(CCC)授予“2021年计算创新研究员导师”称号。他在KDD、TKDE、ICDM、ICLR、Proceedings of the IEEEACM Computing Surveys、TKDD、IJCAI、AAAI和WWW等顶级会议或期刊上发表了大量研究论文,并长期组织SIGSPATIAL、KDD、ICDM和CIKM等许多顶级会议,担任出版主席、海报主席和会议主席等。

Zhejiang University,Hangzhou,China

Alibaba Group,Hangzhou,China

撰稿人名单(按姓氏拼音排序)

Miltiadis Allamanis

Microsoft Research,Cambridge,UK

Yu Chen

Facebook AI,Menlo Park,CA,USA

Yunfei Chu

Alibaba Group,Hangzhou,China

Peng Cui

Tsinghua University,Beijing,China

Tyler Derr

Vanderbilt University,Nashville,TN,USA

Keyu Duan

Texas A&M University,College Station,TX,USA

Qizhang Feng

Texas A&M University,College Station,TX,USA

Stephan Günnemann

Technical University of Munich,München,Germany

Xiaojie Guo

IBM Thomas J. Watson Research Center,Yorktown Heights,NY,USA

Yu Hou

Weill Cornell Medicine,New York City,NY,USA

Xia Hu

Texas A&M University,College Station,TX,USA

Junzhou Huang

University of Texas at Arlington,Arlington,TX,USA

Shouling Ji

Wei Jin

Michigan State University,East Lansing,MI,USA

Anowarul Kabir

George Mason University,Fairfax,VA,USA

Seyed Mehran Kazemi

Borealis AI,Montreal,Canada

Jure Leskovec

Stanford University,Stanford,CA,USA

Jiacheng Li

Zhejiang University,Hangzhou,China

Juncheng Li

Zhejiang University,Hangzhou,China

Pan Li

Purdue University,Lafayette,IN,USA

Yanhua Li

Worcester Polytechnic Institute,Worcester,MA,USA

Renjie Liao

University of Toronto,Toronto,Canada

Xiang Ling

Zhejiang University,Hangzhou,China

Bang Liu

University of Montreal,Montreal,Canada

Ninghao Liu

Texas A&M University,College Station,TX,USA

Zirui Liu

Texas A&M University,College Station,TX,USA

Hehuan Ma

University of Texas at Arlington,Arlington,TX,USA

Collin McMillan

University of Notre Dame,Notre Dame,IN,USA

Christopher Morris

Polytechnique Montréal,Montréal,Canada

Zongshen Mu

Zhejiang University,Hangzhou,China

Menghai Pan

Worcester Polytechnic Institute,Worcester,MA,USA

Jian Pei

Simon Fraser University,British Columbia,Canada

Yu Rong

Tencent AI Lab,Shenzhen,China

Amarda Shehu

George Mason University,Fairfax,VA,USA

Kai Shen

Zhejiang University,Hangzhou,China

Chuan Shi

Beijing University of Posts and Telecommunications,Beijing,China

Le Song

Mohamed bin Zayed University of Artificial Intelligence,Abu Dhabi,United Arab Emirates

Chang Su

Weill Cornell Medicine,New York City,NY,USA

Jian Tang

Mila-Quebec AI Institute,HEC Montreal,Canada

Siliang Tang

Zhejiang University,Hangzhou,China

Fei Wang

Weill Cornell Medicine,New York City,NY,USA

Shen Wang

University of Illinois at Chicago,Chicago,IL,USA

Shiyu Wang

Emory University,Atlanta,GA,USA

Xiao Wang

Beijing University of Posts and Telecommunications,Beijing,China

Yu Wang

Vanderbilt University,Nashville,TN,USA

Chunming Wu

Zhejiang University,Hangzhou,China

Lingfei Wu

Pinterest,San Francisco,CA,USA

Hongxia Yang

Jiangchao Yao

Alibaba Group,Hangzhou,China

Philip S. Yu

University of Illinois at Chicago,Chicago,IL,USA

Muhan Zhang

Peking University,Beijing,China

Wenqiao Zhang

Zhejiang University,Hangzhou,China

Liang Zhao

Emory University,Atlanta,GA,USA

Chang Zhou

Alibaba Group,Hangzhou,China

Kaixiong Zhou

Texas A&M University,TX,USA

Xun Zhou

University of Iowa,Iowa City,IA,USA

术  语

图的基本概念

图:一个图由一个节点集合和一个边集合组成。其中,节点集合中的节点代表实体,边集合中的边代表实体之间的关系。节点和边构成图的拓扑结构。除图结构以外,节点、边和(或)整个图都可以与丰富的信息相关联,这些信息被表征为节点/边/图的特征(又称为属性或内容)。

子图:子图也是图,子图的节点集合和边集合是源图的子集。

中心度:中心度用来度量图中节点的重要性。中心度的基本假设是,如果许多其他重要的节点也连接到该节点,则认为该节点是重要的。常见的中心度度量包括度数中心度、特征向量中心度、间隔性中心度和接近性中心度。

邻域:一个节点的邻域一般是指与该节点相近的其他节点的集合。例如,一个节点的k阶邻域也叫k步邻域,这个节点的k阶邻域内的所有节点与该节点之间的最短路径距离都不大于k

社群:社群是指一组内部连接密集但外部连接却不太密集的节点。

图抽样:图抽样是一种从源图中挑选节点和(或)边的子集的技术。图抽样可用于在大规模图上训练机器学习模型,同时防止发生严重的可扩展性问题。

异质图:如果一个图的节点和(或)边类型不同,那么称这个图为异质图。异质图的典型代表是知识图谱,知识图谱中的边可以是不同的类型。

超图:超图是对图的扩展,超图中的一条边可以连接任意数量的节点。

随机图:随机图通常旨在对所观察图生成的图的概率分布进行建模。目000001前最基本、研究最透彻的随机图模型名为Erdős-Rényi,该模型假定节点集合是固定的,此外每条边都相同并且是独立生成的。

动态图:当一个图的数据至少有一个组成部分随时间发生变化,比如增加或删除节点、增加或删除边等,如果边的权重或节点的属性也发生变化,则称这个图为动态图,否则称其为静态图。

图机器学习

谱图论:谱图论旨在分析与图有关的矩阵,如邻接矩阵或拉普拉斯矩阵,使用的是线性代数工具,如研究矩阵的特征值和特征向量。

图信号处理:图信号处理(Graph Signal Processing,GSP)旨在开发工具以处理定义在图上的信号。图信号是数据样本的有限集合,图中的每个节点都有一个样本。

节点级任务:节点级任务是指与图中单个节点相关的机器学习任务。节点级任务的典型代表是节点分类002和节点回归。

边级任务:边级任务是指与图中一对节点相关的机器学习任务。边级任务的典型代表是链接预测。

图级任务:图级任务是指与整个图相关的机器学习任务。图级任务的典型代表是图分类和图属性预测。

直推式学习归纳式学习:直推式学习是指在训练期间观察目标实例,如节点或边(尽管目标实例的标签仍是未知的),归纳式学习旨在学习可泛化到未观察到的实例的模型。

图神经网络

网络嵌入:网络嵌入旨在将图中的每个节点表征为一个低维向量,以便在嵌入向量中保留有用的信息,比如图结构和图的一些属性。网络嵌入又称为图嵌入和节点表征学习。

图神经网络:图神经网络是指能够在图数据上工作的任何神经网络。

图卷积网络:图卷积网络通常是指由Kipf和Welling(Kipf and Welling,2017a)提出的特定图神经网络。在某些文献中,图卷积网络偶尔会被用作图神经网络的同义词。

消003息传递:消息传递是图神经网络的框架之一,其中的关键步骤是根据每个神经网络层的图结构在不同节点之间传递消息。采用最为广泛的表述为消息传递神经网络,也就是仅在直接连接的节点之间传递消息(Gilmer et al,2017)。在某些文献中,消息传递函数也称为图滤波器或图卷积。

读出:读出(readout)是指对各个节点的信息进行总结,以形成更高层次的信息,如形成子图/超图或获得整个图的表征。在某些文献中,读出也称为池化(pooling)或图粗粒化(graph coarsening)。

图对抗攻击:图对抗攻击旨在通过操纵图结构和(或)节点表征以产生最坏情况下的扰动,从而使得一些模型的性能下降。图对抗攻击可以根据攻击者的目标、能力及其所能够获得的知识进行分类。

鲁棒性验证:鲁棒性验证旨在提供形式化的保证,使得即使根据某个扰动模型进行扰动,GNN的预测也不受影响。

主要符号

数、数组和矩阵

x

标量

x

向量

X

矩阵

I

单位矩阵

实数集

复数集

整数集

n维的实数向量集合

mn列的实数矩阵集合

[a, b]

包含ab的实数区间

[a, b)

包含a但不包含b的实数区间

xi

向量x中索引为i的元素

Xi,j

矩阵X中行索引为i、列索引为j的元素

E

边集合

V

节点(顶点)集合

A

邻接矩阵

L

拉普拉斯矩阵

D

对角矩阵

和图的同构关系

是图的一个子图

是图的一个真子图

和图的并集

和图的交集

和图的并查集

和图的笛卡儿积

和图的连接

基本操作

XT

矩阵X的转置

XYXY

矩阵XY的点积

XY

矩阵XY的阿达马积

det(X)

矩阵X的行列式

xp

xp范数(也叫lp范数)

并集

交集

子集

真子集

<x,y>

矢量xy的内积

函数

定义域为、值域为的函数

y关于x的导数

y关于x的偏导数

y关于x的梯度

y关于x求导后的张量

函数f在点x处的黑塞矩阵

x整个域上的定积分

集合上关于x的定积分

θ参数化的关于x的函数

f *g

函数fg的卷积

概率论

p(a)

变量a的概率分布

p(b|a)

给定变量a,变量b的条件概率分布

ab

随机变量ab是独立的

ab|c

给定变量c,变量ab有条件地独立

ap

随机变量a具有分布p

f (a)相对于变量a在分布p下的期望

均值为µ、协方差为Σ的x上的高斯分布

资源与支持

本书由异步社区出品,社区(https://www.epubit.com)为您提供相关资源和后续服务。

您还可以扫码右侧二维码, 关注【异步社区】微信公众号,回复“e59872”直接获取,同时可以获得异步社区15天VIP会员卡,近千本电子书免费畅读。

配套资源

本书提供如下资源:

图书参考文献电子版;

书中彩图;

图书学习思维导图。

您可以扫码右侧二维码并发送“59872”添加异步助手为好友获取以上配套资源。

如果您是教师,希望获得教学配套资源,请在社区本书页面中直接联系本书的责任编辑。

提交勘误

作者、译者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”,输入错误信息,单击“提交”按钮即可,如下图所示。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

扫码关注本书

扫描下方二维码,您将会在异步社区微信服务号中看到本书信息及相关的服务提示。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区投稿(直接访问www.epubit.com/contribute即可)。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

异步图书”是由异步社区编辑团队策划出版的精品IT图书的品牌,依托于人民邮电出版社几十年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、人工智能、测试、前端、网络技术等。

异步社区

微信服务号

 第一部分 引言 

第1章 表征学习

Liang Zhao、Lingfei Wu、Peng Cui和Jian Pei[1]

摘要

在本章中,我们将首先介绍什么是表征学习以及为什么需要表征学习。在表征学习的各种方式中,本章重点讨论的是深度学习方法:那些由多个非线性变换组成的方法,目的是产生更抽象且最终更有用的表征。接下来,我们将总结不同领域的表征学习技术,重点是不同数据类型的独特挑战和模型,包括图像、自然语言、语音信号和网络等。最后,我们将总结本章的内容,并提供基于互信息的表征学习的延伸阅读材料——一种最近出现的通过无监督学习的表征技术。

[1] Liang Zhao

Department of Computer Science,Emory University,E-mail:liang.zhao@emory.edu

Lingfei Wu

Pinterest,E-mail:lwu@email.wm.edu

Peng Cui

Department of Computer Science,Tsinghua University,E-mail:cuip@tsinghua.edu.cn

Jian Pei

Department of Computer Science,Simon Fraser University,E-mail:jpei@cs.sfu.ca

1.1 导读

机器学习技术的有效性在很大程度上不仅依赖于算法本身的设计,而且依赖于良好的数据表征(特征集)。由于缺少一些重要信息、包含不正确信息或存在大量冗余信息,无效数据表征会导致算法在处理不同任务时表现不佳。表征学习的目标是从数据中提取足够但最少的信息。传统上,该目标可以通过先验知识以及基于数据和任务的领域专业知识来实现,这也被称为特征工程。历史上,在部署机器学习和许多其他人工智能算法时,很大一部分人力需要投到预处理过程和数据转换中。更具体地说,特征工程是利用人类的聪明才智和现有知识的一种方式,旨在从数据中提取并获得用于机器学习任务的判别信息。例如,政治学家可能定义一个关键词列表用作社交媒体文本分类器的特征,以检测那些关于社会事件的文本。对于语音转录识别,人们可以通过相关操作(如傅里叶变换等)从原始声波中提取特征。尽管多年来特征工程得到了广泛应用,但其缺点也很突出,包括:(1)通常需要领域专家的密集劳动,这是因为特征工程可能需要模型开发者和领域专家之间紧密而广泛的合作;(2)不完整的和带有偏见的特征提取。具体来说,不同领域专家的知识限制了所提取特征的容量和判别能力。此外,在许多人类知识有限的领域,提取什么特征本身就是领域专家的一个开放性问题,如癌症早期预测。为了避免这些缺点,使得学习算法不那么依赖特征工程,一直是机器学习和人工智能领域的一个非常理想的目标,由此可以快速构建新的应用,并有望更有效地解决问题。

表征学习的技术见证了从传统表征学习到更先进表征学习的发展与演变。传统的表征学习方法属于“浅层”模型,旨在学习数据转换,使其在建立分类器或其他预测器时更容易提取有用的信息,如主成分分析(Principal Component Analysis,PCA)(Wold et al,1987)、高斯马尔可夫随机场(Gaussian Markov Random Field,GMRF)(Rue and Held,2005)以及局部保持投影(Locality Preserving Projections,LPP)(He and Niyogi,2004)。基于深度学习的表征学习则由多个非线性变换组成,目的是产生更抽象且更有用的表征。为了介绍更多的最新进展并聚焦本书的主题,本节主要关注基于深度学习的表征学习,具体可以分为以下三种类型:(1)监督学习,需要通过大量的标记数据训练深度学习模型。给定训练良好的网络,最后一个全连接层之前的输出总是被用作输入数据的最终表征。(2)无监督学习(包括自监督学习),有利于分析没有相应标签的输入数据,旨在学习数据的潜在固有结构或分布,通过代理任务可以从大量无标签数据中探索监督信息。基于这种方式构建的监督信息可以训练深度神经网络,从而为未来下游任务提取有意义的表征。(3)迁移学习(Transfer Learning,TL),涉及利用任何知识资源(如数据、模型、标签等)增加模型对目标任务的学习和泛化能力。迁移学习囊括不同的场景,如多任务学习(Multi-Task Learning,MTL)、模型适应、知识迁移、协变量偏移等。其他重要的表征学习方法还有强化学习、小样本学习和解耦表征学习等。

定义什么是好的表征很重要。正如Bengio(2008)所定义的那样,表征学习是关于学习数据的(底层)特征。在建立分类器或其他预测器时,基于表征更容易提取有用的信息。因此,对所学表征的评价与其在下游任务中的表现密切相关。例如,在基于生成模型的数据生成任务中,对于观察到的输入,好的表征往往能够捕捉到潜在解释因素的后验分布;而对预测任务来说,好的表征能够捕捉到输入数据的最少但足够的信息来正确预测目标标签。除从下游任务的角度进行评价以外,还可以基于好的表征可能具有的一般属性进行评价,如平滑性、线性、捕捉多个解释性的或因果性的因素、在不同任务之间保持共同因素以及简单的因素依赖性等。

1.2 不同领域的表征学习

在本节中,我们将总结表征学习在4个不同的代表性领域的发展状况:(1)图像处理;(2)语音识别;(3)自然语言处理;(4)网络分析。对于每个研究领域的表征学习,我们将考虑一些推动该领域研究的基本问题。具体来说,是什么让一个表征比另一个表征更好,以及应该如何计算表征?为什么表征学习在该领域很重要?另外,学习好的表征的适当目标是什么?我们还将分别从监督表征学习、无监督表征学习和迁移学习三方面介绍相关的典型方法及其发展状况。

1.2.1 用于图像处理的表征学习

图像表征学习是理解各种视觉数据(如照片、医学图像、文件扫描和视频流等)的语义的一个基本问题。通常情况下,图像处理中的图像表征学习的目标是弥合像素数据和图像语义之间的语义差距。图像表征学习已经成功解决了现实世界里的许多问题,包括但不限于图像搜索、面部识别、医学图像分析、照片处理和目标检测等。

近年来,我们见证了图像表征学习从手工特征工程到通过深度神经网络模型自动处理的快速发展过程。传统上,图像的模式是由人们基于先验知识借助手工特征提取的。例如,Huang et al(2000)从笔画中提取了字符的结构特征,然后用它们识别手写字符。Rui(2005)采用形态学方法改善了字符的局部特征,然后使用PCA提取字符的特征。然而,所有这些方法都需要手动从图像中提取特征,因此相关的预测表现强烈依赖于先验知识。在计算机视觉领域,由于特征向量具有高维度,手动提取特征是非常烦琐和不切实际的。因此,能够从高维视觉数据中自动提取有意义的、隐藏的、复杂的模式,这样的图像表征学习是必要的。基于深度学习的图像表征学习是以端到端的方式学习的,只要训练数据的质量足够高、数量足够多,其在目标应用中的表现就比手动制作的特征要好得多。

用于图像处理的监督表征学习。在图像处理领域,监督学习算法,如卷积神经网络(Con- volution Neural Network,CNN)和深度信念网络(Deep Belief Network,DBN),被普遍应用于解决各种任务。最早的基于深度监督学习的成果之一是在2006年提出的(Hinton et al,2006),它专注于处理MNIST数字图像分类问题,其表现优于最先进的支持向量机(Support Vector Machine,SVM)。自此,深度卷积神经网络(ConvNets)表现出惊人的性能,这在很大程度上取决于它们的平移不变性、权重共享和局部模式捕获等特性。为了提高网络模型的容量,人们开发了不同类型的网络架构,而且收集的数据集越来越大。包括AlexNet(Krizhevsky et al,2012)、VGG(Simonyan and Zisserman,2014b)、GoogLeNet(Szegedy et al,2015)、ResNet(He et al,2016a)和DenseNet(Huang et al,2017a)等在内的各种网络以及ImageNet、OpenImage等大规模数据集都可以用于训练深层的卷积神经网络。凭借复杂的架构和大规模数据集,卷积神经网络在各种计算机视觉任务中不断超越之前最先进的技术。

用于图像处理的无监督表征学习。在图像数据集和视频数据集中,大规模数据集的收集和标注都很耗时且昂贵。例如,ImageNet包含大约130万张有标签的图像,涵盖1 000个类别,每张图像都由人工标注了一个类别标签。为了减少大量的人工标注工作,人们提出了许多用于从大规模未标注的图像或视频中学习视觉特征的无监督方法,而无须任何人工标注。一种流行的解决方案是提出各种代理任务供模型解决,模型则通过学习代理任务的目标函数进行训练,并通过这个过程学习特征。针对无监督学习,人们提出了各种代理任务,包括灰度图像着色(Zhang et al,2016d)和图像修复(Pathak et al,2016)。在无监督训练阶段,需要设计供模型解决的预定义的代理任务,代理任务的伪标签是根据数据的一些属性自动生成的,然后根据代理任务的目标函数训练模型。当使用代理任务进行训练时,深度神经网络模型的浅层部分侧重于低层次的一般特征,如角落、边缘和纹理等,而深层部分则侧重于高层次的特定任务特征,如物体、场景等。因此,用预先定义的代理任务训练的模型可以通过学习内核来捕捉低层次和高层次的特征,这些特征对其他下游任务是有帮助的。在无监督训练结束后,这种在预训练模型中学习到的视觉特征便可以进一步迁移到下游任务中(特别是在只有相对较少的数据时),以提高表现并克服过拟合。

用于图像处理的迁移学习。在现实世界的应用中,由于人工标注的成本很高,可能并非总是可以获得足够的属于相同特征空间或测试数据分布的训练数据。迁移学习通过模仿人类视觉系统,在给定领域(即目标领域)执行新任务时,利用了其他相关领域(即源领域)的足够数量的先验知识。在迁移学习中,针对目标领域和源领域,训练集和测试集都可以起作用。大多数情况下,一个迁移学习任务只有一个目标领域,但可以存在一个或多个源领域。用于图像处理的迁移学习技术分为特征表征知识迁移和基于分类器的知识迁移两种。具体来说,特征表征知识迁移利用一组提取的特征将目标领域映射到源领域,这样可以显著减少目标领域和源领域之间的数据差异,从而提高目标领域的任务性能。基于分类器的知识迁移则通常有一个共同的特点,也就是将学到的源领域模型作为先验知识,用于与训练样本一起学习目标模型。基于分类器的知识迁移不是通过提高实例的表征来最小化跨领域的不相似性,而是通过提供的两个领域的训练集和学习的模型来学习另一个新的模型,进而使目标领域的泛化误差最小。

用于图像处理的其他表征学习技术。其他类型的表征学习技术也被经常用于图像处理,如强化学习和半监督学习。例如,可以尝试在一些任务中使用强化学习,如图像描述(Liu et al,2018a;Ren et al,2017)以及图像编辑(Kosugi and Yamasaki,2020),其中的学习过程可被形式化为基于策略网络的一系列行动。

1.2.2 用于语音识别的表征学习

如今,现实生活里的各种应用中和设备上已经广泛集成或开发了语音接口或系统。像Siri[2]、Cortana[3]和谷歌语音搜索[4]这样的服务已经成为人们生活的一部分,被数百万用户使用。对语音识别和分析进行探索的初衷是希望机器能够提供人机交互服务。60多年来,使机器能够理解人类语音、识别说话者和检测人类情感的研究目标吸引了越来越多研究人员的注意力,涉及的研究领域包括自动语音识别(Automatic Speech Recognition,ASR)、说话者识别(Speaker Recognition,SR)和说话者情感识别(Speaker Emotion Recognition,SER)等。

[2] Siri是iOS系统内置的一款人工智能助理软件。

[3] Cortana是微软开发的智能个人助理,被称为“全球首个跨平台的智能个人助理”。

[4] 谷歌语音搜索是谷歌的一款产品,用户可以通过对着手机或计算机说话来使用谷歌语音搜索。工作过程是首先利用服务器识别设备上的内容,然后根据识别结果搜索信息。

分析和处理语音一直是机器学习算法的一个关键应用。传统上,关于语音识别的研究认为,设计手工声学特征的任务与设计有效模型以完成预测和分类决策的任务是彼此独立的两个不同问题。这种方法有两个主要缺点。首先,如前所述,特征工程比较麻烦,涉及人类的先验知识;其次,设计的特征可能不是针对特定语音识别任务的最佳选择。这促使语音社群尝试使用表征学习技术的最新成果,以自动学习输入信号的中间表征,更好地适应将要面临的任务,进而提高性能。在所有这些成功的尝试中,基于深度学习的语音表征发挥了重要作用。我们在语音技术中利用表征学习技术的原因之一在于语音数据与二维图像数据有如下根本区别:图像可以作为一个整体或块进行分析,但语音必须按顺序格式,以捕捉时间依赖性和模式。

用于语音识别的监督表征学习。在语音识别和分析领域,监督表征学习得到了广泛应用,其中的特征表征是通过标签信息在数据集上学习的。例如,受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)(Jaitly and Hinton,2011;Dahl et al,2010)和深度信念网络(Cairong et al,2016;Ali et al,2018)通常用于从语音中学习特征,以处理不同的任务,包括ASR、SR和SER。2012年,微软发布了MAVIS(Microsoft Audio Video Indexing Service)语音系统的新版本,该系统基于依赖上下文的深度神经网络(Seide et al,2011)。与基于高斯混合的传统模型相比,开发人员成功地将4个主要基准数据集上的单词错误率降低了约30%(例如,在RT03S上从27.4%降至18.5%)。卷积神经网络是另一种流行的监督模型,被广泛用于诸如语音和说话人识别等任务中的语音信号特征学习(Palaz et al,2015a,b)和SER(Latif et al,2019;Tzirakis et al,2018)。此外,人们发现LSTM(或GRU)可以学习局部和长期依赖,从而帮助CNN从语音中学习更多有用的特征(Dahl et al,2010)。

用于语音识别的无监督表征学习。利用大型无标签数据集进行无监督表征学习是语音识别的一个活跃领域。在语音分析中,这种技术支持利用实际可用的无限量的无标签语料来学习良好的中间特征表征,这些中间特征表征可用于提高各种下游监督学习语音识别任务或语音信号合成任务的表现。在ASR和SR任务中,大多数工作是基于变分自编码器(Variational AutoEncoder,VAE)的,其中的生成模型和推理模型是联合学习的,这使得它们能够从观察到的语音数据中捕获潜在的表征(Chorowski et al,2019;Hsu et al,2019,2017)。例如,Hsu et al(2017)提出了分层VAE,旨在没有任何监督的情况下从语音中捕捉可以解释和解耦的表征。其他自编码架构,如降噪自编码器(Denoised AutoEncoder,DAE),在以无监督方式寻找语音表征方面非常有前途,尤其是针对嘈杂语音的识别(Feng et al,2014;Zhao et al,2015)。除上述成果以外,最近,对抗性学习(Adversarial Learning,AL)正在成为学习无监督语音表征的有力工具,如生成对抗网络(Generative Adversarial Net,GAN)。GAN至少涉及一个生成器和一个判别器,前者试图生成尽可能真实的数据来混淆后者,后者则尽力试图去除混淆。因此,生成器和判别器都能够以对抗方式进行训练和反复改进,从而产生更多具有判别性和鲁棒性的特征。其中,GAN(Chang and Scherer,2017;Donahue et al,2018)、对抗性自编码器(AAE)(Sahu et al,2017)不仅在ASR的语音建模中,而且在SR和SER的语音建模中正变得越来越流行。

用于语音识别的迁移学习。迁移学习(Transfer Learning,TL)囊括不同的场景,如MTL、模型自适应、知识迁移、协变量偏移等。在语音识别领域,表征学习在TL的这些场景中得到了极大发展,包括领域自适应、多任务学习和自主学习等。就域适应而言,语音数据是典型的异质数据。因此,源域数据和目标域数据的概率分布之间总是存在不匹配的情况。为了在现实生活中构建更强大的语音相关应用系统,我们通常在深度神经网络的训练解决方案中应用域适应技术,以学习能够显式最小化源域数据和目标域数据分布之间差异的表征(Sun et al,2017;Swietojanski et al,2016)。就MTL而言,表征学习可以成功地提高语音识别的性能,而不需要上下文语音数据,这是因为语音包含用作辅助任务的多维信息(如消息、说话者、性别或情感等)。例如,在ASR任务中,通过将MTL与不同的辅助任务(包括性别、说话者适应、语音增强等)结合使用,研究表明,为不同任务学习的共享表征可以作为声学环境的补充信息,并表现出较低的单词错误率(Word Error Rate,WER)(Parthasarathy and Busso,2017;Xia and Liu,2015)。

用于语音识别的其他表征学习技术。除上述三类用于语音识别的表征学习技术以外,还有一些其他的表征学习技术受到广泛关注,如半监督学习和强化学习(Reinforcement Learning,RL)。例如,在ASR任务中,半监督学习主要用于解决缺乏足够训练数据的问题,这可以通过创建特征前端(Thomas et al,2013)、使用多语言声学表征(Cui et al,2015)或从大型未配对数据集中提取中间表征(Karita et al,2018)来实现。RL在语音识别领域也受到广泛关注,并且已经有多种方法可以对不同的语音问题进行建模,包括对话建模和优化(Levin et al,2000)、语音识别(Shen et al,2019)和情感识别(Sangeetha and Jayasankar,2019)。

1.2.3 用于自然语言处理的表征学习

除语音识别以外,表征学习还有许多其他自然语言处理(Natural Language Processing,NLP)方面的应用,如文本表征学习。谷歌图像搜索基于NLP技术利用大量数据把图像和查询映射到了同一空间(Weston et al,2010)。一般来说,表征学习在NLP中的应用有两种类型。在其中一种类型中,语义表征(如词嵌入)是在预训练任务中训练的(或直接由专家设计),然后被迁移到目标任务的模型中。语义表征通过语言建模目标进行训练,并作为其他下游NLP模型的输入。在另一种类型中,语义表征暗含在深度学习模型中,并直接以端到端的方式更好地实现目标任务。例如,许多NLP任务希望在语义上合成句子表征或文档表征,如情感分类、自然语言推理和关系提取等需要句子表征的任务。

传统的NLP任务严重依赖特征工程,这需要精心的设计和大量的专业知识。表征学习(特别是基于深度学习的表征学习)正成为近年来NLP最重要的技术。首先,NLP通常关注多层次的语言条目,包括字符、单词、短语、句子、段落和文档等。表征学习能够在统一的语义空间中表征这些多层次语言条目的语义,并在这些语言条目之间建立复杂的语义依赖模型。其次,可以在同一输入上执行各种NLP任务。给定一个句子,我们可以执行多个任务,如单词分割、命名实体识别、关系提取、共指链接和机器翻译等。在这种情况下,为多个任务建立一个统一的输入表征空间将更加有效和稳健。最后,可以从多个领域收集自然语言文本,包括新闻文章、科学文章、文学作品、广告以及在线用户生成的内容,如产品评价和社交媒体等。此外,也可以从不同的语言中收集这些文本,如英语、汉语、西班牙语、日语等。与传统的NLP系统必须根据每个领域的特点设计特定的特征提取算法相比,表征学习能够使我们从大规模领域数据中自动构建表征,甚至在来自不同领域的这些语言之间建立桥梁。鉴于NLP表征学习在减少特征工程和性能改进方面的这些优势,许多研究人员致力于开发高效的表征学习算法,尤其是用于深度学习的NLP方法。

用于NLP的监督表征学习。近年来,用于NLP的监督学习设定下的深度神经网络中首先出现的是分布式表征学习,然后是CNN模型,最后是RNN模型。早期,Bengio等人首先在统计语言建模的背景下开发了分布式表征学习,Bengio et al(2008)将其称为神经网络语言模型,该模型用于为每个词学习一个分布式表征(即词嵌入)。之后,我们需要一个从构成词或n元文法中提取更高层次特征的有效特征函数。鉴于CNN在计算机视觉和语音处理任务中出色的表现,CNN顺理成章地被选中。CNN有能力从输入的句子中提取突出的n元文法特征,从而为下游任务创建句子的信息潜在语义表征。这一领域由Collobert et al(2011)和Kalchbrenner et al(2014)开创,它使得基于CNN的网络在随后的文献中被广泛引用。通过在隐藏层中加入循环(Mikolov et al,2011a)(如RNN),神经网络语言模型得到改进,其不仅在复杂度(预测正确下一个单词的平均负对数似然的指数)方面,而且在语音识别的误码率方面,能够击败最先进的模型(平滑的n元文法模型)。RNN则采用了处理顺序信息的思路。之所以采用术语“循环”,是因为神经网络语言模型对序列中的每个词条都会进行相同的计算,并且每一步都依赖于先前的计算和结果。一般来说,可通过将词条逐个送入循环单元来生成一个固定大小的向量以表征一个序列。在某种程度上,RNN对以前的计算具有“记忆”,支持在当前处理的任务中使用这些信息。这种模型自然适用于许多NLP任务,如语言建模(Mikolov et al,2010,2011b)、机器翻译(Liu et al,2014;Sutskever et al,2014)以及图像描述(Karpathy and Fei-Fei,2015)。

用于NLP的无监督表征学习。无监督学习(包括自监督学习)在NLP领域取得了巨大成功,这是因为纯文本本身含有丰富的语言知识和模式。例如,在大多数基于深度学习的NLP模型中,句子中的单词首先通过word2vec(Mikolov et al,2013b)、GloVe(Pennington et al,2014)和BERT(Devlin et al,2019)等技术被映射到相关的嵌入,然后被送入网络。不过,我们没有用于学习这些词嵌入的人工标注的“标签”。为了获得神经网络所需的训练目标,有必要从现有数据中产生内在的“标签”。语言建模是典型的无监督学习任务,可以构建单词序列的概率分布,而无须人工标注。基于分布假设,使用语言建模的目标可以获得编码单词语义的隐藏表征。在NLP中,另一个典型的无监督学习模型是自编码器,由降维(编码)阶段和重建(解码)阶段组成。例如,循环自编码器(其囊括具有VAE的循环网络)已经在全句转述检测中超越了最先进的技术,Socher et al(2011)将用于评估副词检测效果的F1分数几乎翻了一番。

用于NLP的迁移学习。近年来,在NLP领域,顺序迁移学习模型和架构的应用印证了迁移学习方法的快速发展,这些方法在广泛的NLP任务中极大改善了相关技术水平。在领域适应方面,顺序迁移学习包括两个阶段:首先是预训练阶段,主要包括在源任务或领域中学习一般的表征;其次是适应阶段,主要包括将学到的知识应用于目标任务或领域。NLP中的领域适应可以分为以模型为中心、以数据为中心和混合方法三种。以模型为中心的方法旨在增强特征空间以及改变损失函数、结构或模型参数(Blitzer et al,2006)。以数据为中心的方法专注于数据方面,涉及伪标签(或自举),其中只有少量的类别在源数据集和目标数据集之间共享(Abney,2007)。混合方法是由以数据和模型为中心的模型建立的。同样,NLP在多任务学习方面也取得了很大的进展,不同的NLP任务可以具有更好的文本表达。例如,基于卷积架构(Collobert et al,2011)开发的SENNA系统在语言建模、词性标签、分块、命名实体识别、语义角色标记和句法解析等任务中共享表征。在这些任务上,SENNA接近甚至有时超过最先进的水平,同时相比传统的预测器在结构上更简单,处理速度更快。此外,学习词嵌入可以与学习图像表征相结合,从而将文本和图像关联起来。

用于NLP的其他表征学习技术。在NLP任务中,当一个问题变得比较复杂时,就需要领域专家提供更多的知识来标注细粒度任务的训练实例,这将增加标注数据的成本。因此,有时需要通过(非常)少的标注数据来有效地开发模型或系统。当每个类别只有一个或几个标注的实例时,问题就变成单样本/少样本学习问题。少样本学习问题源于计算机视觉,最近才开始应用于NLP。例如,研究人员已经探索了少样本关系提取(Han et al,2018),其中每个关系都有几个标注实例以及并行语料库规模有限的低资源机器翻译(Zoph et al,2016)。

1.2.4 用于网络分析的表征学习

除文本、图像和声音等常见数据类型以外,网络数据是另一种重要的数据类型。在现实世界的大规模应用中,网络数据无处不在,从虚拟网络(如社交网络、引用网络、电信网络等)到现实网络(如交通网络、生物网络等)。网络数据在数学上可以表述为图,其中的顶点(节点)及其之间的关系共同表征了网络信息。网络和图是非常强大和灵活的数据表述方式,有时我们甚至可以把其他数据类型(如文本和图像)看作它们的特例。例如,图像可以认为是具有RGB属性的节点网格,它们是特殊类型的图;而文本也可以组织成顺序的、树状的或图结构的信息。因此,总的来说,网络的表征学习已被广泛认为是一项有前途但更具挑战性的任务,需要我们推动和促进许多针对图像、文本等开发的技术的发展。除网络数据固有的高复杂性以外,考虑到现实世界中的许多网络规模庞大,拥有从几百到几百万甚至几十亿个顶点,网络的表征学习的效率也是一个重要的问题。分析信息网络在许多学科的各种新兴应用中具有关键作用。例如,在社交网络中,将用户分类为有意义的社会群体对许多重要的任务是有用的,如用户搜索、有针对性的广告和推荐等;在通信网络中,检测群落结构可以帮助机构更好地理解谣言的传播过程;在生物网络中,推断蛋白质之间的相互作用可以促进研究治疗疾病的新方法。然而,对这些网络的高效和有效分析在很大程度上依赖于网络的良好表征。

传统的网络数据特征工程通常侧重于通过图层面(如直径、平均路径长度和聚类系数)、节点层面(如节点度和中心度)或子图层面(如频繁子图和图主题)获得一些预定义的直接特征。虽然这些手动打造的、定义明确的、数量有限的特征描述了图的几个基本方面,但却抛弃了那些不能被它们覆盖的模式。此外,现实世界中的网络现象通常是高度复杂的,需要通过由这些预定义特征组成的、复杂的、未知的组合来描述,也可能无法用任何现有的特征来描述。另外,传统的图特征工程通常涉及昂贵的计算以及具有超线性或指数级的复杂性,这些问题往往使得许多网络分析任务的计算成本高企,难以在大规模网络中使用。例如,在处理群落检测任务时,经典的方法涉及计算矩阵的谱分解,其时间复杂度至少与顶点数量成四次方关系。这种计算成本使得算法难以扩展到具有数百万个顶点的大规模网络。

最近,网络表征学习(Network Representation Learning,NRL)引起了很多人的研究兴趣。NRL旨在学习潜在的、低维的网络顶点表征,同时保留网络拓扑结构、顶点内容和其他侧面信息。在学习新的顶点表征之后,通过对新的表征空间应用传统的基于向量的机器学习算法,就可以轻松、有效地处理网络分析任务。早期与网络表征学习相关的工作可以追溯到21世纪初,当时研究人员提出了将图嵌入算法作为降维技术一部分的观点。给定一组独立且分布相同的数据点作为输入,图嵌入算法首先计算成对数据点之间的相似性,以构建一个亲和图,如k近邻图,然后将这个亲和图嵌入一个具有更低维度的新空间。然而,图的嵌入算法主要是为降维设计的,其时间复杂度通常与顶点的数量有关,至少是平方复杂度。

自2008年以来,大量的研究工作转向开发直接为复杂信息网络设计的有效且可扩展的表征学习技术。许多网络表征学习算法(Perozzi et al,2014;Yang et al,2015b;Zhang et al,2016b;Manessi et al,2020)已经被提出来并嵌入现有的网络,这些算法在各种应用中表现良好,它们通过将网络嵌入一个潜在的低维空间而保留了结构相似性和属性相似性,由此产生的紧凑、低维的矢量表征可以作为任何基于矢量的机器学习算法的特征,这为我们在新的矢量空间中轻松、有效地处理各种网络分析任务铺平了道路,如节点分类(Zhu et al,2007)、链接预测(Lüand Zhou,2011)、聚类(Malliaros and Vazirgiannis,2013)、网络合成(You et al,2018b)等。本书后续各章将对网络表征学习进行系统而全面的介绍。

1.3 小结

表征学习是目前非常活跃和重要的一个领域,它在很大程度上影响着机器学习技术的有效性。表征学习是指学习数据的表征,使其在建立分类器或其他预测器时更容易提取有用的、具有鉴别性的信息。当前,在各种学习表征的算法中,深度学习算法已经在诸多领域得到广泛应用。在这些领域,深度学习算法可以基于大量复杂的高维数据,高效且自动地学习好的表征。我们对一个表征做出的评价与其在下游任务中的表现密切相关。一般来说,好的表征除有一些常见属性(如平滑性、线性、离散性)以外,通常还会有一些特殊的属性用于捕捉多个解释性的或因果性的因素。

在本章中,我们总结了不同领域的表征学习技术,重点介绍了不同领域的独特挑战和模型,包括图像、自然语言和语音信号的处理。这些领域都出现了许多基于深度学习的表征技术,可分为监督学习、无监督学习、迁移学习、解耦表征学习、强化学习等不同类别。此外,我们还简要介绍了网络上的表征学习及其与图像、文本和语音的关系,这些内容我们将在后续章节中详细阐述。

读者服务:

微信扫码关注【异步社区】微信公众号,回复“e59872”获取本书配套资源以及异步社区15天VIP会员卡,近千本电子书免费畅读。

第2章 图表征学习

Peng Cui、Lingfei Wu、Jian Pei、Liang Zhao和Xiao Wang[1]

摘要

图表征学习(也称图表示学习)的目的是将图中的节点嵌入低维的表征并有效地保留图的结构信息。最近,人们在这一新兴的图分析范式方面已经取得大量的成果。在本章中,我们将首先总结图表征学习的动机。接下来,我们将系统并全面地介绍大量的图嵌入方法,包括传统图嵌入方法、现代图嵌入方法和图神经网络。

[1] Peng Cui

Department of Computer Science,Tsinghua University,E-mail:cuip@tsinghua.edu.cn

Lingfei Wu

Pinterest,E-mail:lwu@email.wm.edu

Jian Pei

Department of Computer Science,Simon Fraser University,E-mail:jpei@cs.sfu.ca

Liang Zhao

Department of Computer Science,Emory University,E-mail:liang.zhao@emory.edu

Xiao Wang

Department of Computer Science,Beijing University of Posts and Telecommunications,E-mail:xiaowang@bupt.edu.cn

2.1 导读

许多复杂的系统具有图的形式,如社交网络、生物网络和信息网络。众所周知,由于图数据往往是复杂的,因此处理起来极具挑战性。为了有效地处理图数据,第一个关键的挑战是找到有效的图数据表征方法,也就是如何简洁地表征图,以便在时间和空间上有效地进行高级的分析任务,如模式识别、分析和预测。传统上,我们通常将一个图表征为,其中,V是一个节点集合,E是一个边集合。对于大型图来说,比如那些有数十亿个节点的图,传统的图表征在图的处理和分析上面临着一些挑战。

(1)高计算复杂性。这些由边集合E编码的关系使得大多数的图处理或分析算法采用了一些迭代或组合的计算步骤。例如,一种流行的方法是使用两个节点之间的最短或平均路径长度来表示它们的距离。为了用传统图表征计算这样的距离,我们必须列举两个节点之间许多可能的路径,这在本质上是一个组合的问题。由于这种方法会导致高计算复杂性,因此不适用于现实世界的大规模图。

(2)低可并行性。并行和分布式计算是处理和分析大规模数据的事实上的方法。然而,以传统方式表征的图数据给并行和分布式算法的设计与实现带来了严重困难。瓶颈在于,图中节点之间的耦合是由E显式反映的。因此,将不同的节点分布在不同的分片或服务器上,往往会导致服务器之间的通信成本过高并降低加速率。

(3)机器学习方法的不适用性。最近,机器学习方法,特别是深度学习,在很多领域都发挥了强大的功能。然而,对于以传统方式表征的图数据,大多数现有的机器学习方法可能并不适用。这些方法通常假设数据样本可以用向量空间中的独立向量来表示,而图数据中的样本(即节点)在某种程度上是相互依赖的,由E中的边相互连接在一起。虽然我们可以简单地用图的邻接矩阵中相应的行向量来表示一个节点,但在一个有许多节点的大图中,这种表征的维度非常高,会增加后续图处理和分析的难度。

为了应对这些挑战,人们致力于开发新的图表征学习,如针对节点学习密集和连续的低维向量表征,这样可以减少噪声或冗余信息,并保留内在的结构信息。节点之间的关系原来是用图中的边或其他高阶拓扑度量来表征的,可由向量空间中节点之间的距离捕获,节点的结构特征则被编码到该节点的表征向量中。

基本上,为了使表征空间很好地支持图分析任务,图表征学习有两个目标。首先,原始图结构可以从学习到的表征向量中重建。具体原理是,如果两个节点之间有一条边或关系,那么这两个节点在表征空间中的距离应该相对较小。其次,学习到的表征空间可以有效地支持图推理,如预测未见的链接、识别重要的节点以及推断节点标签等。应该注意的是,仅以图重建为目标的图表征对图推理来说是不够的。在得到表征后,还需要根据这些表征来处理下游任务,如节点分类、节点聚类、图的可视化和链接预测。总的来说,图表征学习方法主要有三类——传统图嵌入方法、现代图嵌入方法和图神经网络。接下来我们将分别介绍它们。

2.2 传统图嵌入方法

传统图嵌入方法最初是作为降维技术进行研究的。图通常是从特征表示的数据集中构建出来的,如图像数据集。如前所述,图嵌入通常有两个目标——重建原始图结构和支持图推理。传统图嵌入方法的目标函数主要针对图的重建。

具体来说,首先,Tenenbaum et al(2000)使用K近邻(KNN)等连接算法构建了一个邻接图G。其次,基于G可以计算出不同数据之间的最短路径。因此,对于数据集中的N个数据条目,我们有一个图距离矩阵。最后,将经典多维尺度变换(Multi-Dimensional Scaling,MDS)应用于该矩阵,以获得坐标向量。我们通过Isomap学习的表征近似地保留了低维空间中节点间的地理距离。Isomap的关键问题在于其高复杂性,因为需要计算成对的最短路径。随后,局部线性嵌入(Locally Linear Embedding,LLE)方法(Roweis and Saul,2000)被提出来,用于减少估计相距甚远的节点之间距离的需要。LLE假设每个节点及其邻居节点都位于或接近一个局部的线性流体。为了描述局部几何特征,每个节点都可以通过其邻居节点来重建。最后,在低维空间中,LLE在局部线性重建的基础上构造了一个邻域保留映射。拉普拉斯特征映射(Laplacian Eigenmap,LE)(Belkin and Niyogi,2002)也是首先通过ε邻域或K近邻构建一个图,然后利用热核(Berline et al,2003)来选择图中两个节点的权重,最后通过基于拉普拉斯矩阵的正则化得到节点表征。此外,人们还提出了局部保持投影(Locality Preserving Projection,LPP)(Berline et al,2003),这是一种针对非线性LE的线性近似算法。

在丰富的图嵌入文献中,根据构建的图的不同特征,这些方法得到了不同的扩展(Fu and Ma,2012)。我们发现,传统图嵌入方法大多适用于从特征表示的数据集中构建出来的图,其中,由边权重编码的节点之间的接近度在原始特征空间中有很好的定义。与此形成对比的是,2.3节将要介绍的现代图嵌入方法主要工作在自然形成的网络上,如社交网络、生物网络和电子商务网络。在这些网络中,节点之间的接近度并没有明确或直接的定义。例如,两个节点之间的边通常只是意味着它们之间存在某种关系,但无法表明具体的接近度。另外,即使两个节点之间没有边,我们也不能说这两个节点之间的接近度为零。节点接近度的定义取决于具体的分析任务和应用场景。因此,现代图嵌入通常包含丰富的信息,如网络结构、属性、侧面信息和高级信息,以促进解决不同的问题和应用。现代图嵌入方法需要同时针对前面提到的两个目标。鉴于此,传统图嵌入方法可以看作现代图嵌入方法的特例,而现代图嵌入的最新研究进展则更加关注网络推理。

2.3 现代图嵌入方法

为了更好地支持图推理,现代图嵌入学习考虑了图中更丰富的信息。根据图表征学习中所保留信息的类型,现代图嵌入方法可以分为三类:(1)保留图结构和属性的图表征学习;(2)带有侧面信息的图表征学习;(3)保留高级信息的图表征学习。在技术方面,不同的模型可以用来纳入不同类型的信息或针对不同的目标。常用的模型包括矩阵分解、随机行走、深度神经网络及其变体等。

2.3.1 保留图结构和属性的图表征学习

在图中编码的所有信息中,图的结构和属性是在很大程度上影响图推理的两个关键因素。因此,图表征学习的一个基本要求就是适当地保留图的结构并捕捉图的属性。通常,图结构包括一阶结构和高阶结构(如二阶结构和群落结构)。不同类型的图有不同的属性。例如,有向图具有非对称传递性。结构平衡理论常见于符号图的处理中。

2.3.1.1 保留图结构的图表征学习

图的结构可以分为不同的类别,而且不同类别拥有不同粒度的图表征。在图表征学习中,经常用到的图结构是邻域结构、高阶接近度和群落结构。

如何定义图中的邻域结构是第一个挑战。基于短时随机行走中出现的节点分布与自然语言中单词分布相似的发现,DeepWalk(Perozzi et al,2014)采用了随机行走来捕捉邻域结构,然后对于随机行走产生的每个行走序列,按照Skip-Gram模型,最大化行走序列中邻居节点出现的概率。node2vec定义了一个灵活的节点图邻域概念,并设计了一种二阶随机行走策略来对邻域节点进行抽样,从而在广度优先抽样(Breadth-First Sampling,BFS)和深度优先抽样(Depth-First Sampling,DFS)之间平稳插值。除邻域结构以外,LINE(Tang et al,2015b)被提出用于大规模的网络嵌入,LINE可以保留一阶接近度和二阶接近度。一阶接近度指的是观察到的两个节点之间成对节点的接近度。二阶接近度是由两个节点的“环境”(邻居节点)的相似性决定的。在衡量两个节点之间的关系方面,它们两者都很重要。从本质上说,由于LINE是基于浅层模型的,因此其表现能力有限。SDNE(Wang et al,2016)是一个用于网络嵌入的深度模型,其目的也是捕捉一阶接近度和二阶接近度。SDNE使用具有多个非线性层的深度自编码器架构来保留二阶接近度。为了保留一阶接近度,SDNE采用了拉普拉斯特征映射的思想(Belkin and Niyogi,2002)。Wang et al(2017g)提出了一个用于图表征学习的模块化非负矩阵因子化(M-NMF)模型,旨在同时保留微观结构(即节点的一阶接近度和二阶接近度)以及中观群落结构(Girvan and Newman,2002)。他们首先采用NMF模型(Févotte and Idier,2011)来保留微观结构,同时通过模块化来最大化检测群落结构(Newman,2006a)。然后,他们引入了一个辅助的群落表征矩阵来连接节点的表征和群落结构。通过这种方式,学习到的节点表征将同时受到微观结构和群落结构的制约。

总之,许多网络嵌入方法的目的是在潜在的低维空间中保留节点的局部结构,包括邻域结构、高阶接近度以及群落结构。通过在线性和非线性模型中进行尝试,深度模型在网络嵌入方面具有巨大潜力。

2.3.1.2 保留图属性的图表征学习

目前,现有的保留属性的图表征学习方法大多数侧重于保留所有类型图的传递性以及有符号图的结构平衡性。

图常常存在传递性,同时我们也发现,保留这样的属性并不难。这是因为在度量空间中,不同数据之间的距离天然地满足三角形不等式。然而,这在现实世界中并不总是对的。Ou et al(2015)想要通过潜在的相似性组件来保留图的非传递属性。非传递属性的内容是,对于图中的节点v1v2v3,其中的(v1; v2)和(v2; v3)是相似对,但(v1; v3)可能是一个不相似对。例如,在社交网络中,一名学生可能与家人和同学有紧密联系,但这名学生的同学和家人可能彼此并不熟悉。上述方法的主要思想是,首先学习多个节点的嵌入表征,然后根据多个相似性而不是一个相似性来比较不同的节点接近度。通过观察可以发现,如果两个节点有很大的语义相似性,那么它们至少有一种嵌入表征的相似性很大,否则所有表征的相似性都很小。有向图通常具有非对称传递性。非对称传递性表明,如果有一条从节点i到节点j的有向边以及一条从节点j到节点v的有向边,则很可能存在一条从节点i到节点v的有向边,但不存在从节点v到节点i的有向边。为了测量这种高阶接近度,HOPE(Ou et al,2016)总结了4种测量方法,然后利用广义SVD问题对高阶接近度进行了因子化(Paige and Saunders,1981),这样HOPE的时间复杂度便大大降低了,这意味着HOPE对于大规模的网络是可扩展的。在一个既有正边又有负边的符号图中,社交理论〔如结构平衡理论(Cartwright and Harary,1956;Cygan et al,2012)〕与在无符号图中的区别非常大。结构平衡理论表明,在有签名的社交网络中,用户应该能够让他们的“朋友”比他们的“敌人”更亲密。为了给结构平衡现象建模,SiNE(Wang et al,2017f)提出了由两个具有非线性函数的深度图组成的深度学习模型。

人们已充分认识到在网络嵌入空间中保持图属性的重要性,特别是那些在很大程度上影响网络演化和形成的属性。关键的挑战是如何解决原始网络空间和嵌入矢量空间在属性层面的差异和不均匀性。一般来说,大多数结构和属性保护方法都考虑了节点的高阶接近度,这表明了在图嵌入中预先服务高阶接近度结构的重要性,区别在于获得高阶接近度结构的策略。一些方法通过假设从一个节点到其邻居节点的生成机制来隐含地保留高阶接近度结构,而另一些方法则通过在嵌入空间中明确地逼近高阶接近度来实现。由于拓扑结构是图数据最明显的特征,因此很大一部分文献介绍了保留拓扑结构的方法。相对而言,可以保留属性的图嵌入方法是一个相对较新的研究课题,目前只有比较浅显的研究。图属性由于通常驱动着图的形成和演化,因此它们在未来的研究和应用中具有巨大的潜力。

2.3.2 带有侧面信息的图表征学习

除图结构以外,侧面信息是图表征学习的另一个重要信息源。在图表征学习中,侧面信息可以分为两类——节点内容以及节点和边的类型,它们的区别在于整合网络结构和侧面信息的方式。

带有节点内容的图表征学习。在某些类型的图(如信息网络)中,节点伴随着丰富的信息,如节点标签、属性甚至语义描述。如何在图表征学习中把它们与网络拓扑结构结合起来?这引发了人们相当大的研究兴趣。Tu et al(2016)通过利用节点的标签信息,提出了一种半监督的图嵌入算法——MMDW。MMDW同样基于DeepWalk衍生的矩阵分解,采用支持向量机(Support Vector Machine,SVM)(Hearst et al,1998)并结合标签信息来找到最佳分类边界。Yang et al(2015b)提出了TADW——TADW在学习节点的低维表征时会考虑与节点相关的丰富信息(如文本)。Pan et al(2016)提出了一个耦合的深度模型,旨在将图结构、节点属性和节点标签纳入图嵌入方法。虽然不同的方法采用不同的策略来整合节点内容和网络拓扑结构,但它们都认为节点内容提供了额外的接近度信息来约束节点的表征。

异质图表征学习。与带有节点内容的图不同,异质图由不同类型的节点和边组成。如何在图嵌入方法中统一异质类型的节点和边?这也是一个有趣但具有挑战性的问题。Jacob et al(2014)提出了一种用于分类节点的异质社交图表征学习算法,该算法将在一个共同的向量空间中学习所有类型节点的表征,并在这个空间中进行推理。Chang et al(2015)提出了一种针对异质图(其中的节点可以是图像、文本等类型)的深度图表征学习算法,图像和文本的非线性嵌入方法可以分别由CNN模型和全连接层学习到。Huang and Mamoulis(2017)提出了一种保留元路径相似性的异质信息图表征学习算法。为了对一个特定的关系进行建模,元路径(Sun et al,2011)需要是一个带有边类型的对象类型的序列。

在保留侧面信息的方法中,侧面信息引入了附加的接近度度量,这样可以更全面地学习节点之间的关系。这些方法的区别在于整合网络结构和侧面信息的方式,它们中的许多是由保留图结构的网络嵌入方法自然延伸出来的。

2.3.3 保留高级信息的图表征学习

与侧面信息不同,高级信息是指特定任务中的监督或伪监督信息。保留高级信息的网络嵌入通常包括两部分:一部分是保留网络结构,以便学习节点表征;另一部分是建立节点表征和目标任务之间的联系。高级信息和网络嵌入技术的结合使得网络的表征学习成为可能。

信息扩散。信息扩散(Guille et al,2013)是网络上无处不在的现象,尤其是在社交网络中。Bourigault et al(2014)提出了一种用于预测社交网络中信息扩散的图表征学习算法。该算法的目标是学习潜在空间中的节点表征,使得扩散核能够更好地解释训练集中的级联。该算法的基本思想是将观察到的信息扩散过程映射为连续空间中的扩散核所模拟的热扩散过程。扩散核的扩散原理是,潜在空间中的一个节点离源节点越近,这个节点就会越早被源节点的信息感染。这里的级联预测问题被定义为预测给定时间间隔后的级联规模增量(Li et al,2017a)。Li et al(2017a)认为,关于级联预测的前期工作依赖手动制作的特征袋来表征级联和图结构。作为替代,他们提出了一个端到端的深度学习模型,旨在利用图嵌入方法的思想来解决这个问题。整个过程能够以端到端的方式学习级联图的表征。

异常检测。异常检测在以前的工作中得到了广泛研究(Akoglu et al,2015)。图中的异常检测旨在推断结构上的不一致,也就是检测连接到各种具有影响力群落的异常节点(Hu et al,2016;Burt,2004)。Hu et al(2016)提出了一种基于图嵌入的异常检测方法,他们假设两个链接节点的群落成员身份应该是相似的。异常节点是指连接到一组不同群落的节点。由于学习到的节点嵌入方法捕捉了节点和群落之间的关联性,基于该节点嵌入方法,他们提出了一个新的度量来表明节点的异常程度。度量值越大,节点成为异常节点的概率就越高。

图对齐。图对齐的目标是建立两个图中节点之间的对应关系,即预测两个图之间的锚链接。不同社交网络共享的相同用户自然形成了锚链接,这些锚链接是不同图之间的桥梁。锚链接预测的问题可以定义为给定源图和目标图以及一组观察到的锚链接,识别两个图中的隐藏锚链接。Man et al(2016)提出了一种图表征学习算法来解决这个问题。学习到的表征可以保留图的结构并重视观察到的锚链接。

保留高级信息的图嵌入通常包括两部分:一部分是保留图的结构,以便学习节点表征;另一部分是建立节点表征和目标任务之间的联系。前者类似于保留结构和属性的网络嵌入,后者则通常需要考虑特定任务的领域知识。对领域知识这种高级信息的编码使得开发图应用的端到端模型成为可能。与手动提取的网络特征(如众多的图中心度量)相比,高级信息和图嵌入技术的结合使图的表征学习成为可能。许多图应用可以从这种新模式中获益。

2.4 图神经网络

在过去的10年中,深度学习已经成为人工智能和机器学习的“皇冠上的明珠”,在声学、图像和自然语言处理等方面具有卓越的表现。尽管众所周知,图在现实世界中无处不在,但利用深度学习方法来分析图数据仍非常具有挑战性。具体表现在:(1)图的不规则结构。与图像、音频、文本有明确的网格结构不同,图有不规则的结构,这使得一些基本的数学运算很难推广到图上。例如,为图数据定义卷积和池化操作(这是卷积神经网络中的基本操作)并不简单。(2)图的异质性和多样性。图本身可能很复杂,包含不同的类型和属性。针对这些不同的类型、属性和任务,解决具体问题时需要利用不同的模型结构。(3)大规模图。在大数据时代,现实中的图可以很容易拥有数量达到数百万或数十亿的节点和边。如何设计可扩展的模型(最好的情况是模型的时间复杂度相对于图的大小具有线性关系)是一个关键问题。(4)纳入跨学科知识。图经常与其他学科相联系,如生物学、化学和社会科学等。这种跨学科的性质使得机会和挑战并存:领域知识可以用来解决特定的问题,但整合领域知识也会使得模型设计更为复杂。

图神经网络在过去几年中得到了大量的研究与关注,所采用的架构和训练策略千差万别,从监督到非监督,从卷积到循环,包括图循环神经网络(Graph RNN)、图卷积网络(GCN)、图自编码器(GAE)、图强化学习(Graph RL)和图对抗方法等。具体来说,Graroperty h RNN通过在节点级或图级进行状态建模来捕捉图的循环和顺序模式;GCN则在不规则的图结构上定义卷积和读取(readout)操作,以捕捉常见的局部和全局结构模式;GAE假设低秩图结构并采用无监督的方法进行节点表征学习;图强化学习定义了基于图的动作和奖励,以便在遵循约束条件的同时获得图任务的反馈;图对抗方法采用对抗训练技术来提高图模型的泛化能力,并通过对抗攻击测试其鲁棒性。

另外,许多正在进行的或未来的研究方向也值得进一步关注,包括针对未研究过图结构的新模型、现有模型的组合性、动态图、可解释性和鲁棒性等。总的来说,图深度学习是一个很有前途且快速发展的研究领域,它既提供了令人兴奋的机会,也带来了许多挑战。对图深度学习进行研究是关系数据建模的一个关键构件,也是迈向未来更好的机器学习和人工智能技术的重要一步。

2.5 小结

在本章中,我们首先介绍了图表征学习的动机。其次,在2.2节中讨论了传统图嵌入方法,并在2.3节中介绍了现代图嵌入方法。基本上,保留结构和属性的图表征学习是基础。如果不能很好地保留图结构并在表征空间中保留重要的图属性,就会存在严重的信息损失并损害下游的分析任务。基于保留结构和属性的图表征学习,人们可以应用现成的机器学习方法。如果有一些额外信息,那么可以将它们纳入图表征学习。此外,可以考虑将一些特定应用的领域知识作为高级信息。

读者服务:

微信扫码关注【异步社区】微信公众号,回复“e59872”获取本书配套资源以及异步社区15天VIP会员卡,近千本电子书免费畅读。

相关图书

图神经网络前沿
图神经网络前沿
Python神经网络项目实战
Python神经网络项目实战
TensorFlow深度学习项目实战
TensorFlow深度学习项目实战
PyTorch深度学习和图神经网络(卷2)——开发应用
PyTorch深度学习和图神经网络(卷2)——开发应用
PyTorch深度学习和图神经网络(卷1)——基础知识
PyTorch深度学习和图神经网络(卷1)——基础知识
人工智能算法 卷3 深度学习和神经网络
人工智能算法 卷3 深度学习和神经网络

相关文章

相关课程