隐私保护计算

978-7-115-61352-3
作者: 王伟李浥东刘吉强
译者:
编辑: 贺瑞君

图书目录:

详情

数据作为第五大生产要素,已成为数字经济发展的重要引擎,正在深刻影响着全社会生产生活的方方面面。隐私保护计算是在保障数据要素和隐私安全的同时实现有效计算的技术体系,在加速数据要素流通和释放数据要素价值等方面发挥着核心作用。本书旨在阐释隐私保护计算的基础知识和核心技术,为隐私保护计算相关应用的落地和数据价值的释放提供重要参考。 本书共分为3 个部分:第一部分介绍隐私保护计算的基础知识,第二部分介绍联邦学习、同态加密、零知识证明、安全多方计算、可信执行环境、差分隐私、数据删除及智能合约等隐私保护计算的核心技术;第三部分介绍隐私计算的应用实践,包括应用指南(法律法规、标准体系和应用准则等)、产业发展及对未来的展望等。 本书适合隐私保护计算领域的研究人员、工程技术人员,以及金融科技、互联网和数字经济等领域的从业人员阅读,也可供计算机、人工智能等专业的研究生学习、参考。

图书摘要


隐私保护计算


王伟 李浥东 刘吉强 著







人民邮电出版社

北京

图书在版编目(CIP)数据

隐私保护计算 /王伟,李浥东,刘吉强著.--北京:人民邮电出版社,2023.8

ISBN 978-7-115-61352-3

Ⅰ.①隐… Ⅱ.①王… ②李… ③刘… Ⅲ.①计算机网络―网络安全 Ⅳ.①TP393.08

中国国家版本馆CIP数据核字(2023)第044678号

◆ 著 王伟 李浥东 刘吉强

责任编辑 贺瑞君

责任印制 李东 焦志炜

◆ 人民邮电出版社出版发行 北京市丰台区成寿寺路11号

邮编 100164 电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

北京瑞禾彩色印刷有限公司印刷

◆ 开本:787×1092 1/16

印张:21 2023年8月第1版

字数:498千字 2023年8月北京第1次印刷

定价:149.00元

读者服务热线:(010)81055552 印装质量热线:(010)81055316

反盗版热线:(010)81055315

广告经营许可证:京东市监广登字20170147号

内容提要

数据作为第五大生产要素,已成为数字经济发展的重要引擎,正在深刻影响着全社会生产生活的方方面面。隐私保护计算是在保障数据要素和隐私安全的同时实现高效计算的技术体系,在加速数据要素流通和释放数据要素价值等方面发挥着核心作用。本书旨在阐释隐私保护计算的基础知识和核心技术,为隐私保护计算相关应用的落地和数据价值的释放提供重要参考。

本书共分为3个部分:第一部分介绍隐私保护计算的基础知识,第二部分介绍联邦学习、同态加密、零知识证明、安全多方计算、可信执行环境、差分隐私、数据删除及智能合约等隐私保护计算的核心技术;第三部分介绍隐私保护计算的应用实践,包括应用指南(法律法规、标准体系和应用准则等)、产业发展及对未来的展望等。

本书适合隐私保护计算领域的研究人员、工程技术人员,以及金融科技、互联网和数字经济等领域的从业人员阅读,也可供计算机、人工智能等专业的研究生学习、参考。

随着信息技术的发展和应用,用户的电子医疗档案、互联网搜索历史、社交网络记录等信息的收集、发布等过程中涉及的用户隐私泄露问题越来越受到人们的重视。尤其是在大数据场景下,多个不同来源的数据基于数据相似性和一致性进行链接,在产生新的、更丰富的数据内容的同时,也给用户隐私保护带来了更严峻的挑战。通俗地讲,用户不愿意公开的所有信息都属于隐私,不仅包括个人身份、地址、照片、消费记录、轨迹信息等,还包括商业文档、技术秘密等。隐私保护问题的解决一方面需要配套的法规、政策的支持和严格的管理手段,另一方面也需要可信赖的技术手段支持。

王伟教授团队多年来扎根在隐私保护计算领域,在理论、技术和应用方面展开了一系列研究,《隐私保护计算》一书正是他们团队在这一领域耕作多年的收获。王伟教授邀请我为此书写一篇序,因此,我概览了一遍此书,认为有以下几个特点。

(1)表述清晰。此书涉及的概念比较多,有些概念也比较抽象,书中的表述图文并茂,并采用表格、伪码等形式,增强了可读性,适合初学者阅读。

(2)内容丰富。此书不仅包括联邦学习、同态加密、零知识证明、安全多方计算、可信执行环境、差分隐私、数据删除、智能合约等技术,还介绍了相关的法规、政策和标准。

(3)实践性强。此书介绍了隐私保护计算技术在智慧交通、智慧园区等场景中的应用实例,能够指导人们使用隐私保护计算技术来解决实际中遇到的隐私保护问题,具有很强的实践性。

在此,我向对隐私保护计算技术感兴趣的高年级本科生和研究生,以及相关科技人员推荐此书。通过阅读本书,读者可以了解隐私保护计算技术的基本原理和方法,深刻认识隐私保护的内涵和意义。


2023年2月于北京

前言

信息化和智能化已成为现代社会经济发展的重要特征。从购物、出行、医疗到办公,信息化带来的社会变革一直在加速。数据深度服务于经济建设、社会治理和个人生活等各个方面。如今,以数字经济为重要代表的新经济已经成为社会经济增长的新引擎。数据作为重要的生产要素,已经成为基础性战略资源,在数字经济中起着举足轻重的作用。对数据进行处理(包括数据分析、计算和训练等),以得到智能化模型并构建智能系统,从而形成智能化和精准化的决策,是人工智能赋能社会经济发展的一般过程。然而,数据处理所包括的数据收集、存储、使用、加工、传输、提供、公开等环节面临着数据安全与隐私泄露的风险和挑战。一方面,数字经济的发展需要数据要素的支撑;另一方面,数据拥有方因为个人隐私等考虑不愿意开放数据共享,从而形成了数据孤岛。数据的高效利用与隐私保护形成了一个突出矛盾。

隐私保护计算就是为了化解这一矛盾,实现“数据可用不可见”这一目标而发展出来的重要理论和技术。它是在隐私保护的前提下,针对数据进行分析和计算,从而实现数据价值挖掘、完成决策任务的一套技术体系。隐私保护计算一方面能够保护数据中蕴含的隐私信息,另一方面能针对数据进行充分的计算或处理,形成智能化和精准化的决策与应用。打破数据孤岛、加速数据流通、释放数据价值,是隐私保护计算的重要目标和主要内容。

隐私保护计算是兼顾数字经济发展和个人隐私保护双重目标的重要技术,其中既包括过去基于密码学的同态加密、零知识证明,也包括近年来迅速发展的差分隐私和联邦学习。随着数据应用需求的不断增长,隐私保护计算技术也在不断进化和发展。各种新技术融合创新,多门学科交叉发展,是隐私保护计算技术快速发展的重要特征。同时,隐私保护计算也在多种场景下得到应用,推动了数字经济的发展。

2021年下半年,《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》的相继施行,使得隐私保护计算成为部分产业发展的必然选择。过去几年来,隐私保护计算的相关技术在快速发展,相关的国内和国际标准已发布或正在制定中,大批从事隐私保护计算的公司也在快速诞生和崛起。作者团队从2020年10月开始主持国家重点研发计划项目“城市智能系统可信任机理与关键”,研究多智体的可信性评估方法、可信协同计算和隐私数据共享理论与技术,构建面向隐私保护的数据聚合平台,并开展强隐私保护的民生众包服务和保障消费者隐私的智慧零售示范应用。在研究过程中,项目团队提出了相关的隐私保护计算理论与技术,并开发了松耦合、可插拔、可扩展的隐私保护计算平台,还基于该平台开发了面向隐私保护的工单分配系统和个性化商品推荐系统。在项目的实施与研究过程中,我们发现有关隐私保护计算的中文图书还比较少。为了应对新技术的快速发展,响应隐私保护计算需求,加强隐私保护计算技术的教学及与之相关的科研和应用,我们总结了相关的文献和著作,并综合我们过去已有的一些工作基础,撰写了本书。在书中,我们首先介绍了隐私保护计算的基础知识;然后,从输入隐私、输出隐私和策略执行3个方面对隐私保护计算技术进行了分类,并对这3个类别的核心技术进行了详细讲解;最后,介绍了隐私保护计算的应用与实践。

作者团队早在2016年就创建了智能交通数据安全与隐私保护技术北京市重点实验室,几位作者从事隐私保护和智能算法研究已有十几年,并且已有一些成果得到发表和应用。本书早在2021年9月就开始策划,经过近两年的反复雕琢才最终成稿。在作者团队撰写本书的过程中,隐私保护计算相关技术也在不断发展,特别是随着一些技术标准的不断出台、应用场景的不断创新,隐私保护计算的内涵与外延也在不断地发展和变化。基于此,作者团队对之前撰写的很多标准和应用都进行了大幅调整,以期使本书内容尽量贴近发展前沿。尽管作者团队在本书中努力构建较全面的隐私保护计算技术体系,尽量全面、准确地介绍和分析隐私保护计算相关的技术和应用,但因为认知和水平有限,书中的错误和疏漏在所难免,敬请各位读者批评指正。

全书共13章,分为3个部分。

第一部分包括第1章、第2章,介绍隐私保护计算的基础知识。第1章介绍隐私保护计算的背景,走近现代信息的繁荣与危机,回顾隐私意识的觉醒历程,探寻隐私保护的发展动机。第2章介绍隐私保护计算的概念,包括隐私保护计算的相关术语、总体模型及技术脉络。

第二部分包括第3章~第10章,介绍隐私保护计算的核心技术。第3章介绍联邦学习,在数据不出本地的情况下实现联合建模。第4章介绍同态加密,直接在密文上进行与明文数据相对应的计算。第5章介绍零知识证明,在不揭示有用信息的前提下证明给定语句。第6章介绍安全多方计算,在输入和中间结果保密的情况下实现联合计算。第7章介绍可信执行环境,通过安全区确保数据和代码的可信运行。第8章介绍差分隐私,限制并量化统计算法中的隐私风险。第9章介绍数据删除,不留痕迹地从计算结果中删除特定数据。第10章介绍智能合约,在区块链和预言机的加持下实现隐私策略的自动执行。

第三部分包括第11章~第13章,介绍隐私保护计算的应用实践。第11章介绍隐私保护计算的应用指南,概述隐私保护计算的政策法规和标准体系,并给出隐私保护计算的应用准则。第12章介绍隐私保护计算产业的发展,讨论隐私保护计算潜在的业务场景,并列举现有的隐私保护计算平台框架。第13章对全书进行总结,并介绍未来的发展方向。

我们要感谢许多数学和计算机领域的同行,他们为本书提供了极好的基础素材。由于篇幅有限,我们并没有将这些素材的相关文献全部放入书中,而是在每章最后列选了一些优秀书目和前沿方向,帮助读者夯实背景、开阔视野。

本书从筹备到成稿,得到了一群优秀研究生的协助。博士研究生振昊参与撰写了本书第1章、第2章及第8章,还组织了全书的修订工作。多位研究生也参与了本书的撰写工作。对他们的辛苦工作一并表示感谢:

第3章 刘鹏睿、吕晓婷

第4章 于锦汇、吕红梅

第5章 王斌、易龙杨

第6章 原笑含、江文彬

第7章 陈颢瑜、李珊

第8章 郝玉蓉

第9章 许向蕊、刘敬楷

第10章 陈国荣、孙阳阳

第11章 韩昫、张云肖、赵双、谢智强

第12章 刘文博、曹鸿博、伍羽放

此外,感谢人民邮电出版社高级策划编辑贺瑞君等人的帮助。本书得到了国家重点研发计划项目“城市智能系统可信任机理与关键技术”(2020YFB2103800)、北京交通大学教学改革和建设项目,以及工信学术出版基金项目的资助。

数学符号

第一部分 基础知识

第1章 绪论

物质、能量和信息被认为是构成现实世界的三大要素。没有信息,物质和能量都会变得杂乱无章,从而失去意义。信息的扩散既是经济活动的核心动力,又是社会进步的重要基础。隐私的故事同样源远流长,它的本质是一种愿望或需求,关乎人类的安宁、自由与尊严。进入数字时代后,信息与隐私愈发交织在一起。如何应对公共利益与个人权利之间的矛盾,成为摆在全社会面前的一道难题。作为具有广阔前景和应用价值的解决方案,隐私保护计算正逐渐从幕后走向前台,从加分项变为必选项。

本章探讨信息与隐私的密切联系,从而为深入理解隐私保护计算做好准备。第1.1节介绍数字时代的信息繁荣及其背后的隐私危机。第1.2节简述隐私意识和观念的产生、变革与发展。第1.3节从外部和内部两个视角剖析隐私保护的动机。

1.1 信息繁荣与隐私危机

从公元前1万年的新石器时代到公元前4000年的青铜器时代,农业革命用了6000年才对文明产生全面而深刻的影响。进入21世纪20年代,在历经另一个6000年后,信息革命终于结出硕果。计算机的诞生开创了一个崭新的时代,技术的蓬勃发展催生了信息的繁荣与兴盛。同时,与之伴生的隐私问题进入大众视野,逐渐演变成了社会焦虑。

1.1.1 数字时代沧海桑田

信息是人类经验传递的一种载体,信息流通则是文明发展的根本需求。事实上,人类一直生活在各种各样的信息社会中,而每一次社会变革都伴随着信息技术的重大突破。信息技术的发展历程如图1.1所示。

语言的产生标志着从猿到人的蜕变。大脑对世界的认知通过对话产生联系,最终形成具有共同文化的社会群体。文字的创造使人类迈向文明,书写历史。信息不再转瞬即逝,人们的思想情感、生活经验和文化习俗得以记录下来,并超越时空限制传递出去。造纸术与印刷术的发明促进了文明的交流与融合,使书籍和报刊成为信息的主要媒介,信息的存储质量和传播范围得到进一步改善。电磁理论与技术的发展深刻地影响了人们的生活、工作与娱乐方式。电报、电话和广播电视的普及使得信息的传播效率大大提高,传播形式也趋于多样化。计算机与互联网的诞生彻底地改变了人们生产和使用信息的方式。“比特”(bit)成为信息的基本单位,而“数据”被用来表示“可传输和可存储的计算机信息”。

与大多数文献一样,本书不对“数据”和“信息”进行太多区分,仅在此浅析二者的差异。数据可以看作对信息的记录。它具有特定的表现形式,但其中并不一定包含信息。信息则可以视为对数据的提炼。它能够消除不确定性,为杂乱无章的数据赋予价值。例如,密码编码学的目标是隐藏信息的含义,其通过加密算法将信息深埋在数据之中。只有拥有密钥的一方才能读取有效的信息,否则看到的只是无法理解的符号。密码破译困难重重,而将数据处理成有价值的信息也绝非易事,需要付出很多努力和代价。数据–信息–知识–智慧金字塔(Data-Information-Knowledge-Wisdom Pyramid,DIKW Pyramid)展现了这一过程,如图1.2所示。信息可以进一步归纳为知识,而知识亦可以通过灵活运用产生智慧。

过去几十年,信息技术迅猛发展。在这个过程中,久负盛名的摩尔定律(Moore’s Law)就像一只看不见的手,准确地预测着半导体行业的发展。摩尔定律指出,集成电路上的晶体管数量每18个月便会增加一倍。这意味着在相同的价格下,微处理器的性能每18个月就能提高一倍。1971年,世界上第一款微处理器——英特尔(Intel)4004宣告问世,其上仅有2300个晶体管。而在半个世纪后,由苹果(Apple)制造的M1 Max芯片已经可以容纳570亿个晶体管,是前者的近2500万倍。2015年,在摩尔定律发表50周年之际,埃信华迈(IHS Markit)做出了一个大胆的假设。如果将摩尔定律的周期增加一倍,变为36个月,那么全球科技水平将倒退17年,回到1998年。

随着计算、存储和通信的成本呈指数级下降,数据的规模和种类出现爆炸式增长。据资本视觉(Visual Capitalist)统计,全世界所有人每天会发布5亿条推文,进行50亿次搜索,传递650亿条WhatsApp消息,发送2940亿封电子邮件,并产生4PB的Facebook数据。国际数据公司(International Data Corporation,IDC)预测,全球数据总量将在2025年达到175ZB。如果将这些数据存储在DVD中,那么所用光盘的高度将是地球到月球距离的23倍,可以绕地球赤道222圈。与此同时,数据在区域内和区域间的流通速度也在持续加快。2019年,联合国贸易和发展会议(United Nations Conference on Trade and Development,UNCTAD)指出,2022年全球互联网协议流量将超过2016年以前的流量总和,达到150TB/s。

规模空前的数据共享一方面创造了巨大的经济价值,另一方面为整个社会带来了诸多争议和隐患。计算机与互联网不仅让世人拥有更便捷的连接、更精准的服务和更智能的决策,也让大众饱受勒索病毒、网络诈骗、人肉搜索和版权侵害等问题的困扰。新技术的出现令人们感到双重不安:新的麻烦不断产生,而旧有威胁则变得更加严重。

1.1.2 隐私风险无处不在

数字时代就像一座“全景监狱”,让每个角落都充斥着监控与窥探。数据的非竞争和不可分离特性,令其可以在无损耗的情况下被反复使用,并无法与数据主体完全剥离。这使得数据一旦产生,对其流向及用法的控制便难上加难,越来越多的数据在不为人知的情况下得以联结与整合。电商企业熟知用户的购买偏好,网约车平台掌握用户的出行路线,互联网公司保存用户的搜索记录,社交软件清楚用户的朋友圈和聊天内容……这些数据反映了各个领域的微观现实,它们共同描绘出一幅细致入微的个人肖像,本属隐私的信息也因此一览无遗。

在进一步论述隐私风险前,需要明确个人信息这一目标对象,如图1.3所示。个人信息通常是指以电子或其他形式记录的、能够单独或与其他信息结合,从而识别特定自然人身份或反映特定自然人活动情况的各种信息,如个人身份信息、生物识别信息、健康信息及财产信息等。在此基础上,可以定义个人敏感信息。它特指一旦被泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。除个人信息以外的信息统称为非个人信息。

通常,隐私风险源自数据生命周期的各个阶段,包括数据采集、传输、存储、使用和删除等,如图1.4所示。数据采集是指直接或间接从个人或机构获取数据的过程。数据传输是指将数据从一个实体发送到另一个实体的过程。数据存储是指使用磁盘、云存储服务等载体将数据持久化保存的过程。数据使用是指对数据进行访问、加工、开发、测试、转让及公开披露等操作的过程。数据删除(Data Deletion,DD)是指使数据处于不可检索、不可访问或不可复原等状态的过程。

在数据采集阶段,不当获取数据的案例比比皆是,个人的知情同意权不断遭受挑战。在法律的要求下,服务提供者往往通过隐私声明履行告知义务,并取得用户的同意。然而,大多数隐私政策的篇幅冗长、结构复杂、内容晦涩。有研究表明,如果想将一年中所用应用程序的隐私政策全部读完,需要花费近250小时。某些时候,这些政策不仅沦为企业的免责声明,甚至成为霸王条款的藏身之所。在缺少替代品的情况下,用户只能同意了事,而这种同意显然是迫于无奈、流于形式。退一步说,即使用户获得了一定的书面承诺,他们也难以从技术上对其进行验证。人们唯一能做的便是祈求自己的隐私不会被泄露。

数据传输阶段可能存在针对个人信息的窃取、伪造、重放、篡改等一系列非授权行为。而在数据存储阶段,大量集中存放的有价值数据更易成为攻击者的目标。攻击来源也变得更加多样,外部黑客和内部人员均有可能图谋不轨,甚至彼此勾结。这些问题既属于信息隐私的范畴,又属于数据安全的范畴,需要依靠二者共同的努力来解决。

数据使用阶段的隐私风险主要包括两种:一种是将数据挪作他用,甚至倒买倒卖;另一种则与数据使用的结果,即数据产品相关。尽管机器学习和统计分析的对象是人群而非个体,但对数据的有损压缩处理并不足以抵御算力激增背景下愈发强大的隐私攻击。学习模型会记住用户的敏感信息,而提供太多、太精确的统计量会使隐私完全暴露。已有的攻击手段包括成员辨别攻击、数据重建攻击和属性推断攻击等。通过这些攻击,攻击者可以识别给定样例是否存在于数据集中,也可以对某个或某些样例的值进行恢复,还可以提取不包含在特征中或与学习目标无关的信息。

在数据删除阶段,尽管其目标就是保护隐私,但不恰当的实现方式反而会暴露隐私。正如在前文中所提到的,个人信息的痕迹往往会残留在数据产品中。因此,只删除原始数据本身并不足以完全规避隐私风险。此外,删除操作势必会导致系统状态、产品性能等方面的变化。这些变化几乎不会对常规用户造成影响,但容易令全副武装的攻击者有所察觉。他们可以使用与数据使用阶段相似的手段完成攻击,从而对人们的隐私造成威胁。

1.2 隐私意识的觉醒

可以看到,当代社会对隐私的焦虑大多源自技术的作恶能力。然而,人们对隐私的渴望与追求远在数字时代之前就已出现。人类的隐私意识究竟从何而来?社会的隐私观念又经历了哪些演变呢?

1.2.1 隐私的概念

尽管人们习惯将自己视为这个世界的主宰者,但对隐私的渴望并不是人类特有的活动。关于动物行为和社会组织的研究表明,人类对隐私的需求很可能源自其动物祖先,动物和人类对于在同伴中索要隐私一事存在着诸多共通之处。几乎所有动物都需要短暂的个体独处或小范围的亲密关系,它们使用复杂的距离设定机制来决定个体在群体中的地域间隔。与此同时,动物也需要同类之间社交接触的刺激,努力在隔绝和参与之间取得平衡是动物生活的基本过程之一。从这种意义上说,对隐私的追求是在所有动物的进化和社会化过程中自然产生的。

现代隐私观念起源于19世纪80年代美国的法律实践。著名的美国最高法院法官路易斯·布兰代斯(Louis Brandeis)将隐私称为“独处权”,认为它是人类尊严、自由、能动性和尊重的基础。如今,隐私权在许多宪法和国际条约中已经被视为一项基本人权,例如《世界人权宣言》《公民权利和政治权利国际公约》和《美洲人权公约》等。中国的《民法典》也明确规定自然人享有隐私权,是其人格权的一部分。对隐私的重视和保护已成为全球各界的广泛共识。

然而,对隐私的在意并不是一个新现象。早在Brandeis之前,几乎所有古代文明及宗教著作,都提到了个人和群体的隐私需求。亚里士多德将人的生活区分为公共空间和私人空间,个人对私人空间应当享有更强的控制。《礼记》中也有“将上堂,声必扬”的论述,提醒人们不要悄悄进入别人的隐私空间,教育人们要考虑到他人的隐私。虽然隐私的含义在不同文化、背景和环境中有所不同,包括“控制”“保密”“亲密”“尊严”“自主”“信任”和Brandeis提出的“独处权”等,但这些正说明了隐私是人类的基本和普遍需求之一。

尽管在不同的时代,隐私保护的侧重和迫切程度有所不同,但保护隐私的制度安排也有共性,即从来都不是把隐私简单界定为一项不可剥夺的权利,而是将隐私视为控制信息和从自有信息中获得福利的权利。这种思路的背后是认识到信息分享的价值,认可消费者对涉及隐私的信息的控制权,因而允许消费者放弃部分隐私,以便享受信息分享带来的好处。在数字时代,这意味着个性化的营销体验,定制化的金融服务、医疗保健、教育,以及便捷的社交网络。换句话说,为了保护好隐私,而不是流于形式,最有效的做法是将隐私视为一种可交换的商品,使参与者有权选择通过让渡部分隐私,从而得到其他好处。正如著名美国法学家理查德·艾伦·波斯纳(Richard Allen Posner)指出,太多隐私倡导者将“避世”与“保密”混为一谈,前者就是Brandeis所说的“独处权”,而后者则是控制信息的权力。

1.2.2 隐私的权利

现代隐私保护法规发轫于“公平信息实践原则”(Fair Information Practice Principles,FIPs)。1973年,美国健康、教育和福利部(U.S. Department Health,Education,and Welfare,HEW)发布《关于计算机、记录和公民权利》的报告,首次引入了“公平信息实践原则”。该报告呼吁美国国会出台一个公平信息行为准则,并提出了五大原则:通知/知情,选择/许可,接入/参与,完整/安全,执行/纠正。在上述原则的基础上,美国国会通过了1974年隐私法案。FIPs中提出的这些原则反映了一个基本共识:数据隐私保护的关键,不是通过对所有权的定义把数据锁起来,而是注重在数据使用过程中的保护。

1980年和1981年,经济合作与发展组织(Organization for Economic Cooperation and Development,OECD)和欧洲委员会先后在《隐私保护和个人数据跨境流动准则》(简称OECD准则)和《对个人数据自动处理进行人权保护的公约》中正式采纳了FIPs,这是它获得国际影响力的一个重要标志。OECD和欧洲委员会都明确地将个人信息定义为:从收集、存储到传播的每一个阶段都需要保护的数据。这两个机构的工作对世界各地相关法律的制定产生了深远的影响,包括影响力巨大的欧盟《数据保护指令原则》以及近年颁布的全面隐私法案,如欧盟的《通用数据保护条例》(General Data Protection Regulation,GDPR)和美国的《加利福尼亚州消费者隐私法案》(California Consumer Privacy Act,CCPA)。

OECD准则旨在“协调隐私立法,并在维护这一人权的同时避免国际数据流动中断”。它强调同时做好隐私保护和数据顺畅流动的重要性,这与数据权衡框架的核心原则一致。欧洲发起《数据保护指令》的契机,部分来自《罗马条约》签订后,欧洲国家要建立“共同市场”和“经济与货币联盟”这一雄心勃勃的计划。

基于FIPs,隐私立法的关注点也在随着时间的推移发生改变。早期版本的FIPs法案旨在保护个人免受不公平或虚假信息的侵害,但后来以FIPs为基础的法案,特别是自1980年OECD准则颁布以后,一直以强化消费者对个人信息的控制为目标。近几年颁布的隐私保护法案,包括GDPR和CCPA,进一步加强了消费者的控制权。GDPR授予了数据主体8项个人数据处理的基本权利。CCPA基于消费者权益的5项原则理念起草,其中4项侧重加强消费者对其信息使用和获取方式的控制权。这些动态的、不断改进的原则,是为了通过对数据流动过程的规定,让个人隐私得到更有效的保护。

1.3 隐私保护的动机

在社会舆论和法律监管的共同驱动下,隐私保护已成为所有服务提供者需重点考虑的事项。隐私作为重要人权,是保护和支持人们在民主社会中拥有众多自由和责任的关键所在。层出不穷的隐私泄露事件,使得公众对网络生活和数字时代的安全感不断下降。由此造成的隐私焦虑逐渐演化成社会恐慌和不满,使服务提供者面临的舆论压力与日俱增。在隐私意见表达网络化、传播路径裂变扩散化的今天,社会舆论这股强大的外部约束力正促使服务提供者采取并实施隐私保护措施。

与此同时,数据安全与隐私保护的合规立法进入“深水区”。据UNCTAD 2021年12月的统计数据,全球范围内已有高达69%的国家制定了数据安全与隐私保护法律。从欧盟的GDPR到美国的CCPA,再到我国的《中华人民共和国数据安全法》(以下简称《数据安全法》)和《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)等,各国均不同程度地加强了隐私保护与数据合规监管的力度。复杂且细粒度的法律监管正迫使服务提供者在数据采集、传输、删除等过程中满足隐私保护合规性。

可以看到,当人们倡导隐私保护时,提及的重点往往集中在隐私被侵犯后造成的负面影响。诚然,由此触发的隐私保护动机至关重要,但并不全面。本小节从隐私保护的内生优势入手,阐述隐私保护为建立信任关系、改善数据质量及维护数据市场秩序这3个方面带来的正向激励。

诺贝尔经济学奖获得者保罗·罗默(Paul M. Romer)指出:“数字平台发展中,信任和规则的建立同样重要”。隐私机制作为建立信任关系的关键维度,是企业强化品牌效应、塑造品牌形象的重要渠道。虽然数据隐私和算法被滥用的质疑不断侵蚀企业信任,但并非所有企业均受此影响。2021年,谷歌推出隐私沙盒(Privacy Sandbox)计划,宣布逐渐在Chrome浏览器上停止支持跨网站跟踪用户的第三方Cookie。苹果也本着将隐私保护贯穿于每项产品设计中的理念,从严控外部应用获取用户信息权限到强化自身内部应用程序,提出多项新的隐私保护策略。它推出的“跟踪透明度”[1]框架被认为是改变隐私保护行业的重磅举措。

网络化、数据化、智能化已成为数字社会经济不可阻挡的趋势,个人数据和隐私保护成为伴随数字产业生命周期的永恒主题。野蛮粗犷式的产业发展不仅不利于人们享受信息技术的美妙成果,更有碍产业整体的长远发展。事实证明,在全球隐私保护政策日趋严苛的时代,谁能够用好数据、在保护数据安全和个人隐私的前提下最大化数据价值,谁就能在竞争中获得优势,脱颖而出。企业唯利益最大化的发展目标已成历史,兼顾社会责任、公众隐私保护等多种价值因素的企业发展模式才是当今潮流。

数据已成为第五大生产要素,成为创造私人和社会价值的重要战略资产。数据主体是否愿意提供高质量的个人信息取决于多种因素,包括服务提供者的可信度、所要求数据的敏感度,以及相应服务的提升度等。而数据主体对服务提供者的可信度,往往取决于服务提供者保护隐私的力度。

下面通过一个员工满意度调查案例来解读如何通过隐私保护改善数据质量。员工满意度调查是企业决策者提升经济绩效、改善内部管理的基础性工作,也是员工反映自身意见、提出工作诉求的平台之一。假设企业进行这样一项调查以了解员工对公司工作环境、作息制度、组织政策、福利待遇等方面的满意程度。即使企业事先向参与者说明此举的目的,且保证所发布的结果只是平均水平,参与者也不能完全确定其个人答案会被保密。此时,真正对工作有意见的参与者往往选择做出虚假应答,甚至直接不参加。在这种背景下,企业获取的数据必定存在偏差,数据分析结果自然也不具备代表性。

事实上,绝大多数用户愿意通过参与个人数据分析获得有价值的服务。他们的确在意隐私保护,但如果存在一种隐私保护技术,能使参与者打消隐私顾虑,具备合理否认的权利,那么更多的参与者会有足够的信任参与调查过程并提供高质量的真实数据。也就是说,借助隐私保护技术,数据主体和服务提供者都可从中受益。服务提供者重视数据主体的隐私诉求,打消了数据主体在选择服务、使用服务过程中的隐私顾虑;数据主体为了获取更好的服务,在隐私保护下提供高质量的数据,让服务提供者进行分析并改进服务。与不考虑隐私保护的情形相比,隐私保护技术或许会对统计分析的结果造成些许偏差,但借助高质量的带噪声统计特征,服务提供者依然能够对数据进行合理且有效的分析挖掘,进而实现服务水平的提升。值得一提的是,因隐私保护造成的偏差远小于因隐私顾虑带来的偏差。

数据确权作为数据进入开放式交易和商业化利用的前提,不仅是数字经济的基石,也是决定数据产业能否健康可持续发展的重要前提。与石油等实物商品不同,数据具有与传统生产要素截然不同的本质特征,即非竞争性与不可分离性。非竞争性表明数据可以被无限次地生产和使用,而不会对原始数据和数据主体造成损耗。不可分离性则是指数据主体无法与数据的生产、使用完全分离。这两个本质特征也决定了数据拥有不同于其他生产要素的权益和责任机制。将数据所有权交付给数据主体,看似是一个自然选择,却违背了数据的非竞争性,会导致数据使用率大打折扣。

一个合理的数据治理和权益分配机制,应当能够令各参与方有动力参与到数据的生产、交互和使用中,同时保护好数据安全与主体隐私。隐私保护计算技术充分考虑了数据资源的价值,催生了以技术和数据为驱动力的全新商业模式,成为修复数据市场、推动商业竞争和创新的关键环节。与以往个人数据几乎是免费商品的市场有所不同,随着市场需求的不断增加,具有隐私保护特性的个人数据逐渐成为经济物品,市场深度与广度出现了前所未有的发展。以机器学习业务为代表的初创企业不再面临用户与数据间“先有鸡还是先有蛋”的困境。在新兴数据市场中,他们只需付费即可获得数据使用权,并从中提取有效价值。相应地,随着数据具有更多的价值,越来越多的企业开始考虑开放并不断优化其算法,利用数据主体的使用情况进行分析以实现知识共享。隐私保护计算作为驱动商业模式更新的一个重要组成部分,对促进数据流动、实现数据价值变现和增值具有重要意义。

作为强大的内部激励措施,隐私保护计算的内生优势很大程度上推动了企业对隐私保护的重视程度与实施力度,是监管和公众压力等外部激励措施的关键补充。

1.4 延伸阅读

Payton等[2014]和Davidof[2019]列举了大量隐私侵犯和数据泄露案例,并给出了可能的应对方案。[Solove, 2008]是隐私领域的经典著作,它概述了主流的隐私理论及其短板,充分探讨了隐私的价值,并从信息收集、信息处理、信息传播和信息侵扰等4个方面重新对隐私进行了分类。Nissenbaum[2009]提出了场景一致性理论,他认为隐私的实质是在特定场景下合理的信息流动,而这一观点也受到了社会各界的广泛认可。Wacks[2015]用简短的篇幅带领读者认识隐私,并针对隐私和言论自由的关系给予了精彩论述。Vincent[2016]详细地讲述了隐私发展的漫长历史,充分展现了隐私观念的变化和争议。向宏[2019]以颇具武侠风格的语言,深入浅出地介绍了隐私信息保护。Baase等[2017]从多个维度审视和探讨了信息技术对人类社会的影响与冲击,弥补了相关领域书籍的空白。

第2章 隐私保护计算的基础知识

2006年,欧洲理事会决定将每年的1月28日定为数据保护日(Data Protection Day),以纪念《关于个人数据自动化处理的个人保护公约》开放签署。时至今日,这一天已经成为国际公认的隐私盛会,越来越多的人意识到尊重隐私、保护数据和增强信任的重要性。然而,隐私并非免费的午餐,它始终伴随着牺牲、挣扎与妥协。幸运的是,不断发展的隐私保护计算正努力帮助人们应对在计算实践中面临的信息隐私问题。

本章介绍隐私保护计算的基础知识。第2.1节介绍一些常见且容易混淆的相关概念,包括隐私设计、隐私工程,以及隐私、安全与效用之间的关系。第2.2节定义隐私保护计算模型,阐述隐私保护计算所涉及的具体角色、计算类型和隐私目标。第2.3节介绍隐私保护计算技术的历史沿革,并对本书第二部分进行概述。

2.1 隐私保护计算的相关概念

在隐私保护的实践过程中,一种面向隐私开发生命周期的框架——隐私设计与工程逐渐衍生出来。它将隐私保护嵌入信息系统构想、设计、实施与应用的全过程中,把“事后补救”变为“事前防控”。与此同时,隐私与安全密切相关,而潜在效用则是隐私保护的恒久命题。本节逐一介绍这些概念。

2.1.1 隐私设计与工程

隐私设计与工程源自两个独立的概念——隐私设计(privacy by design)和隐私工程(privacy engineering)。EDPS[2018]率先将它们联系起来,并指出隐私设计原则必须转化为隐私工程方法。图2.1描述了隐私设计与工程的整体流程。

隐私设计的核心思想是将隐私特性贯穿于信息系统的整个设计流程中,即设计者应在系统实现前充分考虑隐私需求及政策合规性,提供原生的隐私功能与保障,而不是等到后续阶段再做修补。Cavoukian等[2009]给出了隐私设计的七大原则,具体如下。

(1)主动而非被动、预防而非补救(proactive not reactive, preventive not remedial):设计者必须评估系统中潜在的隐私威胁,并选择相应的保护措施。

(2)默认采取隐私保护(privacy as the default):设计者应确保只处理实现特定目的所需的数据,并在收集、存储、使用和传输阶段保护个人隐私。

(3)在设计中嵌入隐私保护(privacy embedded into design):隐私保护应该是系统的核心与根本功能,而不是在设计完成后附加上去的。

(4)充分发挥作用——正和而非零和(full functionality—positive-sum, not zero-sum):设计者寻求的解决方案不应在隐私保护和系统功能之间存在妥协。

(5)全流程安全——生命周期防护(end-to-end security—life cycle protection):设计者应为个人信息从收集到销毁的每个阶段提供保密性、完整性和可用性。

(6)可见性和透明性(visibility and transparency):设计者应向其他各方提供自身履约的证明,包括明确记录责任、公开管理信息、开展合规检查与矫正等。

(7)尊重用户隐私(respect for user privacy):设计者必须将个人控制和自由选择视为隐私的主要特征,包括征得个人同意、维护信息准确,以及为个人提供访问自身信息、了解信息使用并质疑其使用正确性的接口。

可以看出,隐私设计原则为系统设计和实现方式提供了方向性的指导。在实际应用中,必须将其进一步转化为可操作的具体措施。

回到图2.1中,隐私设计部分主要包括隐私需求与政策规划、隐私风险评估、安全与隐私控制选择,以及隐私计划开发4个阶段。第一,系统所有者需要明确相关的技术标准和法律法规,规划信息系统整体开发阶段涉及的隐私活动,并确保所有核心参与人员在隐私含义和用户需求等方面达成共识。第二,需要评估隐私侵犯对个人和组织的伤害或影响,确定隐私事件发生的可能性,并在综合考虑后确定风险的级别,最终为安全与隐私控制设置合理的预算。第三,需要进行安全与隐私控制机制的选择,二者缺一不可。安全与隐私控制选择通常与隐私风险评估交替进行:先选择一组基线控制,再根据新的风险评估结果增加额外的控制。第四,需要形成包含隐私计划在内的程序文档。隐私计划主要负责隐私特性的实现及其与系统其余部分的集成,它概述了信息系统的隐私需求,并描述了为满足这些需求而准备实施的安全与隐私控制。

隐私工程涵盖信息系统中与隐私相关的活动,包括隐私特性和隐私控制的实现、部署、运行和管理。隐私工程的主要目标是结合技术和管理手段来满足隐私需求、防止个人信息受损,同时降低个人信息泄露造成的影响。Brooks等[2017]列出了隐私工程的5个组件,其中2个组件面向隐私工程过程,另外3个组件通常用于信息安全管理。

(1)隐私需求(privacy requirement):描述与隐私相关的系统需求,具体包括系统提供的保护能力、系统展示的性能和行为特征,以及用于确定隐私需求被满足的凭证。

(2)隐私影响评估(privacy impact assessment):对信息处理方式的分析,具体包括确定处理方式符合与隐私保护相关的法律法规及政策要求,确定以可识别的形式收集、维护和传播信息的风险和影响,检查和评估处理信息时的保护措施及其替代过程是否能减少隐私风险。

(3)风险评估(risk assessment):确定有价值的系统资产和对这些资产的威胁,从而根据威胁的强度、实际发生的概率和资源存在的漏洞来确定威胁成功实施的可能性,最终根据威胁的潜在影响和成功概率来确定风险的影响、概率和等级。

(4)风险管理(risk management):迭代执行4个步骤,包括评估组织资产,选择、实现和评估安全与隐私控制,分配资源、角色和职责并实施控制,以及持续监测和评估风险处理过程。

(5)隐私工程和安全目标(privacy engineering and security objectives):旨在实现公共安全目标和隐私工程目标(将在第2.1.2节详细讨论)。其中,隐私工程目标重点关注系统所需要的能力类型,以便向外部证明其信息系统满足了隐私需求。

在图2.1中,隐私工程在隐私设计之后进行,分为安全与隐私控制实施、隐私系统集成、隐私测试与评估,以及隐私审计与事件响应4个阶段。第一,开发人员需要利用技术手段实现隐私计划中预设的安全与隐私控制,并将其与系统功能集成。在此阶段还需进行基础性测试,以确保集成后的功能按照预期执行。第二,需要集成其他隐私特性并进行测试验证,随后形成关于操作隐私控制列表的系统文档。第三,需要从功能测试、渗透测试和用户测试这3个方面对信息系统进行广泛的测试与评估,并确保系统及其隐私特性能够得到权威机构的认证。第四,在系统部署后通过隐私审计与事件响应来持续监控系统的运行状况,确保其与预设的隐私需求保持一致。

2.1.2 隐私、安全与效用

隐私与安全是一对极易混淆的概念,图2.2从问题与目标两个角度对它们进行了辨析。隐私问题一方面源自对个人信息的授权处理,另一方面源自对个人信息的非授权访问,而后者被认为是安全问题的子集。因此,安全与隐私并不是简单的包含关系。尽管二者之间有所重叠,但有着不同的关注重点。仅保证安全并不足以保护隐私,反之亦然。有时,过强的安全措施甚至可能侵犯隐私。例如,用于拦截恶意软件的流量监控有可能会检查人们常规的浏览记录。

通常,安全领域关注机密性(confidentiality)、完整性(integrity)和可用性(availability),它们以“CIA金三角”的形式广为人知。机密性确保信息不被未授权一方获得或披露。完整性包括数据完整性和系统完整性两个方面,前者确保信息和程序只能以指定和被授权的方式进行修改,后者确保系统在执行其预期功能时,不受蓄意或无意的未授权操作损害。可用性确保系统能够及时响应,且不会拒绝向已授权的用户提供服务。

相较而言,隐私领域更关注可预测性(predictability)、可管理性(manageability)与不可关联性(disassociability),这3个性质可被视为信息隐私的“金三角”。可预测性确保提供者、所有者和操作人员能够对个人信息及用于处理信息的系统做出可靠的假设。可管理性提供对个人信息的细粒度管理能力,包括更改、删除及选择性披露。不可关联性确保在处理个人信息或事件时,不与除系统操作要求之外的个人或设备相关联。

隐私保护面临的一个关键问题是隐私与效用(utility)之间的冲突。通常,效用一词指在合法情况下,多个数据消费者或使用者的可量化利益。这种利益往往源自信息的流动,而提供隐私则意味着需要对信息流加以限制和规范。图2.3体现了隐私与效用的权衡,更先进的隐私理念与技术必将推动隐私与效用的帕累托均衡“由红转绿”。

2.2 隐私保护计算模型

无论采取何种隐私理论和规范,因技术变革而产生的隐私威胁终究要依靠技术本身来缓解,这也是本书的核心内容。隐私保护计算(Privacy-Preserving Computation,PPC)是在计算过程中解决隐私问题的一系列技术方案,涉及密码学、统计学、人工智能等诸多学科和领域的知识。长期以来,隐私保护计算以隐私增强计算(Privacy-Enhancing Computation,PEC)和隐私感知计算(Privacy-Aware Computation,PAC)等名称出现,并蕴含了以下3个关键问题。第一,隐私保护计算涉及哪些参与角色,这些角色的具体任务和潜在威胁是什么?第二,隐私保护计算支持哪些计算类型,每种类型的计算方式和性能度量方法是什么?第三,隐私保护计算提供哪些隐私保证,各项保证的基础理论和支撑技术是什么?接下来,本节依次回答这些问题。

2.2.1 角色定义

隐私保护计算的工作流程涉及许多角色,他们往往具有不同的能力,并承担着不同的职能。通常,隐私保护计算的参与方分为数据提供者、隐私服务者、结果使用者3类,各方之间的关系如图2.4所示。市场监管者负责对各参与方进行认证、评估与审计,既不接触数据,也不提供与数据处理相关的服务。

数据提供者负责供应隐私保护计算所需要的数据,并对相应的处理规则进行授权。根据数据来源的不同,数据提供者可以分为数据主体与数据持有者两类。前者是直接生产数据的自然人,因而又称为数据所有者。后者则是持有数据的组织,其事先从数据主体处收集相关数据。隐私保护计算可能涉及多个数据提供者。为实现信任最小化,他们可以采取一系列保护措施,包括将原始数据留存在本地或对其进行预处理等。

隐私服务者负责提供隐私保护计算所需要的技术方案、基础设施及管理能力。根据工作职能的不同,隐私服务者可以分为开发者、计算者及协调者等。开发者负责对算法流程进行设计、开发与验证,必要时可对算法参数进行保密。计算者提供算力支持,其接收数据提供者的输入,并将输出发送给结果使用者。协调者按照约定配置隐私保护计算任务,并将计算所需的信息分发给各参与方。当数据提供者变更授权时,隐私服务者应及时做出响应,如删除相关数据及其依赖数据。

结果使用者负责接收隐私保护计算的成果,并对其进行二次加工与处理。根据限制条件的不同,结果使用者可以分为特定使用者和外部世界两类。前者在使用目的和范围等方面受到制约,因而在进行操作时仍需考虑隐私问题。后者则不受任何限制,也无须存在任何隐私顾虑。隐私服务者应根据结果使用者的不同采取不同等级的保护措施。

在实际应用中,数据提供者、隐私服务者及结果使用者这3类角色往往存在重叠。数据提供者经常作为结果使用者,享受隐私保护计算带来的红利;而隐私服务者亦常作为数据提供者和结果使用者,与其他数据提供者一同开展联合计算。本书后续章节中将根据语境进行判别。

在理想情况下,每个角色都各司其职,除了履行自己的义务,不会关心其他任何事情。然而,在好奇与利益的驱使下,无论数据提供者、隐私服务者,还是结果使用者,均有可能改变初心,从而对隐私构成威胁。根据攻击行为的不同,攻击者可以分为半诚实攻击者(semi-honest adversary)和恶意攻击者(malicious adversary)两类。半诚实攻击者又称为被动攻击者或诚实但好奇(honest-but-curious)攻击者,其会诚实地执行协议,但也会竭尽所能地获得更多信息。恶意攻击者又称为主动攻击者,其可以在协议执行期间采取任意行动,以使协议的执行偏离原有目的。从数据提供者的视角看,半诚实的数据提供者可以监视所有源自隐私服务者的中间计算结果,而恶意的数据提供者则可以在此基础上篡改计算过程。从隐私服务者的视角看,半诚实的隐私服务者可以监视所有源自数据提供者的信息,而恶意的隐私服务者同样可以篡改计算过程。从结果使用者的视角看,半诚实的结果使用者可以通过黑盒模式或白盒模式监视最终的计算结果。

2.2.2 计算类型

从字面上看,隐私保护计算包含“隐私”与“计算”两个要素。在进一步触及“隐私”之前,本小节对“计算”加以介绍。简单来说,计算(computation)是一种可机械化的过程,用于在给定输入的情况下产生相应的输出。在讨论计算时,有必要对规范(specification)和实现(implementation)这两个概念进行区分。前者关心需要执行什么任务,即通过函数确定输入与输出的关系,这也是本小节的重点。后者则关心如何执行这项任务,即通过程序设法将输入变换为输出,我们将在本书后续章节中看到各式各样的算法。

根据输出性质的不同,计算任务可以分为面向个人的计算和面向群体的计算,如图2.5所示。面向个人的计算是指数据的处理结果仍然针对个人,会对个人的活动产生直接或间接的影响,如信息检索、集合求交等。面向群体的计算是指数据的处理结果仅与群体相关,不针对具体个人进行识别、分析或评估,如统计推断、机器学习和数据合成等。下面简要介绍这些任务。

信息检索(information retrieval)是一种协议,它允许客户端从拥有数据库的服务器中检索其选择的数据项。信息检索的目标是在消耗较少的情况下快速、全面地返回准确结果,对应的性能指标分别为响应时间、查全率(recall)和查准率(precision)。

集合求交(set intersection)允许持有各自集合的多方共同计算集合的交集。在多方联合参与计算的场景中,集合求交是计算前的关键步骤,用于找到多个数据提供者共有的数据样本,如纵向联邦学习中的数据对齐。在设计集合求交的方案时,通常需要考虑多方集合极度不均衡,以及通信、计算和内存开销等问题。

统计推断(statistical inference)是一种从样本特征推断总体特征的方法,它能够对统计总体的参数(如期望、方差等)做出概率性的陈述。统计推断的基本问题可以分为参数估计和假设检验两大类。其中,参数估计的目标是估计总体参数的真值,而假设检验的目标是判断总体的先验假设是否成立。一个好的估计量应该在多次观测中,其观测值能够围绕被估计参数的真值摆动,具体的衡量指标有无偏性(unbiasedness)、有效性(eficiency)和一致性(consistency)。当试验者决定接受或拒绝原假设时,犯错的概率可以用来评估和比较假设检验。

机器学习(machine learning)专注如何通过计算机来模拟或实现人类的学习行为,以获取新的知识或技能,并不断提高其性能。机器学习算法的核心是通过模型训练提取样本数据的特征和规律,并使用这些信息对未来数据做出预测。机器学习强调所学模型对“新样本”的适用性,即模型的泛化能力,具体的评估指标包括准确率(accuracy)、查全率和查准率等。需要注意的是,相同的性能度量可能会让不同的机器学习模型产生不同的结果,这意味着机器学习模型的“好坏”不仅取决于算法和数据,还取决于任务需求。

数据合成(data synthesis)是通过计算机程序人为地产生模拟数据的过程。该人工模拟数据可以从统计学的角度反映真实数据的分布,还可以节省数据采集的成本。由于潜在目的不同,数据合成的评估需要在保真度(fidelity)和多样性(diversity)两个方面进行权衡。前者指生成的模拟数据与真实数据在统计性质上的逼近程度。

2.2.3 隐私保证

信息隐私与个人对自我信息的控制有关,而这种控制通常可以分为以下3个方面,如图2.6所示。

输入隐私(input privacy)规定“如何计算”。具体来说,它的作用是确保隐私服务者不能访问或推导数据提供者的任何输入,以及计算过程中所产生的任何中间结果。这无疑很好地限制了个人信息的流动,杜绝了隐私服务者通过侧信道攻击获得原始数据的可能。输入隐私的概念适合各参与方互不信任的环境,任何一方如果获得比约定输出更多的知识,都会被视为隐私侵犯。

输出隐私(output privacy)决定“披露什么”。具体来说,它的作用是确保隐私服务者的输出中不包含任何超出数据提供者允许范围的可识别信息。这一方面使得结果使用者无法从输出中推断出与数据提供者相关的信息,另一方面也允许数据提供者对隐私泄露的程度进行度量和限制。输出隐私的概念十分适合数据发布场景,它使得敏感数据的公开成为可能。

策略执行(policy enforcement)与控制高度相关,包括但不限于“能算什么”和“向谁披露”。它的作用是确保已制订的隐私策略和计算策略能够按预期执行。与输入隐私和输出隐私不同,策略执行覆盖了所有角色,它能够对各参与方的行为加以规范,使其遵守预先达成的各项协议。

2.3 隐私保护计算技术

如果将隐私保护计算比作一棵树,那么理论和技术就是它的根茎和枝叶。在了解隐私保护计算的模型之后,是时候将目光上移,一同欣赏这棵树上结出的硕果。本节从隐私保护计算的历史出发,对本书涉及的核心技术进行介绍。

2.3.1 历史沿革

隐私保护计算的发展并非一蹴而就,而是历经了半个多世纪的岁月,涉及密码学、统计学、人工智能和计算机体系结构等多个领域。通常,隐私保护计算的历史可以分为萌芽期(1936—1977年)、探索期(1978—2015年)应用期(2016年至今)3个阶段,如图2.7所示。

在萌芽期中,隐私保护计算相关理论取得了里程碑式的突破。1936年,Turing等[1936]给出了一种抽象计算模型——图灵机,奠定了电子计算机的理论基础。1948年,Shannon[1948]提出了信息熵的概念及信息的基本单位——比特,标志着信息论的诞生。1949年,Shannon[1949]开创了用信息理论研究密码的新途径,被视为现代密码学的开端。1960年,Baran[1960]证明了分布式中继节点架构的可生存性,成为计算机网络思想的起源。1965年,Warner[1965]构建了最早的差分隐私(Diferential Privacy,DP)机制——随机应答。1971年,IBM提出了Lucifer加密密码,它是体现了Feistel思想的分组密码算法。1976年,Difie等[2019]提出了公钥密码体制。基于此,多种公钥密码算法相继诞生。1977年,统计披露的语义概念首次形成,揭示了不可能在保证统计效用的同时根除披露的规律。

在探索期中,隐私保护计算技术相继出现,并逐渐从学术界走向工业界。1978年,Rivest等[1978]首次提出了同态加密(Homomorphic Encrgption,HE)和全同态加密的概念,并证明了RSA(Rivest-Shamir-Adelman)公钥密加算法具有乘法同态性。1979年,Shamir[1979]和Blakley[1979]分别提出了最早的秘密共享(Secret Sharing)方案。1981年,Rabin[2005]首次提出了不经意传输(Oblivious Transfer,OT),引起了密码学研究人员的广泛关注。1982年,百万富翁问题为现代密码学引入了新的分支——安全多方计算(Secure Multiparty Computation,SMC)。1985年,零知识证明(Zero-Knowledge Proof,ZKP)的概念被提出,同时在NP问题的证明系统中引入“交互”和“随机性”,构造了交互式证明系统。同年,最早的基于离散对数困难问题的同态加密机制ElGamal被提出,该算法具有乘法同态性质。1986年,第一个基于混淆电路(Garbled Circuit,GC)构造的安全两方计算协议——混淆电路协议(又称姚氏协议)诞生。同年,Meadows[1986]首次提出了基于Difie-Hellmann密钥协商协议的隐私集合求交(Private Set Intersection,PSI)协议。1988年,基于公共参考串模型的非交互式零知识证明系统首次被构造出来。1994年,NickSzabo提出了智能合约(Smart Contract,SC)的概念,但是因为缺乏可信的运行平台,智能合约当时没有得到广泛的关注。1996年,李嘉图合约出现在大众视野,它实现了合约数字化,并从法律角度为智能合约提供了合规的合约模版。1999年,著名的部分同态加密体制Paillier诞生,该算法基于判定合数剩余类问题构建,是目前应用非常广泛的同态加密算法。

2004年,安全多方计算平台Fairplay发布,标志着安全多方计算研究从理论优化转向实用框架。2005年,第一个同时支持任意多次加法同态和一次乘法同态的机制BGN被提出,它是距离全同态加密方案最近的一项工作。2006年,差分隐私的定义正式诞生,基于查询敏感度(而非输出维度)的加噪方法成为标配。2008年,中本聪将比特币带入了公众的视野。2009年,Gentry基于理想格设计了第一代全同态加密方案,并创造性地提出了Bootstraping的想法。同年,开放移动终端平台组织(Open Mobile Terminal Platform,OMTP)在[OMTP,2009]中首次定义了可信执行环境(Trusted Execution Environment,TEE)。2012年,基于带误差学习(Learning with Error,LWE)困难问题构建的BGV算法被提出,这是目前主流的全同态加密方案中效率最高的方案,标志着第二代全同态加密的开始。同年,Bitansky等[2012]首次提出了著名的zk-SNARK,该方案是零知识证明中最经典的加密算法体系,目前被广泛应用于区块链领域。2013年,Intel推出了SGX技术,该技术对云计算安全保护的意义重大。同年,Vitalik Buterin发表了以太坊初版白皮书,以太坊由此诞生。Gentry等[2013]在这一年提出了基于近似特征向量构建的GSW算法,标志着全同态加密的研究进入了第三阶段。2015年,Konečnỳ等[2015]提出了联邦优化,让节点共同训练全局模型,同时保持训练数据在节点本地。同年,中心化预言机Oraclize首次被提出。通过将学习算法转换为求和形式,Cao等[2015]提出了一种通用的遗忘算法,这是实现机器学习场景下某些数据被快速遗忘的首次尝试。

在应用期中,隐私保护计算产品如雨后春笋,层出不穷。2016年,苹果在iOS 10 和macOS Sierra系统中部署(本地)差分隐私机制,掀起了差分隐私应用的浪潮。2018年,谷歌将联邦学习(Federated Learning,FL)应用于Gboard虚拟键盘,并在输入预测和新词发现等一系列任务中表现出众。同年,Ben-Sasson等[2018]首次实现了zk-STARK,实现了不需要可信设置、可扩展的零知识证明协议。2019年,WeBank开源全球首个工业级联邦学习框架FATE。同年,微软发布同态加密开源库SEAL,其支持BFV和CKKS方案。Ginart等[2019]第一次形式化定义了机器学习中的数据删除(机器遗忘),并研究了实现高效机器遗忘的算法原则。2020年,规模最大且用途最广的差分隐私开源平台OpenDP正式发布。同年,美国人口普查局在第24次美国人口普查中启用差分隐私保护;Hu等[2020]首次提出智能合约工程(Smart Contract Engineering,SCE),实现了智能合约的设计开发、合约维护和执行过程的系统性、模块化和规范性。

2.3.2 技术概览

图2.8展示了隐私保护计算的主要技术与三大隐私保证的对应关系。其中,部分技术可以同时满足输入隐私和策略执行的要求,斜体字表示本书未涉及的技术。

联邦学习是保护输入隐私的分布式计算范式,可以实现各个客户端数据不共享的条件下的协同计算。具体来说,服务器与各个客户端通过中间结果的多轮交互来获得计算结果,在整个计算过程中,客户端的数据始终存储在本地,同时其他客户端和服务器对该客户端的数据没有任何访问权限。在客户端知情并且同意隐私政策的前提下,联邦学习满足数据最小化原则。在每轮迭代过程中,客户端仅为特定的计算任务传输必要的更新,同时,服务器仅短暂存储中间结果以即时完成聚合,并仅发布最终的计算结果。然而,现有工作表明,攻击者可以依据中间结果获得原始数据的一些信息,因此,联邦学习还需结合安全多方计算或同态加密等来增强计算过程的保密性,并结合差分隐私来增强结果发布的匿名性。目前,谷歌、微众银行、达摩院及百度等机构发布了联邦学习开源框架,并且联邦学习已经在政务、金融和医疗等场景中得到应用。

同态加密允许隐私数据以密态形式参与运算,并得到与明文运算一致的结果,为输入隐私提供了强有力的保证。具体来说,同态加密算法都是基于数论难题构造的,攻击者无法在多项式时间内破解密钥,也就无从获取加密数据的真实值。对于管护者来说,数据在外包计算的全周期都处于加密状态,计算过程中产生的中间值和统计值也处于密态,这些统计值与密文之间仅存在链式推断关系。因此,管护者始终无法从中推断真实数据。此外,即使非法访问的用户成功获取管护者服务器中其他用户的密文数据,同样无法得到数据明文。

零知识证明通过构造证明协议使得证明者在不透露命题相关数据的情况下向验证者证明该命题,从而保护证明者在协议交互过程中的输入隐私。具体来说,证明协议的实现让证明者在不提供目标命题的具体内容时也能向验证者证明该命题的正确性。其中,“零知识”就是指验证者除了对论断判断的结果之外,无法获取任何额外信息。现有的研究通常将零知识证明的思想应用于设计隐私保护计算协议来解决许多实际场景下的隐私数据证明问题。

安全多方计算借助密码学技术构造多方计算协议,在不泄露隐私数据的前提下,可实现一组互不信任的应答者之间的协同计算。具体来说,应答者先利用混淆电路、秘密共享等技术将原始数据转换成管护者不可识别的密态数据,再交由管护者执行计算,从而为应答者的输入数据提供隐私保护。由于计算的过程通常以协议的形式体现,在半诚实模型下,应答者和管护者会严格遵循协议执行预设的步骤完成计算任务。恶意模型下,虽然恶意的应答者或管护者存在篡改、中止协议等行为,但可以通过引入一些特殊的机制(如切分选择)来阻止该现象发生,最终实现隐私数据的可用、可控、可共享。因此,安全多方计算也能为策略执行目标提供隐私保证。

可信执行环境依靠芯片等硬件和软件协同对数据进行保护,同时保留与系统运行环境之间的算力共享,可用于处理敏感数据、部署计算逻辑,进而执行隐私保护计算。从输入隐私角度来看,可信执行环境通过时分复用CPU或划分部分内存地址作为安全空间来建立隔离执行环境,以保证外部环境不能获取甚至篡改其内部的信息。因此,用户可以将自己的隐私数据上传到可信执行环境中,而无须担心自己的数据被其他恶意用户窃取。从策略执行的角度来看,可信执行环境能够通过安装或更新其代码来管理内部隐私内容、控制隐私保护计算过程,还可以通过定义机制来安全地向第三方证明其可信度。与本书介绍的其他技术相比,可信执行环境注重在特定场景下通过不同技术的融合来解决问题,加强技术之间的协同,为隐私保护计算发展注入了新思路。

差分隐私是输出隐私的一种信息论度量,它通过隐私预算这一参数量化并限制统计发布造成的个人信息泄露。具体来说,差分隐私算法能够将任意相邻数据集(仅相差一条记录的两个数据集)映射到相近的概率分布,从而使攻击者无法通过输出结果辨别真实的输入(某条记录的存在或缺失)。与传统的统计披露限制方法(如k-匿名)不同,差分隐私能够抵御具有任意背景知识和计算能力的攻击,并最大限度地延缓因多次发布而造成的隐私泄露风险。此外,差分隐私不依赖算法和参数的保密性,且任何计算都无法弱化已有的隐私保证。由于严格的数学保证和良好的隐私性质,差分隐私已被谷歌、苹果、微软、脸书、领英及美国人口普查局等机构采纳,并在生产系统中用于保护参与者的隐私。

数据删除指在隐私保护计算过程中,管护者能通过某些方法满足应答者的个人数据删除请求,从而保障应答者对个人隐私数据的被遗忘权。具体来说,管护者在接收到应答者的删除数据请求时,不仅要删除请求的原始数据,还要删除可能推理出原始数据的相关内容,并保证删除后的状态与该请求数据从未出现过的状态一致。上述过程满足隐私保护计算目标中的策略执行,即应答者可以通过发送删除请求来控制其数据是否被管护者使用,也可以控制与之相关的计算结果是否被发布给结果使用者。

智能合约作为自动执行合约内容的计算机化交易协议,在区块链技术支持下,一经部署则难以被篡改,且交易内容可查询、可验证,从而保证智能合约能够严格按照预定义的策略自动执行。具体来说,区块链的赋能使智能合约具有了防篡改、可追溯等特性,保证了调用智能合约的交易记录具有完整性和可审计性。当交易符合合约预设条件时,即可在区块链分布式系统中自动执行,无须第三方验证,避免了对传统方法的依赖。在策略执行方面,当策略决策点将处理规则变成机器语言后,策略实施点保证规则得到遵守,这分别对应了智能合约的生成和在区块链上的执行过程。由于合约生成过程可根据预设策略进行编写和验证,合约执行过程可保证严格按照合约逻辑强制自动执行,因此应答者对隐私保护计算过程的控制得以实现。

2.4 延伸阅读

有别于隐私保护计算,李凤华等[2016]引入了隐私计算(privacy computing)这一概念,并给出了它的研究范畴、整体框架及发展趋势。具体来说,“隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算包括隐私信息抽取、场景描述抽象、隐私操作选取、隐私方案设计、隐私效果评估5个步骤,并具有原子性、一致性、顺序性、可逆性等四大特征。”李凤华等[2021]详细地介绍了隐私计算的相关理论与技术。

[1]该功能由用户自主选择是否允许应用跟踪其在应用和网站上的活动,以便用于广告投放或与数据代理商共享。

相关图书

大数据安全治理与防范——反欺诈体系建设
大数据安全治理与防范——反欺诈体系建设
金融网络安全
金融网络安全
零信任网络:在不可信网络中构建安全系统
零信任网络:在不可信网络中构建安全系统
黑客揭秘与反黑实战——基础入门不求人
黑客揭秘与反黑实战——基础入门不求人

相关文章

相关课程