大数据安全治理与防范——反欺诈体系建设

978-7-115-60144-5
作者: 张凯张旭
译者:
编辑: 单瑞婷

图书目录:

详情

随着互联网的蓬勃发展以及大数据时代的到来,新的欺诈安全问题不断涌现,这也诞生了一个新的概念——大数据安全。大数据安全指的是针对大数据时代背景下的安全风险,使用大数据、人工智能等新兴技术建立对抗体系,进而进行安全治理与防范。本书旨在对大数据时代背景下的欺诈安全问题、大数据平台工具、反欺诈对抗技术和系统进行全面的阐释,以帮助读者全面学习大数据安全治理与防范的背景、关键技术和对抗思路,并能够从0到1搭建一个反欺诈对抗系统。 本书作为入门大数据安全对抗的理想读物,将理论与实践相结合,既能加强读者对大数据安全对抗的安全场景和技术原理的理解,又能通过复现反欺诈实战中的内容帮助读者培养业务中的安全对抗能力。无论是大数据、信息安全相关从业人员,还是有志于从事大数据安全方向相关工作的初学者,都会在阅读中受益匪浅。

图书摘要

版权信息

书名:大数据安全治理与防范——反欺诈体系建设

ISBN:978-7-115-60144-5

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

编  著 张 凯  张 旭 等

责任编辑 傅道坤

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315


随着互联网的蓬勃发展以及大数据时代的到来,新的欺诈安全问题不断涌现,这也诞生了一个新的概念—大数据安全。大数据安全指的是针对大数据时代背景下的安全风险,使用大数据、人工智能等新兴技术建立对抗体系,进而进行安全治理与防范。本书旨在对大数据时代背景下的欺诈安全问题、大数据平台工具、反欺诈对抗技术和系统进行全面的阐释,以帮助读者全面学习大数据安全治理与防范的背景、关键技术和对抗思路,并能够从0到1搭建一个反欺诈对抗系统。

本书作为入门大数据安全对抗的理想读物,将理论与实践相结合,既能加强读者对大数据安全对抗的安全场景和技术原理的理解,又能通过复现反欺诈实战中的内容帮助读者培养业务中的安全对抗能力。无论是大数据、信息安全相关从业人员,还是有志于从事大数据安全方向相关工作的初学者,都会在阅读中受益匪浅。


张凯,现任腾讯专家工程师。一直从事大数据安全方面的工作,积累了10多年的黑灰产对抗经验,主要涉及游戏安全对抗、业务防刷、金融风控和反诈骗对抗系统等。

张旭,现任腾讯高级工程师。主要从事大数据下黑产安全对抗业务、反诈骗对抗系统开发方面的工作。曾参与中国信息通信研究院《电话号码标记应用技术要求》行业标准制定,并为《电信网络诈骗治理与人工智能应用白皮书》提供行业技术支持。

周鹏飞,现任腾讯高级工程师。主要从事大数据安全方面的工作,积累了多年黑灰产对抗经验,涉及游戏安全对抗、金融风控、业务防刷、广告反作弊、电信反诈等。

牛亚峰,现任腾讯高级工程师。一直从事黑灰产对抗业务方面的工作,涉及反洗钱、支付反欺诈、电信反诈等项目。

甘晓华,现任腾讯工程师。主要从事金融风控、黑灰产对抗等业务安全方面的相关工作。

洪旸,曾任腾讯研究员。主要从事金融风控、黑灰产对抗等业务安全方面的相关工作。

杨泽,现任腾讯研究员。主要从事金融风控、黑灰产对抗等业务安全方面的相关工作。

郝立扬,现任腾讯研究员。主要从事反诈骗、反赌博等黑灰产对抗业务方面的工作。

李靖,现任腾讯高级工程师。一直从事黑灰产相关的数据分析和对抗策略制定方面的工作,其间业务涉及风险洗钱资金流的检测、反诈骗对抗系统等。


从2012年起,我们就开始关注电信诈骗带来的社会危害问题,也因此成为第一批参与社会治理的安全团队。随着诈骗逐渐从电信领域向互联网领域转移和发展,团队的关注点也从电信诈骗进一步扩展到营销欺诈、金融欺诈以及赌博、色情、骚扰、违规引流等安全问题。在这一过程中,从一开始流量进入层的风控,到产生内容后的UGC对抗,再到复杂网络的团伙挖掘,我们与黑产对抗的手段也在一步步升级。

随着互联网数据量的快速增长和黑产技术的升级,安全对抗越来越需要大数据及人工智能技术的助力。作为安全技术提供方,我们在诸多项目中分别与不同的互联网企业、金融单位和电信运营商一起解决安全问题。在合作过程中我们发现,大数据场景下任何一个小的安全问题都需要体系化的对抗。

在每个项目中,我们都与合作伙伴进行了深入的交流,除了专业的安全从业者,也不乏产品和运营人员,这可以帮助我们更好地理解业务场景,从而达成安全防护的目的。但我们也认为,身处大数据安全时代,在关注具体业务安全场景的同时,也需要具备全局视野和体系化对抗思想。于是我们决定写一本全面介绍大数据安全思想、技术方案和实践经验的书,旨在通过介绍多年沉淀的技术体系与方法论,帮助读者建立大数据安全的体系化思维模式,拓宽对抗思路。

本书主要分为大数据安全基础、黑灰产洞察、大数据基础建设、大数据安全对抗技术与反欺诈实战案例、反欺诈运营体系与情报系统5个部分。第1部分介绍大数据时代的兴起、安全风控新挑战及大数据安全治理架构;第2部分介绍常见的黑产类型及工具;第3部分介绍大数据的基础运行平台与数据的初步加工方法;第4部分介绍主要的大数据安全对抗技术,以及这些技术在反欺诈实战案例中的应用;第5部分介绍反欺诈运营和情报监控的方法。

梳理整个大数据安全治理与防范体系是一件工作量巨大的事情,通过不懈的努力,我们最终如期完成了本书内容的撰写,这主要归功于团队协作的力量。除了两位主要作者,以下几位也深度参与了本书内容的撰写。

周鹏飞撰写了第5章“基于流量的对抗技术”和第8章“反欺诈实战案例”中有关营销活动反作弊的内容。

牛亚峰撰写了第7章“基于复杂网络的对抗技术”和第8章“反欺诈实战案例”中有关赌博网址检测的内容。

甘晓华撰写了第2章“黑产现状与危害”和第6章“基于内容的对抗技术”中有关文本内容对抗的部分内容。

洪旸撰写了第3章“产业工具”和第6章“基于内容的对抗技术”中有关文本内容对抗的部分内容。

杨泽撰写了第4章“大数据治理与特征工程”中有关大数据治理内容和第9章“反欺诈运营体系”的内容。

郝立扬撰写了第4章“大数据治理与特征工程”中有关大数据平台内容和第10章“情报系统”的内容。

李靖撰写了第8章“反欺诈实战案例”中有关恶意短文本识别的内容。

在稿件完成之际,有特别多想感谢的朋友。熊奇为本书的写作主题、方向和内容提供了建设性的指导。李宁从项目的角度,为本书的写作流程、资源和后期事项提供了强力的支持。蔡超维从反欺诈行业和技术落地角度,结合多年的实战经验给出了诸多建设性的修改建议。还要感谢人民邮电出版社编辑单瑞婷全程支持本书的出版工作。

虽然在写作过程中,我们尽最大努力保证内容的完整性与准确性,但由于写作水平有限,书中难免存在疏漏与不足,恳请读者批评指正。本书着力于全面覆盖大数据安全治理与防范体系内容,故内容偏重基础概念与通用方法,在具体的对抗手段和技术细节上未过多深入。我们计划在后续出版的书中,针对流量反作弊、网址反欺诈等更具体的安全场景进行更加深入的阐述,敬请期待。


本书由异步社区出品,社区(https://www.epubit.com)为您提供相关资源和后续服务。

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“发表勘误”,输入勘误信息,单击“提交勘误”按钮即可。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

扫描下方二维码,您将会在异步社区微信服务号中看到本书信息及相关的服务提示。

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书技术审校等工作,可以发邮件给本书的责任编辑(fudaokun@ptpress.com.cn)。

如果您来自学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、AI、测试、前端、网络技术等。

异步社区

微信服务号


→ 第1章 绪论


进入21世纪以来,互联网的蓬勃发展造就了人类新一轮的信息技术革命。在短短的二十年时间里,社会结构、生活方式和生产能力都发生了翻天覆地的变化。直至如今,互联网产业仍然处于高速发展的过程中。与此同时,互联网产业已拥有了规模庞大的用户群体,据世界银行统计,截至2021年,世界互联网用户总数已到达51.69亿,其中中国互联网用户数达到10.11亿,互联网渗透率约为72%,而且还在不断增长。

用户规模的不断增长带来了诸多机遇,为互联网经济持续注入活力。线上经济的高速发展,吸引原本主要活动于线下的犯罪活动开始向线上转移。这些黑色产业隐匿在庞大的用户群中,通过运用互联网技术手段来攫取非法利益或从事欺诈违法行为。这种行为严重破坏网络安全环境,危害用户及企业的隐私、财产安全,甚至会危害到用户的人身安全,也给互联网安全带来了新的挑战。

规模庞大的互联网用户时时刻刻都在产生大量的数据,如何从海量数据中找出潜在恶意欺诈行为和非法实体,成为大数据时代下安全领域的新课题。与软件安全领域的渗透攻防、漏洞挖掘等技术不一样,解决大数据安全治理问题主要依赖的是大数据、人工智能等技术手段,这些技术手段在安全领域的应用也为诸多安全场景开辟了新的方向。

本章主要介绍大数据安全的时代背景,以及在这一背景下产生的安全问题,由此进一步引出大数据安全治理与防范的定义和治理架构,从而帮助读者对大数据安全治理的来龙去脉和反欺诈体系建设的全局进展有初步的了解和认识。

在互联网完全进入人们的生活之前,信息处理的主流工具是传统的计算机软件和硬件,信息处理的数据往往存储在个人计算机、自建的数据库等一个个孤立的区域中,整体存储的数据量级也十分有限。随着网络基础设施的完善,互联网将一个个孤岛连接起来,形成了一整片信息的海洋。随着智能手机的出现以及4G、5G的进一步发展,互联网从PC端扩展到了移动端,覆盖了生活的方方面面。

新用户的不断接入会产生新的数据,也会与已有的数据产生联系,这使得互联网中的信息量急剧增加。根据国际权威机构Statista统计,近十年间,互联网全年生成的数据量增加了40多倍。2010年,互联网全年产生的数据量仅1.2 ZB(1 ZB=十万亿亿字节),而到了2020年,这一数据量达到50.5 ZB,相当于人类迄今为止生产的所有印刷材料的数据量的25万倍,并仍然以23%的增速高速增长。据国际数据公司(International Data Corporation,IDC)预测,随着互联网渗透率的进一步提高以及物联网的持续发展,到2025年,全球数据量将达到163 ZB。

在大数据时代中,用户使用即时通信、电商支付、视频娱乐等服务,其信息处理的载体也从单机软件变为了用户量上亿的互联网应用。这些应用涵盖了大部分网络流量入口、信息沟通渠道以及用户个人行为,构成了当前互联网生态的中心。这些应用在为用户带来便利的同时,也为某些非法产业的生存和发展提供了有利条件。

大数据时代的欺诈黑产获利方式与PC时代的欺诈黑产获利方式有着明显区别。PC时代的欺诈黑产主要通过设计恶意入侵程序来获利,而大数据时代的欺诈黑产则借助主流平台对平台上的用户和商家实施侵害,以攫取巨额利益。

如图1-1所示,在大数据时代,互联网应用面临的常见欺诈风险主要有以下几种类型。

图1.1 大数据时代常见欺诈风险类型

电信诈骗:通过有计划的欺骗手段,大量骗取平台内其他用户的财产,例如即时通信平台中的交友诈骗、电商平台中的客服退款诈骗、在线会议平台中的仿冒公检法诈骗等。

金融欺诈:通过包装资料、设备和账号,有组织、有预谋地套取金融平台的额度,包括规模性的黑产套现、引导普通用户套现等。

羊毛刷量:通过技术手段,在互联网平台仿冒真人进行自动化行为,以获取平台利益或扰乱平台秩序,例如大量刷取平台优惠、抢夺门票等稀缺资源。

构建违法平台:建立违反法律法规的平台应用,例如开发网络赌博应用、色情应用,建立盗版视频网站、虚拟货币投资平台等。

传播违法信息:利用平台用户量大、信息传播便捷的特性,传播涉黄、涉赌、涉诈、涉政、侵权等非法信息,涉及文字、图片、语音、网址、二维码等形式。

频繁骚扰用户:通过向用户频繁发送垃圾信息、推广广告、诱导分享链接等信息来达到曝光、引流的目的,常见的手段包括平台群发、短信轰炸、“呼死你”等,这些行为不仅会影响用户使用体验,而且会破坏平台口碑。

线上洗钱:黑产会通过发红包、充值话费、虚假购买商品、第三方平台转账等方式,快速转移大量资金,进行线上洗钱。

其他欺诈:其他常见的欺诈行为有利用游戏外挂扰乱正常游戏秩序、搭建钓鱼网站骗取用户信息以实施诈骗等。

这些恶意行为并没有利用应用平台的漏洞来入侵,因此以往的攻防对抗、病毒检测、漏洞扫描技术难以发现这些恶意行为。事实上,黑产可以通过应用平台提供的便利隐匿其中并攫取巨额利益。大数据时代的海量数据,反而成为了黑产隐匿踪迹的保护伞,使得平台难以发现和追踪黑产。

令人鼓舞的是,随着大数据时代的到来,大数据和人工智能技术也得到了跨越式的发展,为安全领域提供了新的利器。通过将大数据、人工智能与安全结合,形成安全领域的大数据技术,能有效应对大数据时代的安全风控新挑战。

大数据安全治理与防范体系是在安全领域中应用新兴大数据技术体系,从而应对大数据时代下的风控新挑战。其中,新兴大数据技术体系并不是单指某一种技术,而是为了满足大数据应用需求而形成的技术体系,主要包括以下4个部分。

大数据平台:为了高效地存储和处理海量数据,诞生了许多大数据基础框架,其中最为著名的大数据基础框架当属2003~2006年间由谷歌发布的分布式文件系统GFS、分布式并行计算框架MapReduce、分布式数据库Bigtable等。

数据治理:解决了海量数据的存储和处理问题后,还需要应用数据清洗、元数据管理、数据质量管理、特征集市管理等数据治理技术来有效地管理大数据资产,使大数据资产的价值最大化。

云服务:除了海量数据离线存储的应用需求,还需要利用镜像、容器等云服务技术来满足海量数据实时访问的应用需求。

人工智能:对于大数据中恶意信息检测、复杂恶意模式挖掘的问题,由于数据的规模庞大,完全无法通过专家规则来处理。而人工智能的发展,使得对文本、图像、语音等复杂内容的理解和识别成为可能,也支持通过关系、社群、时序等数据来挖掘黑产信息。

除了上述新兴大数据技术,在完整的大数据安全治理与防范体系中,也包括运营监控体系、情报与态势感知体系等。如图1.2所示,大数据安全治理架构自下向上可分为大数据平台、数据治理层、风控模型层以及在线服务层,而反欺诈运营体系和情报系统服务于整个治理架构。

图1.2 大数据安全治理架构

大数据安全治理架构各部分功能如下所示。

大数据平台:提供海量数据存储和计算的底层平台及框架,包括大数据基础平台(Hadoop、Spark等)、分布式数据仓库(Hive、Presto等)、分布式文件存储系统(HDFS、KFS等)和流数据处理框架(Flink、Storm等)。

数据治理层:负责对未加工的原始数据进行加工、组织和管理,以便后续应用。大数据应用中最原始的数据通常以日志形式来组织,其中往往包含诸多异常的、不规范的数据。数据治理层通过数据清洗将原始数据整理为规范化的基础层数据,再通过基础数据的特征工程将数据加工为安全业务可使用的特征,同时为数据清洗、特征工程提供分层治理、数据仓库、特征集市、可视化等治理能力。

风控模型层:通过使用基础层原始数据、特征层特征数据,为用户在应用平台的全生命周期提供安全风控能力。如图1.3所示,大数据安全治理包含事前、事中、事后三个风控阶段。在事前风控阶段,通过身份模型对用户、环境、设备判别,预防潜在风险;在事中风控阶段,判断违规行为、恶意内容的安全风险,并进行阻断和拦截;在事后风控阶段,对社群、产业、团伙进行全面复盘,挖掘潜在恶意同伙、产业链及组织分工,全面打击黑灰产[1]产业链。

在线服务层:负责大数据安全能力的最终输出。为满足大数据时代对海量数据的风险判断需求,大数据安全能力往往以公有云SaaS服务形式提供,通过自动化运维体系,根据业务需求进行弹性扩容,以支持百亿级别的并发访问,并保持服务稳定可靠。

反欺诈运营体系:对整个大数据安全治理架构中的服务、数据、底层架构进行系统化监控,提供大数据安全系统运营工具,同时针对风控后的申诉建立反馈工作流程,以帮助安全风控人员更好地掌控系统的运行状态并实时处理系统问题。

情报系统:负责从大数据感知黑灰产对抗变化,提供新的黑产组织、手法、运营信息,以帮助安全风控人员确定当前黑灰产行为模式、影响态势、发展方向等关键信息,为安全风控提供情报。

图1.3 大数据安全治理生命周期

[1]注:在本书中,会同时出现“黑灰产”与“黑产”的表述,从字面可知,两者的意义、涵盖的范围并不相同,考虑到本书的主旨并非为了对两者进行严格区分,而是用来泛指各种违法的行为,因此在后文的表达中,会酬情混用这两个词汇。

本章主要对大数据安全治理诞生的背景、挑战、关键技术和治理架构进行介绍,在读者对大数据安全有了基本了解之后,接下来本书主要从反欺诈领域的黑灰产洞察、大数据基础建设、大数据安全对抗技术与反欺诈实战案例、反欺诈运营体系与情报系统这4个部分,对当前大数据安全领域面临的安全问题、基础平台、对抗手段和反欺诈运营体系进行详细而系统的介绍,同时对未来大数据安全的发展形态和前沿技术进行展望。


相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战
医疗大数据挖掘与可视化
医疗大数据挖掘与可视化

相关文章

相关课程