大数据安全治理与防范——网址反欺诈实战

978-7-115-62238-9
作者: 张凯牛亚峰等
译者:
编辑: 傅道坤
分类: 其他

图书目录:

详情

互联网的快速发展,在方便用户信息传递的过程中,也使大量犯罪活动从线下向线上转移,黑灰产常常通过搭建和传播欺诈、赌博、色情等恶意网站来牟取暴利。为了净化网络环境,必须加大对恶意网站的检测和拦截。 本书主要介绍恶意网址的欺诈手段和对抗技术。本书分为5个部分,共11章。针对网址反欺诈这一领域,首先介绍万维网的起源、工作原理和发展历程;其次通过列举常见的恶意网站,让读者了解网址反欺诈面临的主要问题;然后讲解网址基础数据、数据治理和特征工程;接着介绍包含网址结构、文本、图像、复杂网络在内的一系列对抗方法和实战案例;最后介绍网址运营体系和网址知识情报挖掘及应用。本书将理论与实践相结合,帮助读者了解和掌握网址安全相关知识体系,也能帮助读者培养从0到1搭建网址反欺诈体系的能力。无论是初级信息安全从业者,还是有志于从事信息安全方向的在校学生,都会在阅读中受益匪浅。

图书摘要

版权信息

书名:大数据安全治理与防范——网址反欺诈实战

ISBN:978-7-115-62238-9

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    张 凯 牛亚峰 等

责任编辑 傅道坤

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

互联网的快速发展,在方便用户信息传递的过程中,也使大量犯罪活动从线下向线上转移,黑灰产常常通过搭建和传播欺诈、赌博、色情等恶意网站来牟取暴利。为了净化网络环境,必须加大对恶意网站的检测和拦截。

本书主要介绍恶意网址的欺诈手段和对抗技术。本书分为5个部分,共11章。针对网址反欺诈这一领域,首先介绍万维网的起源、工作原理和发展历程;其次通过列举常见的恶意网站,让读者了解网址反欺诈面临的主要问题;然后讲解网址基础数据、数据治理和特征工程;接着介绍包含网址结构、文本、图像、复杂网络在内的一系列对抗方法和实战案例;最后介绍网址运营体系和网址知识情报挖掘及应用。本书将理论与实践相结合,帮助读者了解和掌握网址安全相关知识体系,也能帮助读者培养从0到1搭建网址反欺诈体系的能力。无论是初级信息安全从业者,还是有志于从事信息安全方向的在校学生,都会在阅读中受益匪浅。

作者简介

张凯,现任腾讯专家工程师。一直从事大数据安全方面的工作,积累了10多年的黑灰产对抗经验,主要参与过游戏安全对抗、业务防刷、金融风控和反诈骗对抗系统等项目。

牛亚峰,现任腾讯高级工程师。一直从事黑灰产对抗业务方面的工作,参与过反洗钱、支付反欺诈、电信反诈、网址反欺诈等项目。

张旭,现任腾讯高级工程师。主要从事大数据下黑灰产安全对抗业务、反诈骗对抗系统开发方面的工作。曾参与中国信息通信研究院《电话号码标记应用技术要求》行业标准制定,并为《电信网络诈骗治理与人工智能应用白皮书》提供行业技术支持。

甘晓华,现任腾讯高级工程师。主要从事金融风控、黑灰产对抗等业务安全方面的相关工作。

熊奇,现任腾讯专家工程师。一直从事业务安全方面的工作,先后参与过反诈骗、App安全、金融反诈和安全大数据合规与业务风控等项目,积累了15年的黑灰产对抗和安全系统架构的经验。

前  言

作为第一批参与到反诈骗社会治理的安全团队,2022年我们整合了团队10年反欺诈技术体系及实战经验,于2023年1月出版了《大数据安全治理与防范——反欺诈体系建设》。该书一经推出便受到广泛好评,但由于该书旨在作为系统地覆盖大数据安全反欺诈体系的入门教材,内容着力于基础概念与通用方法,无法覆盖具体领域的一些问题,如网址安全、流量安全等,因此我们进一步策划了系列书《大数据安全治理与防范——网址反欺诈实战》和《大数据安全治理与防范——流量反欺诈实战》。

作为一本网址反欺诈领域中的实战图书,本书详细介绍了网址反欺诈领域实战中用到的对抗技术与细节,帮助读者掌握网址安全相关的理论基础知识,积累技术应用与实战经验。

本书分为5个部分,共11章,第1部分介绍万维网的起源、工作原理和发展历程,以及万维网安全风控架构;第2部分介绍与网址相关的黑灰产及其危害;第3部分介绍网址基础数据、数据治理和特征工程;第4部分分别介绍应用在网址反欺诈实战中的检测模型,如网址结构、文本、图像、复杂网络和多模态检测模型等;第5部分介绍网址运营体系的建设与维护,以及网址知识情报挖掘及应用。

网址反欺诈是大数据安全中一个重要的方向。能顺利完成相关技术和体系的总结和梳理,这要归功于团队协作的力量。除了两位主要作者,以下3位作者也深度参与了本书的撰写。

张旭撰写了第3章“网址数据治理与特征工程”、第7章“网址图像检测模型”、第9章“网址多模态检测模型”和第10章“网址运营体系”。

甘晓华撰写了第2章“网络黑灰产及其危害”、第5章“网址结构检测模型”和第6章“网址文本检测模型”。

熊奇为本书的写作主题、方向和内容提供了建设性的指导。

在稿件完成之际,有特别多想感谢的朋友。李宁从项目的角度,为本书的写作流程、资源和后期事项提供了强力的支持。蔡超维从反欺诈行业和技术落地角度,结合多年的实战经验给出了诸多建设性的修改建议。也感谢人民邮电出版社编辑单瑞婷全程支持本书的出版工作。

虽然在写作过程中,我们尽最大努力保证内容的完整性与准确性。但由于写作水平有限,书中难免存在疏忽与不足之处,恳请读者批评指正。此外,本系列图书中还有针对流量反欺诈领域的《大数据安全治理与防范——流量反欺诈实战》一书,读者可一同参考阅读。

资源与支持

资源获取

本书提供如下资源:

本书思维导图;

异步社区7天VIP会员。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,点击“发表勘误”,输入勘误信息,点击“提交勘误”按钮即可(见右图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。

第1部分 网址大数据安全基础

→ 第1章 绪论

第1章 绪论

21 世纪是互联网蓬勃发展的时代,在互联网诞生的几十年里,互联网产业已经拥有了规模庞大的用户群体。根据《中国互联网络发展状况统计报告》显示,截至2021年6月,中国互联网用户数量达到10.11亿,互联网的快速发展让信息传递和获取越来越简单、快捷。而这一切都离不开蒂姆·伯纳斯·李(Tim Bemers-Lee)发明的万维网,根据Statista机构的2021年How Many Website Are There?报告中显示,截止到2021年年底,全球网站数量已经接近20亿,并且还在不断地增长中。

庞大的用户量和网站数量,使得原本活动于线下的犯罪活动逐步向线上转移,这些黑产通过搭建大量的欺诈、赌博、色情等黑灰产网站来牟取暴利。以我国为例,2020 年因电信诈骗造成的财产损失达到了353.7亿元。面对如此严峻的网络安全环境,加强对恶意网站的检测和拦截、保障用户的上网安全是每个互联网企业都需要担负起的责任和使命。

随着技术的不断发展和革新,万维网风控技术也在与时俱进,从最初的专家规则,逐步发展到大数据与人工智能相结合的技术手段,这些风控技术在诸多安全场景中都取得了不错的效果。接下来,本章将通过万维网的起源、工作原理、风控发展历程,引出万维网安全风控架构,帮助读者对网址反欺诈的来龙去脉和全局有初步的了解。

 1.1 万维网的起源

万维网是互联网时代的核心,是数十亿人交互信息的主要工具。万维网是一个由许多网站组成的信息系统。接下来,将从万维网的发明、万维网的关键技术和万维网的影响这3个方面来具体介绍万维网。

1.1.1 万维网的发明

万维网的起源最早可追溯到20世纪40年代,1945年万尼瓦尔·布什(Vannevar Bush)为微缩胶片设计了一个记忆延伸(Memex)系统。20世纪80年代,蒂姆·伯纳斯·李将超文本与互联网相结合,构建了一个超文本在线编辑的数据库系统Enquire,这被之后的学者认为是最早的网络构想,它与万维网有着很多相同的核心理念。后来蒂姆·伯纳斯·李在Enquire的基础上提出了更加精巧的模型,这被认为是万维网发明的标志。紧接着在1990年,蒂姆·伯纳斯·李和罗伯特·卡里奥合作发出了万维网提议,并于1991年8月,在alt.hypertext新闻组上公开了万维网项目简介,这标志着万维网的正式亮相。为了万维网的发展,蒂姆·伯纳斯·李在1994年建立了万维网联盟(W3C),致力于计算机能够在万维网不同形式的信息间进行存储和通信。图1.1详细展示了万维网的发展历程。

图1.1 万维网的发展历程

1.1.2 万维网的关键技术

蒂姆·伯纳斯·李在发明万维网的过程中,发明了 3 项核心技术,分别是统一资源标识符(URI)、超文本标记语言(HTML)和超文本传输协议(HTTP)。

(1)统一资源标识符(URI)

URI是标记互联网相关资源的一个字符串,它包含了统一资源定位符(URL)和统一资源名称(URN)两个部分,其中URL定义查找这个事物的位置,URN定义事物身份。URI由schema、host:port、path、query和fragment 这5个部分组成,如图1.2所示。

图1.2 URI的组成部分

URI的某些部分是可以省略的。这5个部分的具体情况如下。

scheme:表示访问该资源所采用的协议,使用比较多的协议是HTTP、HTTPS,此外还有FTP、IDAP、file、NEWS等协议。在scheme之后,会紧跟“://”这3个字符,隔开scheme与后面的部分。

host:port:表示该资源所处的主机名和端口号,这个主机名可以用IP表示,也可以用域名来表示,而端口号可以省略,比如HTTP默认的端口号是80,HTTPS默认的端口号是433。

path:表示该资源所处的路径,这个路径通常要以“/”开始。

query:表示寻找该资源时所附加的额外查询要求,通常以“?”开始,查询参数是多个“key=value”的字符串,不同“key=value”字符之间要用“&”连接。

fragment:表示一个片段标识符,用来定位资源内部的一个锚点,使得浏览器可以在获取到该资源后,直接跳转到指定的位置。但片段标识符仅仅提供给浏览器使用,浏览器不会将其发送给服务器,因此服务器不可能得到片段标识符。

(2)超文本标记语言(HTML)

HTML是编写网页的标准标记语言,通常与层叠样式表(CSS)和JavaScript(JS)混合使用,从而设计网页、网页相关的应用程序和应用界面。当浏览器读取HTML相关资源文件时,会对其渲染,然后就可以看到可视化的网页。图1.3展示了一个简单的HTML文档及其通过浏览器渲染后的页面。

(3)超文本传输协议(HTTP)

协议代表了以何种方式访问网络资源并获取返回结果,常见的协议有文件传输协议(File Transfer Protocol,FTP)、超文本传输协议(Hyper Text Transfer Protocol,HTTP)以及超文本传输安全协议(Hyper Text Transfer Protocol over Secure Socket Layer,HTTPS)。其中HTTPS在HTTP的基础上使用TLS/SSL协议来构建加密传输数据,具有更好的安全性能。随着企业对信息安全的重视,企业部门正逐步从HTTP迁移至HTTPS,从而保障企业核心业务活动安全。而对黑产业务来说,HTTPS具有更高的开发成本,同时HTTPS的诸多安全措施也限制了黑产违法活动的开展,因此黑产业务更倾向于使用HTTP。

图1.3 一个简单的HTML文档及其通过浏览器渲染后的页面

HTTP是万维网数据通信的基础,通过此协议,用户与网站之间可以非常方便地进行交互。通信协议通常采用的是TCP协议,当客户端发起一个请求时,会创建一个到服务器80端口的TCP连接,服务器则会在80端口监听客户端的请求。客户端和服务器进行通信和传输数据的过程如图1.4所示。一旦服务器收到客户端发来的请求,服务器首先会与客户端经过3次握手建立连接,然后向客户端返回一个状态码(例如200),此外还会返回请求的资源和提示消息等。HTTP协议还定义了GET、HEAD、POST、PUT、DELETE、TRACE、OPTIONS和CONNECT 8种方法来操作指定的资源,其中使用比较多的方法是GET和POST方法,这两种方法的具体介绍如下。

GET方法:主要用来获取指定的资源,通常情况下,GET方法是没有body的,GET方法会通过查询的KV值来向服务器传递数据。

POST方法:向指定资源提交数据,例如上传文件、提交账号和密码等。

图1.4 客户端和服务器进行通信和传输数据的过程

1.1.3 万维网的影响

在万维网诞生的短短几十年时间里,已经建立了超过20亿个网站,同时影响了51亿的互联网用户。当下,万维网已经成为一种不可或缺的基础设施,在为人类带来便利的同时,也带来了不少新的社会问题。例如原先活跃在线下的犯罪活动逐渐转移到线上,图1.5展示了黑产利用万维网技术搭建的一个刷单诈骗网站。因此,在使用万维网的同时,也需要加强相关治理,打击和拦截违法违规网站,保障众多网民的上网安全。

图1.5 黑产利用万维网技术搭建 的一个刷单诈骗网站

在了解了万维网的起源之后,下文重点介绍万维网的工作原理。

 1.2 万维网的工作原理

万维网是由超链接和统一资源标识符(URL)连接的文件和其他资源的集合,它的基础要素是网站以及网站中所包含的各种资源。从用户在浏览器中输入网页的URL,到用户最终看到这个网页,可以归纳为以下6个步骤,万维网的工作过程如图1.6所示。

图1.6 万维网的工作过程

(1)请求域名解析

用户在浏览器的地址栏中输入网页(news.qq.com)的URL,然后提取URL的域名qq.com,并请求DNS服务器进行域名解析。

(2)获取解析的IP地址

DNS服务器查询qq.com与IP的对应关系,并返回qq.com的实际IP地址。

(3)与目标服务器建立连接

浏览器通过IP地址与qq.com的服务器,基于TCP协议进行3次握手,从而建立连接。

(4)发送HTTP请求,获取数据

通过将要访问的网页news.qq.com的IP地址,向qq.com的服务器发送HTTP请求,获取相应的数据。

(5)服务器发送数据

qq.com的服务器将news.qq.com所需要的HTML文本、图片、CSS文件和JS文件等数据发送给用户。

(6)浏览器渲染显示

浏览器将得到的news.qq.com的HTML文本、CSS文件、JS文件和其他资源进行渲染,然后就可以看到news.qq.com的页面。

万维网的工作原理主要包括4个环节,分别是网站开发、网站部署、网站解析和网站渲染。接下来,将对这4个环节依次进行介绍。

1.2.1 网站开发

网站开发大体上可以分为前端设计和后端研发两个维度,前端设计中主要应用的3种技术包括HTML、CSS和JS。前端设计主要负责用户交互和服务器通信。后端研发主要应用的技术包括后端开发语言(如PHP、JSP、ASP.NET等)和关系型数据库(如MySQL、SQL Server、Oracle等)。后端研发主要负责处理请求,以及数据的增、删、改、查等。网站开发流程如图1.7所示。

图1.7 网站开发流程

除了上面介绍的建站技术,主流云平台(如腾讯云、阿里云、快站等)都提供快速建站的功能,可以在数十秒内搭建公司的门户、博客和各类论坛网站,极大地降低了用户搭建网站的门槛。

在了解了网站开发和搭建的相关技术后,也就能理解为什么在网址安全风控中经常遇到相似的欺诈、赌博和色情网站。这是因为网站开发技术是可以复用的,只需要对代码进行简单的修改,就可以复制出一个一模一样的黑产网站,如图1.8所示,随后在购买不同的域名和服务器后,就可以很方便地实现部署。

图1.8 一模一样的黑产网站

1.2.2 网站部署

在网站开发之后,还需要进行网站部署,网站部署包含服务器购买、环境搭建、域名购买、网站部署和网站备案。

(1)服务器购买

部署网站前需要一台具有公网IP地址的服务器,它可以处理服务请求,处理之后返回相应的数据。现在比较常用的服务器是云服务器,如腾讯云、阿里云和百度云等。

(2)环境搭建

在购买服务器之后,还需要搭建相关的环境才能部署网站,其中最重要的是Web服务器的选择以及开发和运行环境的搭建这两部分。以Java Web为例,Web服务器可以选择Tomcat,开发和运行环境则需要安装和配置JDK和JRE。

(3)域名购买

为了方便用户记忆和访问网站,比较好的办法是注册一个域名。一般云平台都提供了域名购买服务,域名的价格一般在几十元到数百元之间。

(4)网站部署

只要将开发好的网站源码部署到Tomcat中,就可以完成网站的部署。

(5)网站备案

为了打击不良互联网信息的传播,中华人民共和国信息产业部要求中华人民共和国境内提供非经营性互联网信息服务的网站办理备案。

1.2.3 网站解析

即使通过域名访问一个网站,也是需要解析为IP地址才能定位到这个网站。而网站解析(域名解析)就是将域名重新解析到IP的过程。这个过程需要通过专门的域名解析服务器来实现。通常情况下,一个域名对应一个IP地址,一个IP可以对应多个域名。例如当用户访问“www.qq.com”时,网站解析的全过程如图1.9所示。

图1.9 网站解析的全过程

以“www.qq.com”为例,网站解析的具体步骤描述如下所示。

(1)查询本地域名服务器

当用户访问“www.qq.com”时,浏览器会向本地域名服务器发送解析“www.qq.com”的请求。在本地域名服务器通过本地缓存查询到“www.qq.com”的IP地址后,就会直接跳转到第5步,返回IP地址。

(2)查询本地域名服务器不成功后,请求“.”根域名服务器

若本地域名服务器没有查到IP地址,则会向“.”根域名服务器发送解析“www.qq.com”的请求,根域名服务器会查找“.com”的信息,并返回给本地域名服务器。

(3)向“.com”域名服务器请求解析“www.qq.com”

本地域名服务器向“.com”域名服务器发送解析“www.qq.com”的请求,随后“.com”域名服务器会查找“qq.com”的信息,并返回给本地域名服务器。

(4)向“qq.com”域名服务器请求解析“www.qq.com”

本地域名服务器向“qq.com”的域名服务器发送解析“www.qq.com”的请求。“qq.com”域名服务器会查找“www.qq.com”的信息,并将“www.qq.com”的IP地址返回给本地域名服务器。

(5)返回“www.qq.com”的IP地址

最终本地域名服务器将“www.qq.com”的IP地址返回给用户,这样用户就能访问“www.qq.com”的内容。

1.2.4 网站渲染

通过网站解析可以获取网站的相关资源,要了解浏览器是如何渲染这些资源的,就需要先了解浏览器的主要组成部分,如图1.10所示,浏览器主要由用户界面、浏览器引擎、渲染引擎、网络组件、JavaScript解析器、UI后端和数据存储7部分组成。

用户界面:主要包含地址栏、后退/前进按钮、书签菜单等。

浏览器引擎:查询和操作渲染引擎的接口。

渲染引擎:负责显示请求的内容,这个是网站渲染的核心组件。

网络组件:主要负责网络调用,例如发送HTTP请求。

JavaScript解析器:用于解析和执行JavaScript代码。

UI后端:用于绘制常用的组件,例如组合框和窗口。

数据存储:这是一个轻量级的数据库,可以用来存储cookie。

图1.10 浏览器的主要组成部分

从浏览器的主要组成部分中可以看出,负责网站渲染的主要是渲染引擎,常用的渲染引擎有Mozilla自主研发的Gecko和开源的WebKit。WebKit的渲染引擎流程如图1.11所示。

图1.11 WebKit的渲染引擎流程

(1)生成DOM树

通过解析从服务器获取的HTML文档,遍历文档中的节点,从而构建出DOM树。

(2)生成CSS规则树

通过解析从服务器获取的CSS文件,构建出CSS规则树。

(3)生成渲染树

将DOM树和CSS规则树合并,生成渲染树,渲染树中的每个可见节点均包含节点内容和样式。

(4)布局渲染树

从渲染树的根节点出发进行遍历,在遍历的过程中可以确定每个节点的大小和具体位置。

(5)绘制渲染树

遍历渲染树,并调用渲染器的绘制函数在窗口上绘制出相关内容,这个工作是UI后端组件负责的。

在了解了网站基础知识和工作原理后,下面将介绍万维网风控发展历程和常见的风控技术。

 1.3 万维网风控发展历程

万维网风控的发展与万维网技术和计算机技术的发展是息息相关的。万维网风控发展的4个阶段如图1.12所示,大致可以分为专家规则、机器学习模型、深度学习模型和图神经网络模型4个阶段。

图1.12 万维网风控发展的4个阶段

1.3.1 专家规则

Web1.0时代的万维网技术比较简单,网页是只读的,用户只能对网页进行搜索和浏览,不能进行创建。无论是从网站规模还是风险内容来看,Web1.0时代的万维网功能是比较有限的,安全从业人员可以通过设计简单的规则,实现不错的打击黑产的效果。

Web2.0 时代的用户可以随意创建网站和内容,专家规则需要不断演进,为了尽量减少专家规则中的人工参与,快速打击变化多端的恶意网站,出现了针对网页DOM树结构的网页指纹相似度匹配模型。

1.3.2 机器学习模型

与Web1.0相比,Web2.0时代的用户不仅可以搜索和浏览网页,还可以进行创作并上传各种类型的内容,然而这给网站风控带来了不小的挑战,例如对于在社交网络中拥有大量关注者的用户,其发表的不慎言论就会带来潜在的社会风险;在线订餐平台的一条恶意差评就可以抹黑一家餐饮店;黑产在短视频平台上上传的不健康视频可能会影响未成年人的身心健康。

为了解决这一问题,有学者尝试将机器学习模型应用于网站风控中,通过对网页提取关键特征,建立黑白样本,训练机器学习模型(如LR、随机森林等),最终实现对未知网页的判断。随着算法的发展以及数据量的增加,尤其对于图像、音视频等复杂数据类型,深度学习模型在实际网站风控中的应用效果要明显优于机器学习模型。

1.3.3 深度学习模型

随着神经网络技术的发展和硬件计算能力的提升,大量深度学习模型可以应用在网址风控中。比较常见的深度学习模型如下所示。

文本分类模型:主要包括文本无监督模型和文本监督模型,在文本无监督模型中,需要采用合理的文本特征提取方法(如TF-IDF和word2vec)提取特征,之后再采用多种聚类方法(如划分式聚类方法、基于密度的聚类方法和层次化聚类方法等)来实现无监督的聚类。在文本监督模型中,需要打好标签的样本,之后再使用常见的文本分类模型(如TextCNN、fastText、BiLSTM、BERT等)来完成模型训练和预测。

图像分类模型:主要包含图像半监督模型和图像监督模型,在图像无监督模型中,需要采用合理的特征提取方法(如Harr-like、HOG、SIFT、Pre-Trained、AutoEncoder和GAN等)提取特征,之后再采用聚类方法来对样本聚类。在图像监督模型中,也需要打好标签的图像样本,之后可以使用常见的图像分类模型(如VGG、ResNet、Transformer等)来完成模型训练及预测。

视频检测模型:可以复用图像分类模型的检测能力,对逐帧单图像进行预测,得到判断结果,也可以将每帧结果通过时序模型串联起来,最终得到整个视频的判断结果。

多模态模型:可以将不同模态的信息,以不同的方式融合在一起,实现“1+1>2”的效果,例如将文本和图像进行融合,或者将数据来源不同的文本进行融合等。

万维网数据本身也是一种图结构数据,因此在网址安全风控中还可以应用图神经网络模型来提升风控的效果。

1.3.4 图神经网络模型

2017 年,图卷积神经网络(GCN)的出现,使得图神经网络的发展进入快速发展阶段,各种图模型如雨后春笋般相继出现,如GraphSAGE、GAT、HinSAGE、HAN等。这些图模型的诞生促使网址风控进入一个全新阶段。

万维网的图结构数据包含多种关系数据,万维网中常见数据之间的关系如图1.13所示。

图1.13 万维网中常见数据之间的关系

网站之间的归属关系:以“qq.com”为例,该域名下有新闻站点“news.qq.com”、视频站点“v.qq.com”、微信站点“wx.qq.com”等,这些站点与腾讯域名之间的关系就是归属关系。

网站之间的引用关系:以“2345.com”为例,该域名下引用了百度“baidu.com”,新浪“sina.com”,腾讯网“qq.com”,搜狐网“sohu.com”等网站,也就是说2345网站与百度、新浪、腾讯网和搜狐网之间建立了引用关系。

网站之间的跳转关系:目前很多黑产搭建的网站,通过短链跳转来躲避打击,例如可以将一个黑产网站“***.com”绑定到某短链“**.cc/pXXa”中,这样当用户访问“**.cc/pXXa”的时候,就会自动跳转到“***.com”。黑产网站和短链之间的关系就是跳转关系,随着对抗越来越激烈,这个跳转可能不止一层。

网站之间的同备案关系:一些黑灰产企业会同时注册多个域名,并且进行备案,那么相同备案下的网站之间就形成了同备案关系。

网站之间的聚集关系:当黑产购买一台服务器,并绑定一个公网IP后,就会在该服务器下挂载很多黑产网站。这个公网IP下面的网站之间就构成了聚集关系。

将图模型应用到万维网中,并且通过已有恶意节点可以传递染色更多的未知节点,这为网址风控带来了全新的解决思路,可以极大地提升风控效果。

 1.4 万维网安全风控架构

万维网安全风控架构如图1.14所示,主要由以下9个部分组成。

(1)业务层

业务层是网址安全检测的输入端,主要包含需要具备网址安全能力的各大产品,如社交平台、浏览器等。不同的产品来源对应不同的业务场景和用户行为,也对应不同的网址细分类别诉求。

(2)引擎层

引擎层负责获取网址相关的信息,主要包含Whois查询、备案查询、域名解析、静态引擎和动态引擎,可以从业务层传播的网址中提取Whois信息、备案信息、IP地址、网页结构、文本和图像等信息。

图1.14 万维网安全风控架构

(3)特征层

特征层会对引擎层获取的数据进行加工,获取Whois特征、ICP特征、IP特征、DOM特征、文本特征和图像特征。

(4)异常检测层

异常检测层主要通过异常检测模型来初步筛选可疑的网址。常见的方法有基于流量的异常检测模型、基于渠道分布的异常检测模型、基于时间序列的异常网址检测模型,基于网站行为的异常检测模型和基于网址关系链的异常检测模型。

(5)模型层

模型层主要是应用结构检测模型、文本检测模型、图像检测模型、多模态检测模型和图检测模型来对异常检测层筛选出的网址进行更细致的检测。

(6)防误报层

防误报层主要是避免模型输出存在误报带来风险,包含离线防误报系统、保护名单机制和在线防误报系统。

(7)风控层

风控层会对判断恶意的网址进行记录和处置,主要包含网址黑库、案例提醒、限制打开、拦截和证据留存等机制。

(8)情报体系层

情报体系层会对网址相关情报进行监控,主要包含黑产情报、态势感知、线索扩线、舆情监控、热词发现和异常监控等模块。

(9)运营体系层

运营体系层负责整个网址安全系统的运营与维护,主要包含服务监控、存储监控、模型监控、特征监控、数据监控和申诉处理等模块。

 1.5 小结

本章主要介绍万维网的起源、工作原理、风控发展历程和万维网安全风控架构等基础知识,便于读者对万维网的背景有初步了解。接下来会从与网址相关的网络黑灰产入手,介绍各类网络黑灰产的危害,帮助读者了解当前网址安全领域面临的核心问题。

相关图书

Flask Web应用开发项目实战 基于Python和统信UOS
Flask Web应用开发项目实战 基于Python和统信UOS
T20天正建筑V8.0实战从入门到精通
T20天正建筑V8.0实战从入门到精通
Marc 非线性有限元分析标准教程
Marc 非线性有限元分析标准教程
Effective Java (第3版 英文版)
Effective Java (第3版 英文版)
电力安全生产典型事故集——变电检修专业
电力安全生产典型事故集——变电检修专业
新型电力系统ICT应用与实践
新型电力系统ICT应用与实践

相关文章

相关课程