大数据测试技术与实践

978-7-115-57186-1
作者: 艾辉融360 AI 测试团队
译者:
编辑: 张涛

图书目录:

详情

本书精选22个大数据测试要点,全面讲解大数据测试。内容丰富,涵盖6大技术主题,大数据技术生态、数据仓库、大数据开发、大数据测试、数据治理、DataOps。场景典型,详细解释3个主流数据应用场景问题,数据分析、数据挖掘、数据可视化。深度剖析BI报表、风控模型产品、用户行为分析平台的技术原理、工程架构,并输出了全链路的质量保障方案。 本书能够帮助读者了解大数据是如何应用的,大数据和大数据应用的质量保障是如何进行的。测试工程师通过阅读本书,可以系统化地了解大数据技术基础、大数据开发及大数据测试等知识;大数据开发工程师通过阅读本书,可以学习大数据及大数据应用的评测方法和拓宽数据工程实践的思路;技术专家和技术管理者通过阅读本书,可以了解大数据质量保障、数据治理及数据工程持续交付的建设方案。

图书摘要

版权信息

书名:大数据测试技术与实践

ISBN:978-7-115-57186-7

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

主  编 艾 辉

编  著 融360 AI 测试团队

责任编辑 张 涛

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

本书全面系统地介绍了大数据的测试技术与质量体系建设。本书共11章,第1~4章涵盖认识大数据,大数据技术生态,数据仓库的设计与构建,以及大数据项目开发流程;第5~7章讲解大数据测试方法、大数据测试实践和数据质量管理;第8~10章介绍大数据测试平台实践、数据治理平台建设,以及DataOps的理念与实践;第11章提供大数据测试学习路线。附录列出了大数据技术经典面试题。

本书适合想要了解大数据技术的读者,以及想要学习和掌握大数据测试与大数据开发的从业者。通过阅读本书,测试工程师可以系统地学习大数据技术基础、大数据开发和大数据测试等知识;大数据开发工程师可以借鉴大数据质量保障的方法,拓宽数据工程实践的思路;技术专家和技术管理者可以了解大数据质量保障体系、数据治理建设和DataOps实践等内容。

本书编委会

主   编:艾 辉

副 主 编:叶大清 刘曹峰 张刚刚

编委会成员:艾 辉 陈高飞 郝 嵘 雷天鸣 李曼曼

      马 绵 孙冰妍 孙金娟 张 咪 张朋周

审 稿 成 员:韩雪娇 薛慧萍 徐培培 张 莹

作者简介

艾辉,中国人民大学概率论与数理统计专业硕士,《机器学习测试入门与实践》作者之一。目前,担任融360技术总监,主要负责AI风控产品、用户产品和基础架构的质量保障工作。曾在阿里本地生活担任高级技术经理,负责用户产品、新零售产品的质量保障工作。拥有9年多的测试开发工作经验,曾多次受邀在行业技术大会(如MTSC、GITC、Top100、TiD、A2M和TICA等)上做主题分享。对大数据、机器学习测试技术有深刻理解,并长期专注于质量保障与工程效能领域。

陈高飞,东北大学计算机技术专业硕士,《机器学习测试入门与实践》作者之一。目前,担任融360测试开发工程师,主要从事机器学习方向的测试开发工作。擅长白盒测试、大数据测试和模型测试,在工具平台开发方面有丰富的实践经验。

郝嵘,北京信息科技大学自动化专业硕士,《机器学习测试入门与实践》作者之一。目前,担任融360高级测试开发工程师,主要负责大数据方向的测试开发工作。擅长Python开发、大数据测试和机器学习测试,主导了多个工具平台的开发,在大数据质量保障方面有丰富的实践经验。

雷天鸣,哈尔滨理工大学计算机科学与技术专业硕士,《机器学习测试入门与实践》作者之一。目前,担任融360测试开发工程师,主要从事机器学习方向的测试开发工作。擅长大数据测试、特征测试和模型算法评测等,对金融风控业务有深刻理解。

李曼曼,融360高级测试开发工程师,《机器学习测试入门与实践》作者之一。拥有近11年的测试开发工作经验,主导了多个工具平台的开发和大型项目的测试工作。擅长白盒测试、性能测试、自动化测试、持续集成和工程效能,在大数据和特征模型测试方面有丰富的实践经验。

马绵,陕西科技大学网络工程专业学士,融360测试开发工程师。目前主要从事服务端测试开发工作,擅长自动化测试、安全测试,在服务稳定性保障方面有丰富的实践经验。

孙冰妍,东北大学通信与信息系统专业硕士,融360测试开发工程师。目前主要从事服务端测试开发工作,擅长白盒测试、自动化测试、性能测试、安全测试和持续集成。参与了多个工具平台的开发,并主导了多个大型项目的测试工作。对大数据测试技术有深刻理解。

孙金娟,山西财经大学计算机科学与技术专业学士,《机器学习测试入门与实践》作者之一。目前,担任融360测试开发工程师,有近9年的Java开发、测试开发工作经验。擅长大数据测试和工具平台开发,对机器学习、特征模型测试有深刻理解。

张咪,北京交通大学通信与信息系统专业硕士,《机器学习测试入门与实践》作者之一。目前,担任融360测试经理,主要负责用户产品的质量保障工作,曾负责基础架构、SRE(Site Reliability Engineering,网站可靠性工程)等方面的测试开发工作。在自动化测试、服务稳定性、专项测试和工程效能等方面有丰富的实践经验,曾受邀在行业技术大会(如MTSC、A2M等)做主题分享。对大数据、机器学习测试有深刻的理解,并在这些领域拥有丰富的实践经验。

张朋周,中国地质大学计算机科学与技术专业硕士,《机器学习测试入门与实践》作者之一。目前,担任融360高级测试开发工程师,曾在百度从事搜索业务测试开发,有近9年的开发测试工作经验。目前,主要负责机器学习方向的测试开发工作,主导了多个工具平台的开发,在数据质量保障、模型评估平台方面有丰富的实践经验。

序 一

2021年是“十四五”开局之年,也是构建双循环新发展格局的起步之年。“十四五”规划将人工智能列为重大创新领域和科技前沿领域。随着政策落地、技术突破和产业融合,我国人工智能进入黄金发展期。

人工智能是新一轮科技革命和产业变革的重要驱动力量,正在对世界经济发展、科技创新和社会进步等产生重大而深远的影响。后新冠肺炎疫情时期,长周期的经济恢复与发展成为重点,人工智能被赋予了全新使命,这就要求人工智能技术发挥未来产业“头雁”作用,通过与各产业深度融合,助推行业向数字化和智能化转型,催生新的业态,实现新的蜕变、新的发展。

中国金融行业正在步入崭新的金融科技时代,以人工智能和大数据为代表的数字技术推动着中国金融行业的创新和变革,被广泛应用于风控、支付和理赔等方面。本书全面系统地介绍了大数据测试技术与质量体系建设,能够帮助读者了解大数据技术生态、熟悉大数据项目开发并理解大数据产品的质量保障是如何落地的。

目前,融360在智能搜索、智能推荐和风控等领域布局已久,广泛应用了相关的人工智能技术,取得了不错的效果。本书由融360 AI测试团队编著,是贴近实战的大数据测试技术图书。我们希望与业界同仁共同推进相关技术的发展。

——叶大清

融360联合创始人、CEO

序 二

随着移动网络、云计算和物联网等新兴技术的迅猛发展,全球数据量呈爆发式增长趋势,大数据时代已经到来。大数据在金融、电信、教育、交通和互联网等领域,持续发挥巨大作用。大数据无疑开启了一次重大的时代转型,众多企业积极进行数字化转型升级,以期把握住大数据时代带来的机遇。

当前,大数据已成为企业的基本生产资料,数据信息已成为企业的战略资产,因此,企业应该重视数据质量和数据治理。然而,大数据自身的4V特性决定了大数据测试明显区别于传统测试。在数据的复杂度和量级飞速提升的同时,如何对大数据进行测试且保证数据质量,这是我们在质量方面面临的又一个新的技术难题。

本书是一本介绍大数据测试的方法和技术在真实业务场景中如何实践落地与发挥作用的图书,由融360 AI测试团队集体创作完成。不同于传统的大数据技术图书,本书从测试人员的角度阐述大数据产品的质量保障与工程效能。本书内容深入浅出,学习路线清晰,覆盖四大技术主题(大数据开发、大数据测试、数据质量与数据治理)和11个技术要点,并以实例分析了大数据测试应用。

本书是《机器学习测试入门与实践》的姊妹篇,二者的写作初衷一致。在业界,无论是大数据测试技术还是机器学习测试技术,都处在尚不成熟的阶段,相关的图书比较少。希望本书能够起到抛砖引玉的作用,给广大读者在大数据与机器学习测试方面带来一些收获。

很高兴看到本书付诸出版。在此,感谢艾辉和本书编著团队的邀请,能够作为融360工程师的代表为本书作序,我深感荣幸。

——刘曹峰

融360联合创始人、CTO

序 三

随着人工智能、移动互联网和物联网的快速发展,大数据商业应用开始引发人们的无限想象。大数据在2014年首次被写入政府工作报告,经过7年的高速发展,已经成为经济和企业发展的新动能和引擎。利好的国家政策、广阔的市场,以及丰富的应用场景,为企业的大数据发展提供了广阔空间。实验室的科研成果转换为可大规模应用的工程体系,促进大数据实现广泛的商业应用。大数据技术不但成为企业发展不可或缺的基础设施,而且是形成企业差异化竞争优势的核心要素。5G时代来临,大数据应用与人们的工作和生活的联系愈加紧密。

大数据技术具有复杂、多样等特点,企业在推进大数据应用的同时会面临数据质量保障方面的挑战。大数据开发、数据质量和数据治理等方面的问题,值得我们在探索中不断总结经验,进而推动大数据技术在各行各业中落地和应用。

本书根据融360在大数据应用方面的工程实践经验,结合大数据领域的研发特点,系统地汇总了测试质量方面的种种问题,总结了大数据技术与质量体系的建设经验。本书阐述了大数据测试与传统测试的差异,对大数据测试技术各环节进行了剖析;针对大数据技术复杂且门槛高的特点,提供了大数据测试的标准化、产品化和平台化方面的经验;对DataOps理念进行深入解读,引导读者学习大数据测试路线,帮助读者了解大数据测试质量方面的前沿进展。

未来,数据量会持续增长,数据类型和大数据应用场景会更加丰富。数据的海量、非结构化特点,对大数据的算力、实时引擎和数据处理等方面提出了更高要求。希望本书能够给读者带来启发,帮助读者在行业的大数据建设中输出更多的优秀落地方案。

——耿艳坤

顺丰集团CTO、顺丰科技CEO

序 四

软件定义世界,数据驱动未来。

随着机器学习等人工智能方法的广泛应用,越来越多的行业在发生变革。机器学习这类数据驱动方法改变了传统软件的开发范式,带来了机遇,也带来了挑战。通过数据训练来构建业务决策逻辑,数据不再仅仅是数据,而真正成为软件不可或缺的一部分。软件质量开始重度依赖数据质量。数据相关的测试正式成为软件质量保障方面的一部分。

通过我所在实验室的研究生向我推荐的《机器学习测试入门与实践》,以及中国互联网测试开发大会等活动,我认识并逐渐熟悉艾辉。工业界作者编写的图书更加务实,更容易让读者上手并付诸实践。从认识大数据到大数据技术生态,再到大数据项目生态,本书可以帮助初学者快速进入大数据的世界。令人惊喜的是,在本书测试相关的章节中,对数据质量着墨较多。过去几年,我曾在若干行业推广和实践数据质量标准,深知其不易。本书不仅对行业从业人员有很高的技术参考价值,还能够让学术研究人员快速进行大数据测试实践。

本书是艾辉和融360 AI测试团队的新作,非常荣幸给本书作序。

——陈振宇

慕测科技创始人

南京大学软件学院教授

IEEE国际软件测试大赛发起人

推荐序

随着大数据技术的广泛应用,对于如何将沉淀的海量原始数据进行适当存储、加工和价值挖掘;如何在数据异构且来源多样、数据类型多样和数据量达到一定规模的情况下,解决数据仓库的设计,数据血缘关系,数据的正确性和即时性,以及指标口径一致性等方面的问题,或许你会从本书中找到答案。本书从大数据质量保障的角度介绍了如何应用测试环节提升数据质量,并深入介绍了数据仓库的设计、数据开发和数据管理平台等。本书适合大数据技术人员了解数据研发的整体流程,适合测试工程师了解其职责和价值。

——邹宇,携程大数据与AI应用研发部负责人、VP

大数据已经成为当今社会生活和经济发展的核心元素。如何在工业级产品应用中对这些宝贵的数据资源进行采集、存储、分配、管理和计算分析,已经成为一个难题。本书选择这一领域进行深入研究和探索,汇集了业界相关的最新实践成果,从理论、方法和实操层面进行全面分析和总结,为有志于在人工智能和大数据领域持续钻研的产品技术人员提供了参考资料和学习指南。本书提供详细的应用背景介绍和丰富的实践案例,帮助读者快速入门大数据测试。

想要在大数据测试领域有所作为,你需要对整个技术生态和大数据业务应用的发展趋势有更强的把握能力。本书为读者提供了持续精进的路标,希望能够指引更多同路人一起前行。

——蒋凡,京东科技数字城市群数字生活产品部负责人、《智能增长》作者

大数据产品生态体系和技术体系丰富。如何围绕数据生命周期全盘地进行手工测试和自动化回归测试,这是使用大数据平台的企业面临的难题。本书介绍大数据研发和测试的原理和工具,从实际操作层面提供指导,并为数据的可感知、可管理和可使用提供实战指导。

——梁福坤,京东科技数字城市群总架构师

大数据技术相关的图书有很多,却难觅一本侧重大数据产品和应用测试的图书。本书内容翔实、案例丰富,包括大数据技术基础、大数据测试方法、大数据测试实践和数据质量管理等,针对大数据平台建设等进行了案例分析。本书通俗易懂且实用性强,适合测试工程师等进行大数据测试实操。

——杨春晖,工业和信息化部电子第五研究所副总工程师

这是一本很及时的书。大数据不是一个新鲜事物,但对于大数据测试技术,国内很少有人进行系统梳理和总结。大数据测试对技术要求高,从业者不仅要有完备的测试知识,还要有相关经验。大数据测试对数据环境的要求很高,大部分初学者缺乏实践条件,导致大数据测试目前在国内还处于半空白状态。本书基于融360 AI测试团队丰富的大数据测试实践经验,通过系统的知识梳理,整理出一整套完整的大数据测试的理论和实践方法,适合每一个对大数据测试感兴趣并希望学习相关知识的测试工程师。

——徐琨,Testin云测总裁

DT时代,数据是基石。大数据测试区别于传统软件功能性测试,大数据测试需要进行大量的数据模型构造和数据核对。本书结合艾辉及其团队的实践经验,从数据的完整性、准确性、安全性和可理解性等方面总结了体系化的测试技术方法与手段,可为读者提供新的思路和启发。

——童庭坚,PerfMa联合创始人兼首席技术官

在大数据时代,各行业加快数字化的步伐,加上5G技术和智能设备的发展,行业数据增长迅猛。利用大数据学习其特征是人工智能研究和应用的范畴,基础就是数据的正确性。在数据层面,如何保证存储、计算、流和智能分析等的正确性,是大数据测试需要解决的问题。本书首先从多个方面介绍了大数据的特性,并对多种相关测试工具进行了详细介绍,然后,从实战的角度,介绍了如何搭建大数据测试平台。相信本书会给测试行业的从业者带来帮助。

——师江帆,龙测科技创始人、CEO

目前,我们迎来了人工智能(AI)发展的第三次浪潮,这在很大程度上得益于大数据。AI的算法忠实于数据,数据质量的好坏直接影响AI的应用效果。本书的出版正逢其时。本书介绍了大数据测试的方法和技术,数据质量管理,以及如何构建大数据测试平台和数据治理平台,还提供了丰富的案例和代码示例,适合想要了解和正在从事大数据测试的读者阅读。

——朱少民

QECon大会发起人

《全程软件测试》和《敏捷测试:以持续测试促进持续交付》作者

大数据和人工智能技术在更多领域得到广泛应用,质量是关键。如何保证数据的质量和人工智能系统的质量,成为备受关注的重要主题。本书作者将多年项目实战经验与读者共享,我相信本书一定能给读者带来实实在在的收获。

——周震漪,ISTQB/CSTQB和TMMi中国分会副理事长

2020年,艾辉和融360 AI测试团队编著的《机器学习测试入门与实践》出版,受到业界广泛关注和好评。我参加了艾辉的多场技术分享活动,也亲自采访了他,愈发坚定了我往这一方向发展的决心。现在,艾辉和融360 AI测试团队编著的《大数据测试技术与实践》出版,相信它会成为大数据测试领域的佳作。希望本书可以给数据测试人员带来新的思考和启发。

——张立华(恒温),测试开发专家、TesterHome社区联合创始人

随着越来越多的企业开始应用大数据技术推动业务发展,大数据测试成为行业中一个重要的质量保障细分领域。本书细致且详尽地总结了大数据测试体系,同时融入了自建测试平台的经验。本书可以帮助企业解决大数据测试的难题,可以有效地帮助企业快速构建大数据测试体系,是一本应运而生的佳作。

——黄延胜(思寒),霍格沃兹测试学院创始人

本书既有对大数据测试关键技术的讲解,又有实际大数据项目案例。本书采用实际需求驱动的方式进行讲解,将大数据测试的核心知识点与项目实践相结合。相信本书会帮助初学者快速入门大数据测试。

——茹炳晟

腾讯技术工程事业群基础架构部T4级专家

腾讯研究院特约研究员

《测试工程师全栈技术进阶与实践》作者

随着移动互联网和智能设备的不断发展,越来越多的数据被沉淀。伴随着数据计算力与机器智能算法的发展,基于大数据和AI的应用越来越多,我们正在进入一个AI-DT驱动的时代。对于智能化的效果,有两个重要的决定因素:数据的质量和模型算法的设计。如何实现大数据的质量保障,成为业界的一个难题。艾辉及其团队在本书中揭示了其成功的实践方法。本书内容翔实,相信会给读者带来启发。

——公直,阿里巴巴资深技术专家

数据智能时代已经到来。数据不但是决定AI智能程度的关键因素,而且已经成为企业的核心资产。在数据的复杂度和量级快速增加的同时,如何对大数据进行测试和质量保障,已成为数据质量领域新的难题。本书从大数据技术的特点出发,深挖质量侧难点。本书结合项目案例介绍大数据测试方法,分析如何从头搭建大数据测试平台,并对DataOps实践过程进行详细阐述。通过阅读本书,读者会对如何开展大数据测试有全新认识。

——金晖(定源),阿里巴巴淘系技术部高级测试开发专家

本人对大数据质量的关注较少,但通过阅读本书,立刻对大数据的技术生态、项目开发过程,以及DataOps理念和质量保障体系有了全面了解与系统认识。如果你有数据治理方面的问题,或者正在思索如何定义好的数据质量,那么仔细研究和思考本书中的方法,一定会有所收获。

——林紫嫣,蚂蚁金服高级测试开发专家

大数据技术已广泛应用于互联网、金融、电信、物流和教育等行业。由于大数据具有数据量大、数据类型多样等特点,因此需要沉淀出一套有效的大数据测试方法论。本书涵盖大数据生态,大数据开发流程,大数据测试方案与实践,以及大数据平台建设等方面的内容,阐述了大数据测试技术,适合对大数据测试感兴趣的读者阅读。

——孙远,阿里巴巴测试开发专家

我们生活在数据时代,正在享受数据带给我们的诸多红利。大数据作为一种重要且复杂的技术,横跨多个领域。本书内容丰富,又不失前瞻性,实属难得。相信本书能够给读者带来不同的启发。

——吴骏龙,阿里巴巴本地生活前高级测试经理

AI时代,所有的模型都离不开数据的支持。如果算法是模型的“灵魂”,那么数据就是模型的“血肉”。因此,数据的质量和数量对模型的最终效果起到了决定性作用。本书介绍了大数据质量保障方面的实践方法,提供了可被参考和复用的场景解决方案,非常值得读者借鉴。

——王胜,百度资深测试开发工程师

本书以大数据时代为背景,以典型应用领域为切入点,系统介绍了大数据的采集、存储、计算、调度,以及数据仓库的设计等,重点讲解了大数据测试的三大典型场景:数据报表、数据挖掘和用户行为分析的测试方法。本书内容深入浅出,适合初学者了解大数据的开发和测试,同时能帮助大数据相关从业者开拓视野。

——李军亮,京东零售技术效能通道委员会会长

随着大数据技术的广泛应用,很多测试人员开始计划或者已经在进行大数据产品的测试工作。有些读者按照原先测试通用型系统的方法测试大数据产品,往往觉得无从下手,或者感觉测试不到位、不得法。本书介绍大数据基础知识和大数据测试技术,适合想要转型大数据测试或已经在从事相关工作的大数据测试人员阅读。

——熊志男,京东科技工具研发部高级软件开发工程师、测试窝社区联合创始人

随着互联网的发展,人工智能、机器学习和大数据等技术逐渐成为互联网公司的基础能力,并深刻影响传统行业。这些技术在信息处理、商业决策和智能生活等方面发挥了重要作用。技术的发展需要基础质量支撑。数字化技术在不断迭代,如何有效评估其实现效果、质量,显得至关重要。艾辉是一位行业内的知识内容高产者,由他主编的机器学习测试、大数据测试方面的图书,既有基础理论,又有业务实践案例分享。本书内容深入浅出,方便读者快速入门。本书能够给行业从业者带来指引。

——林立,小米集团智能硬件部质量总监、测试总监

2008年,Hadoop正式成为Apache的顶级项目,大数据生态体系逐渐形成。大数据技术具有开源组件多、生产链路长等特点,另外,在大数据的及时性、准确性、一致性和完整性的要求下,出现了数据内容测试、流式计算容量评估等质量保障细分领域,这些都对质量保障相关技术提出了新的挑战。与此同时,业界缺乏大数据质量保障的相关资料。本书系统地介绍了大数据相关技术、质量保障方法和实践方法,并给出了学习路线图。本书是艾辉及其团队多年实践经验的总结,是难得的佳作。

——项旭,贝壳找房质量部高级技术总监

近几年,大数据技术发展迅速,在互联网、金融和电商等领域得到广泛和深入的应用,然而,大数据的质量保障是测试过程中的一个难点。数据的准确性如何验证?数据处理过程中如何确认数据是否丢失?实时数据的更新是否实时?本书系统地介绍了BI、数据挖掘,以及实时数据、离线数据的测试方法,分析了如何通过大数据测试平台实践将大数据测试过程和自动化测试方法进行系统化落地。

本书注重理论结合实践,是大数据技术和测试领域一本难得的好书。想要了解大数据测试方法的技术人员一定能够从本书中受益。

——张涛,网易传媒测试总监

作为《机器学习测试入门与实践》的姊妹篇,本书梳理和总结了大数据测试相关的技术与实践经验,为初入大数据领域的学习者指明了方向。本书介绍了大数据测试与传统测试的区别,深入剖析了大数据测试中的重点和难点,是难得的佳作。

——王冬,360技术中台质量工程部高级总监

在大数据时代,企业开始尝试通过数据进行决策和确定发展方向。数据从采集、传输、处理和存储,到计算分析展示,链路非常长。任何一个环节出错,都会导致数据不可用。而且,问题的排查和定位困难,问题修复成本高。这些会严重影响公司的决策效率和产品迭代速度。本书内容全面,系统地介绍了大数据质量保障的整体思路,提供了大量实践案例,很有指导意义和实用价值。

——郭静,知乎质量效能团队技术总监

本书介绍了大数据质量保障方面的相关技术和体系建设方法,既有丰富的理论知识支撑,又有实际的落地经验分享。无论是大数据测试的初学者,还是大数据测试方面的专家,都能从本书中有所收获。

——李志,字节跳动教育算法中台测试负责人

大数据和人工智能技术快速发展,应用也日渐成熟。大数据测试和质量保障受到越来越多的公司的重视。本书系统地阐述了大数据测试的理论和方法,并结合融360 AI测试团队的实践经验,提供落地思路。本书内容由浅入深、通俗易懂。本书是艾辉及其团队对测试技术领域所做的贡献。我向每一位想了解大数据测试的读者推荐本书!

——董沐,字节跳动Quality Lab技术经理

DT(Data Technology)时代,数据的重要性不言而喻。面对海量数据,如何保证数据质量,显得格外重要。本书系统地介绍了大数据的技术和测试方法,以及融360 AI测试团队在大数据方面的探索和实践。本书针对大数据测试过程中遇到的痛点,阐述了大数据质量体系建设的过程。本书的内容由浅入深,从测试方法论到平台建设,从数据质量保障到数据治理,涵盖了大数据测试的方方面面,能够给正在从事和想要从事大数据测试的读者带来帮助与启发。

——王晶晶,货拉拉测试负责人

大数据测试是业界难点,因为大数据只告诉你它们是什么,而不告诉你它们为什么会这样;大数据并不是准确的,而是混杂的;大数据并不是抽样的,而是海量的全体。在进行大数据测试时,如何生成测试数据、如何做Oracle Checking等,都是挑战。本书是《机器学习测试入门与实践》后的又一力作。

——丁国富,智联联盟智库专家、软件质量及测试独立咨询师、华为前6级测试架构师

随着大数据技术的发展,相应的大数据质量保障成为颇受业界关注的领域。要做好大数据质量保障工作,不但要掌握大数据测试技术,而且要对大数据技术本身有所了解。本书从大数据技术和大数据测试技术两个维度入手,结合本书编著团队多年项目实践经验,系统地介绍了大数据质量保障体系建设的方方面面。希望关注大数据质量的人士认真阅读本书。

——林冰玉,Thoughtworks首席软件质量咨询师、质量赋能专家

从数据测试到大数据测试,数据的类型、规模和复杂程度已经不可同日而语。对于从数据“海洋”中筛选出业务所需的数据,如何确保结果可靠、过程正确和响应及时,本书给出了一些实践总结。想要学习大数据测试技术的读者不应该错过本书。

——陈霁(云层),TestOps创始人、研发效能架构师

作为《机器学习测试入门与实践》的姊妹篇,本书将大数据测试的技术、方法和实践体系化,并提供实践经验。本书内容是团队的真知灼见,是团队的价值体现。希望读者能够通过阅读本书敲开大数据测试的大门。

——陈磊,新奥集团质量总监

前  言

写作背景

随着信息技术的不断发展,大数据时代已经到来。大数据应用广泛,已渗透到各行各业,如电信、教育、金融和医疗等,对人类社会和生产活动产生了重大且深远的影响。为了抓住大数据时代带来的机遇,众多企业在积极地进行数字化转型升级。大数据应用在迎来重大发展机遇的同时,同样面临着巨大挑战,这对大数据领域的从业人员的技术水平、专业知识能力提出了更高的要求。

大数据能够给企业带来高回报的关键因素是数据质量。大数据具备数据规模大、数据种类多和数据及时性要求高等特性,这些特性决定了得到高质量的数据处理结果并不容易。大数据测试是保证数据质量的关键步骤,经过合理、充分的大数据测试,可以显著提高大数据应用的水平和效果。

对于传统软件、互联网产品的测试,测试方法和质量体系是相对成熟的。而大数据测试尚处于发展阶段,并且大数据应用经常与机器学习相关技术紧密联系,因此,我们不能生搬硬套传统软件和互联网产品的测试方法。另外,该领域鲜有完整的大数据质量体系可供借鉴。面对来自大数据测试和机器学习测试方面的技术挑战,我们在团队中组织了系列技术攻坚行动,不断积累大数据测试和机器学习测试的实践经验,并逐步搭建和完善质量体系。

融360 AI测试团队编著的《机器学习测试入门与实践》于2020年10月出版,从测试人员的角度阐述了机器学习产品的质量保障和工程效能,并重点讲解机器学习测试方法如何在真实业务场景中落地。数据作为机器学习的三要素(数据、模型和算法)之一,决定了机器学习的上限,而模型和算法只是逼近这个上限。由此可见,掌握大数据测试是重中之重。本书聚焦大数据测试,以更加全面的角度剖析大数据测试技术,并通过实例介绍大数据测试的应用。

写作本书的主要目的是与业界分享融360 AI测试团队在大数据测试方面的实践经验,共同推进大数据测试的发展。本书能够帮助读者了解大数据技术生态,熟悉大数据项目开发,了解大数据产品的质量保障是如何落地的。

本书结构

本书分为4个部分(共11章)和1个附录。

第1部分:大数据技术基础。

第1章:认识大数据。本章首先介绍大数据的基本概念和特性,然后简述大数据技术的发展历程,最后列举大数据在多个领域的经典应用案例。

第2章:大数据技术生态。本章首先介绍大数据技术生态的分层,然后从数据采集、数据存储、计算分析和管理调度4个方面介绍主流的开源技术组件,最后介绍大数据的商业生态和相关产品。

第3章:数据仓库的设计与构建。本章首先讲解数据仓库的基本概念和发展过程,并将数据仓库与数据集市、数据湖和数据中台进行对比分析;然后介绍数据仓库的架构分层和建模方法,提供数据仓库设计的方法论;最后通过一个实例来详细解读数据仓库的构建过程。

第4章:大数据项目开发流程。本章首先概括了大数据项目的分层架构,并对数据的采集与存储,以及数据计算等进行了深度解读;然后,通过大数据项目开发案例(用户行为分析平台),从需求、流程和设计(架构、数据模型和调度)等多个方面阐述如何进行大数据项目的开发。

第2部分:大数据质量保障。

第5章:大数据测试方法。本章首先介绍大数据测试的定义,以及大数据测试与传统数据测试的差异;然后介绍大数据测试的类型和方法,以及大数据测试流程;接着,重点剖析大数据基准测试、大数据ETL测试,并对大数据测试过程中出现的问题和面临的挑战进行了总结。

第6章:大数据测试实践。本章精选3个大数据应用场景,即BI报表、数据挖掘产品和用户行为分析平台,阐述大数据测试实践过程,包括BI报表的分层测试,数据挖掘产品的ETL测试的步骤和方法,以及用户行为分析平台中的实时数据与离线数据的测试技巧。

第7章:数据质量管理。本章介绍数据质量管理的定义、影响因素和流程,重点阐述如何通过数据质量管理来提升数据质量,以及数据质量管理办法、数据标准和数据质量评估。

第3部分:大数据平台建设。

第8章:大数据测试平台实践。本章首先介绍大数据测试平台背景;然后介绍大数据测试的开源技术与商业方案,包括功能特性、技术架构和应用场景等;接着介绍如何从零开始搭建大数据测试平台,包括需求分析、架构设计、功能实现和页面演示;最后,对大数据测试平台的发展进行了总结和展望。

第9章:数据治理平台建设。本章首先对数据治理进行概述,包括基本概念、重要意义、主要挑战和实施过程等方面;然后讲解数据治理平台体系;最后围绕数据治理的平台实践(元数据管理平台、数据质量监控平台)进行阐述,包括平台产生背景、平台架构和模块设计等。

第10章:DataOps的理念与实践。本章首先对DataOps进行概述,包括DataOps的定义和发展历程,为什么需要DataOps,以及它与DevOps和MLOps的联系和区别;然后阐述DataOps的能力与特性;最后列举DataOps技术工具,并通过数据管道技术示例进行DataOps实践。

第4部分:大数据测试学习。

第11章:大数据测试的学习路线和发展趋势。本章首先介绍学习大数据测试的意义;然后从基础知识、编程语言、大数据技术和大数据测试技术等多个角度阐述大数据测试的学习路线;接下来提供大数据测试的技能图谱;最后展望大数据测试的发展趋势。

附录:大数据技术经典面试题。

致谢

本书是集体创作的结晶。本书的每一位作者利用大量休息时间,以及本应和家人共享的假日,完成了本书的创作。感谢各位作者的家人的理解和支持。

在本书的成书过程中,得到包括融360联合创始人、CTO刘曹峰,融360高级技术总监张刚刚在内的各位领导和同事的关心、鼓励和支持,在此一并表示感谢。

最后,在本书的写作过程中,参考了大量文献,在此对这些文献的原作者表示衷心感谢。

艾辉

第1章 认识大数据

随着移动互联网的快速普及,云计算和物联网技术的快速发展,以及数据种类的不断增加,数据量呈爆发式增长态势,大数据时代到来了。大数据技术是对大量数据处理的技术,实现了从数据到知识的飞跃。大数据技术的创新与发展,以及对数据的全面感知、收集、分析和共享,为我们提供了一种全新的看待世界的方法。大数据带来的信息“风暴”正全方位地影响我们的生活和工作。

1.1 大数据概述

我们既是数据的创造者,又是数据的使用者。如今,数据应用已经渗透到我们的生活和工作中的每一个角落。在打开手机的那一刻,数据就已经产生了,如文字、图片和视频等都是以数据形式进行处理和保存的,可以在网络上阅读或观看它们。

目前,对于大数据,并没有一个统一的定义。全球知名咨询公司麦肯锡(McKinsey & Company)对大数据的定义:大数据是指大小超过经典数据库系统收集、存储、管理和分析能力的数据集。研究机构Gartner对大数据的定义:大数据是海量、高增长率和多样化的信息资产,只有新处理模式,才能令其具有更强的决策力、洞察发现力和流程优化能力。Apache Hadoop对大数据的定义:大数据是指普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集。国际数据公司IDC(International Data Corporation)对大数据的定义:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取大量形式多样的数据的经济价值。

由此可见,不同的组织对大数据的定义有着不同的看法,但它们有一个共同的特点:数据量非常庞大,即海量数据。据IDC在2018年11月发布的《Data Age 2025》报告预测,2018~2025年,全球每年产生的数据量将从33ZB增长到175ZB,相当于每天产生491EB数据。175ZB数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB数据全部存入DVD,那么这些DVD叠加起来的高度将是地球和月球距离的23倍(地球和月球的最近距离约39.3万千米)。假设平均网速为25MB/s,下载这175ZB数据就需要花费18亿年。如果我们仅通过人工方式处理如此庞大的数据,那么是不可能完成的,因此,必须借助计算机的数据处理能力。

大数据不仅用来描述大量的数据,还更进一步地指出数据的复杂形态,数据的快速处理特性,以及数据的分析、处理等专业技术。“大数据”区别于“小数据”的4个特征,即4V特征,如图1-1所示。

图1-1 大数据的4V特征

(1)多样性(Variety)

数据来源广、维度多、类型复杂。大数据涉及多种数据类型,包括结构化数据、半结构化数据和非结构化数据等。例如,网络日志、视频、图片和地理位置信息等数据在编码方式、数据格式与应用特征等多个方面存在差异。

(2)体量(Volume)

大数据的体量非常大,PB级已是常态,而且数据量的增长速度非常快。2020年,一辆联网的自动驾驶汽车每运行8小时会产生4TB数据。据Facebook统计,Facebook每天产生超过4PB数据,包含100亿条消息、3.5亿张照片和1亿小时视频。全球数据量正以前所未有的速度增长,数据的存储容量从TB级扩大到BB级。随着技术的进步,这个数值会不断增长。

(3)时效性(Velocity)

时效性强调两方面:增长速度和处理速度。随着互联网技术的发展,数据的生成、存储、分析和处理的速度远远超出人们的想象。在传输、决策和控制这个开放式循环的大数据场景中,对数据处理的时效性要求非常严格(甚至要求实时响应)。若我们依旧采用传统数据库查询得到的“当前结果”,那么很可能没有了价值,此时就需要依赖大数据技术。相对于非批量式处理,大数据更强调实时分析,因为再有价值的数据,只要失去了时效性,就失去了价值。

(4)价值(Value)

大数据的第4个特征是价值高,也有学者解读为价值密度低。单条数据本身并无太多价值,但大量数据积累后往往隐藏着巨大价值。大数据的价值具备稀疏性、多样性和不确定性等特点。例如,在连续不断的数据监控过程中,有用的数据可能只存在于一两秒的过程中,但是我们无法事先知道哪一秒的数据是有价值的。通过数据挖掘、数据分析等技术手段可以获取有价值的数据,从而可以支持企业决策,驱动业务发展,为企业带来巨大收益。

随着大数据技术的发展,业界对大数据的挖掘更加深入,对其特征的认识也更加完善。当前,大数据的特征不再局限于4V,已发展到8V,如图1-2所示。4V仍是目前广受业界认可的大数据特征,因此本书不会详细介绍8V特征。

图1-2 大数据的8V特征

1.2 大数据的发展

大数据不是凭空产生的,它有着漫长的发展历程。早在20世纪90年代,基于大数据的数据分析现象就发生在美国的一家超市中,这就是经典的大数据分析案例——啤酒与尿布,如图1-3所示。

图1-3 啤酒与尿布

“啤酒与尿布”案例讲述的是,全球零售业巨头沃尔玛将用户购买行为记录下来,后期在进行用户购买行为数据的分析时发现,男性顾客在购买婴儿尿布时会同时购买几瓶啤酒来犒劳自己。基于数据分析的结果,沃尔玛开始尝试推出将啤酒和尿布摆在一起的促销手段,没想到这个办法使尿布和啤酒的销量都大幅提升。可见,大数据在为企业带来巨大收益的同时也为人们带来了很大的便利。

大数据的发展离不开大数据技术。人类目前已进入信息化时代,这是一个数据“爆炸”的时代,大数据技术在这个时代应运而生且发展迅猛。图1-4列举了大数据技术发展历程中的一些重大事件。

图1-4 大数据技术发展历程中的一些重大事件

2004年,Google发表了3篇重要论文:Google File SystemGoogle MapReduceGoogle BigTable,人们将它们称为大数据处理方面的“三驾马车”。GFS(Google File System,Google文件系统)是一个分布式存储系统,即大量普通PC(个人计算机)服务器通过互联网(Internet)互联,对外提供整体的存储服务。MapReduce是一个编程模型,主要为了解决在分布式环境中并行计算海量数据的问题,其解决问题的思路是将一个大问题分解为若干个小问题,最终进行收集合并,即批处理计算。BigTable的设计是为了对海量数据进行快速存取。相对于普通数据库,BigTable更加注重高效的存取性能,而不需要复杂的SQL逻辑。Google提出了BigTable的NoSQL方案,这是一种颠覆性的创造,打破了原有的数据库旧框架,实现了一种可以适应需求的新系统。Google在大数据处理方面的“三驾马车”开启了大数据的新时代,并指明了大数据技术的发展方向。

2005年,Hadoop项目诞生。Apache Hadoop是一个开放源代码的软件框架,用于开发在分布式计算环境中执行的数据处理应用程序。Hadoop是由多个软件共同组成的生态系统。这些软件的共同协作灵活地实现了大数据分析的各种功能。用户可以轻松地在Hadoop上创建、运行和处理海量数据。

2012年,YARN以一个独立的项目开始运营。YARN将MapReduce中的执行引擎和资源调度分离,解决了MapReduce的资源复用等问题。随后,YARN被各类大数据产品支持,并成为大数据平台中主流的资源调度系统。但是在利用MapReduce进行机器学习的计算时,性能表现非常差,造成了大量的时间和资源的消耗。另外,MapReduce主要使用磁盘作为存储介质。针对这些缺陷,加利福尼亚大学伯克利分校的AMP(Algorithms Machine People)实验室的马铁博士开发了Spark。Spark一经推出,立即受到业界欢迎,几乎所有一站式大数据平台都集成了Spark。

大数据技术在逐步发展和完善,现在已有Hadoop、Storm和Spark等著名开源社区。2014年年末,Flink成为Apache的顶级项目。目前,Flink主要面向计算,并且可以与Hadoop生态高度集成。Storm也是被广泛使用的实时计算框架。相比Storm,Flink的吞吐量更高,延迟更低,准确性更能得到保障;相比Spark Streaming,Flink以事件为单位,达到真正意义上的实时计算,且所需的计算资源相对更少。除大数据的批处理和流处理以外,NoSQL系统处理的主要是海量数据的存储与访问,因此它也被归为大数据技术。NoSQL在2011年非常受欢迎,市面上涌现出HBase、Cassandra等许多优秀的相关产品,其中HBase是从Hadoop中分离出来的基于HDFS的NoSQL系统。

在2014年以后,大数据技术持续快速发展,目前已达到一个比较成熟的状态,Hadoop也从1.0时代发展到3.0时代。在Hadoop 1.0时代,计算和存储是高度融合的,此时仅能处理单一的MapReduce分析业务;在Hadoop 2.0时代,计算层与数据开始解耦,通过YARN实现了独立的资源管理,并开始支持Spark等更多的计算引擎;在Hadoop 3.0时代,计算向轻量化和容器化方向发展,计算与存储分离演进已成为事实。

1.3 大数据的应用

随着数据科学和大数据技术的发展,大数据的应用愈加广泛,从互联网领域逐步推广到物流、教育、金融和电信等领域。

1.3.1 互联网领域

互联网企业拥有海量数据,且数据量仍在快速增长。通过大数据技术,互联网企业开始实现数据业务化,利用大数据创造新的商业价值。在互联网领域,大数据被广泛用于搜索引擎、推荐系统和广告系统等。

(1)搜索引擎

搜索引擎可以收集几千万到几十亿个网页,并对网页中的每一个词进行索引。通过搜索引擎,我们可以在大数据集上快速检索信息。如今,搜索引擎已经成为一个与人们的生活和工作密切相关的工具。图1-5展示了常见的搜索引擎。

图1-5 常见的搜索引擎

搜索引擎的工作过程可以简单地分为4个阶段:爬行、抓取、索引和排名。在爬行和抓取阶段,收集网页信息并建立原始数据库;在索引和排名阶段,对原始数据库中存储的网页进行信息的提取和处理。Google作为全球知名的搜索引擎,存储着大量可访问的网页,网页数目可能超过万亿。为了存储这些文件,Google开发了GFS。GFS统一管理数千台服务器中的数万块磁盘,并统一存储所有的网页文件。

(2)推荐系统

推荐系统在互联网领域占据重要地位。如今,电子商务蓬勃发展。通过大数据技术,可以采集顾客的反馈意见、购买记录,甚至社交数据等,从而分析和挖掘顾客与商品的相关性。推荐系统能够根据用户的兴趣,为用户推荐一些有针对性的商品。在用户购物的同时,一些电子商务网站不同程度地利用推荐系统为用户推荐商品,从而提高其销售额。

(3)广告系统

广告系统是互联网领域常见的盈利模式,也是一个典型的大数据应用。广告系统与推荐系统类似,但不完全相同。对于推荐系统,本质上是要处理用户体验的问题,而广告系统要处理的是三方(广告主、用户和媒体)利益协调的问题。广告主在广告系统里创建广告,广告数据进入检索引擎后,通过各个渠道进行推广。在用户看到广告时,系统将自动计算为曝光数据,用户点击和成功交易的数据都会被收集、处理。广告系统将大数据处理结果反馈并展示到可视化平台上,供广告主在投放广告时进行决策、指导。由于大数据的出现,互联网广告呈现一种全新的面貌。与传统的互联网广告相比,大数据时代的互联网广告更倾向于通过锁定特定的人群来进行精准投放。

1.3.2 物流领域

随着物联网大数据的应用,现在的物流企业与之前相比发生了巨大变化。物流大数据包含快递、快运、设施、园区和全球物流等多方面千万级别的数据。通过对海量资源进行数据分析,可以提高运输与配送效率,减少物流成本,更有效地满足客户要求,在企业收益和用户体验上实现双赢。

针对物流行业的特点,大数据应用主要体现在车货匹配、运输路线优化和库存预测等方面,如图1-6所示。

(1)车货匹配

车货匹配是指平台通过互联网手段将货主的货源信息集中在一起,让有找货需求的用户在平台上按需获取信息,最后达成货物运输交易。一直以来,物流企业存在“小、散、乱、弱”问题,这也是国家政策提出物流行业要降本增效的行业背景,大多数车货匹配平台创建的初衷就是为了消除此痛点。

图1-6 物流大数据

如今,用户可直接通过线上物流平台发布货源信息。通过用户填写的数据,系统自动计算该批货物的运输费用;通过对货主、司机和任务的精准画像,可实现智能定价,并为司机智能推荐任务和根据任务要求指派配送司机等。平台根据货物的起始地和目的地匹配对应的车源信息,然后通过定位技术对车辆和货物进行跟踪,实时掌握货物的运输情况,用户则可以根据提货单号实时掌握货物的运输情况。平台通过货运状态确认货物是否成功运抵和交付。若服务实施成功,用户可直接通过网络支付方式为驾驶员结算运输费用并通知驾驶员。这个流程对我们来说并不陌生,网络购物、线上预约拉货服务等基本使用这类模式。

(2)运输路线优化

大数据可用于运输路线的优化,这是物流领域一项重要改进。物流通常涉及长途运输大量产品。对于物流管理,拥有一个包含所有相关数据的、有组织的系统是非常有益的。物流运输存在成本,物流运输路线的长短直接决定物流运输速度的快慢,利用大数据技术能够实现路线的实时分析,并为当前运输车辆找到最佳路径。大数据技术能够为运输过程节省更多的时间,从而降低人工成本,同时能够提高物流运输的安全性。

(3)库存预测

随着线上商铺的兴起,越来越多的商户选择在线上进行商品销售。线上商铺直接将从工厂拿到的商品销售给用户,用户无须花费大量的出行时间去购买商品。大数据可以根据以往的销售数据进行建模和分析,以此来判断当前商品的库存是否合理,并提前给出哪些商品可增加库存、哪些商品需要减少库存的建议,商户无须再为商品滞销问题而烦恼。可见,使用大数据技术进行库存预测,可以提升消费者的网购体验,提高商户的资金利用率。

1.3.3 教育领域

在2018年的《政府工作报告》中,3次提到了大数据。该报告还特别指出:“做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进‘互联网+’。发展智能产业,拓展智能生活,建设智慧社会”。随着大数据、云计算和人工智能等新技术的应用,教育行业迎来了前所未有的挑战与机遇。传统的教育行业正逐步向信息化迈进,各种教学应用应运而生。大数据技术帮助家长和教师准确发现孩子在学习上的差距,以及孩子的爱好、特长等,通过大数据分析,可以有效地发现适合不同孩子的学习方法。大数据在教育行业的应用有智能解题、AI教育等。

(1)智能解题

近几年,市场上出现越来越多的智能解题工具,如作业帮、小猿搜题等。较为简单的智能解题系统通常使用搜索引擎收集大量的试题和答案并保存。当用户在搜题时,智能解题工具可以将试题与数据库对比,然后将匹配的答案返回用户。在这个过程中,看似系统在进行智能做题,实际只是帮用户找到答案。

(2)AI教育

AI教育解决了“学生端数据模糊化”和“教师端教学效果输出不稳定”两大难题。通过收集教师训练场景的大数据,不断优化算法模型,可以降低对教师的依赖;AI教育利用现有机器学习算法和大数据,可以对学生潜质进行大数据分析,并且对已有的教育资源进行智能推荐,为具有不同潜质的学生推荐合适的学习资料和教育方式。

1.3.4 金融领域

大数据技术与金融行业的深度融合,推动了金融领域的创新和发展。在银行、保险和证券等业务方面,人们对金融大数据的应用进行了广泛探索。大数据在金融行业的应用包括金融客户画像和金融风险控制等。

(1)金融客户画像

金融客户画像主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力数据、兴趣数据和风险偏好等;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据,以及相关产业链上下游数据等。金融客户画像解决方案全面整合金融客户数据,对海量用户交易数据进行大数据分析,构建客户全维度用户标签,并通过用户画像支撑精准营销、关联推荐等各类业务应用。

(2)金融风险控制

数据和风险控制历来是支撑金融业务持续发展的两个关键要素。对于银行,数据是最有价值的资产之一。银行有诸多风险控制业务,如何依靠大数据进行风险控制是发挥数据价值的关键。金融行业历史悠久,沉淀了大量的历史数据,利用大数据技术对这些数据进行计算,可以得到用户特征和风控模型。当用户进行借贷等对银行有风险的业务时,可以将用户授权的个人特征输入风控模型中并计算,就可以得到该用户的风险评分,进而自动给出该用户的贷款策略。

1.3.5 电信领域

电信行业掌握着体量巨大的数据资源。对于单个运营商,其手机用户每天产生的话单记录、信令数据和上网日志等数据已达到PB级规模。大数据在电信领域的应用有基础设施建设优化和客服中心优化等。

(1)基础设施建设优化

利用大数据,可以实现基站和热点的选址,以及资源的分配。运营商通过分析话单和信令,得到用户的流量在时间周期和位置特征方面的分布,可以在4G的高流量区域设置5G基站和WLAN热点。同时,运营商通过建立评估模型对已有基站的效率和使用成本进行评估,及时发现并解决基站建设方面的资源浪费问题。

(2)客服中心优化

客服中心是运营商和客户接触的主要通道,其拥有大量的客户呼叫行为和需求数据。利用大数据技术,深入分析客服热线呼入客户的行为特征、选择路径和等候时长,关联客户历史接触信息、客户套餐消费情况、客户人口统计学特征和客户机型等数据,建立客服热线智能路径模型,预测下次客户呼入的需求、投诉风险,以及相应的路径和节点。这样便可缩短客服呼入处理时间,降低投诉风险,提升客服满意度。

1.4 本章小结

本章首先介绍了大数据的定义与特征,然后介绍了大数据的发展历程,最后介绍了大数据在部分领域的应用。当然,大数据的应用远不止于此。关于大数据的关键技术,将在后续章节详细介绍。

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战
医疗大数据挖掘与可视化
医疗大数据挖掘与可视化

相关文章

相关课程