书名:AI时代的数据价值创造:从数据底座到大模型应用落地
ISBN:978-7-115-67016-8
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
编 著 刘汪根 王志军 陈 果
责任编辑 贾 静
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书旨在帮助数据行业的从业者在AI时代提升数据管理和数据技术认知水平,内容覆盖数据价值创造的理论、技术和实践。业数据的发展历史,并讲解现代企业数据组织。第2章从多维度解析数据价值的创造路径,包括从构建数字化决策、加速业务创新和推动AI变革等视角介绍数据价值创造的方法和成果。第3章系统讲解数据管理的方法与技术,包括数据资产管理、数据资产运营、数据平台架构的规划及实践案例。第4章讲解数据要素价值化的路径探索,包括数据要素在多行业的应用、基础体系、可信数据流通技术及数据资产入表。第5章讲解数据底座的技术与实践,包括数据底座的架构要求、分布式存储技术、分布式计算技术等,以及多种架构介绍。第6章讲解数据与AI的融合,包括推荐系统、基于LLM的数据治理分析、数据标注等。第7章介绍企业AI应用的方法论与知识融合。第8章是数据领域技术趋势与思考,包括数据技术的自主可控、开源技术的发展与挑战、数据中台的发展历程与思考、数据编织技术的原理与展望。
本书适合对大数据技术、数据管理、数据价值、数据与AI融合及相关技术感兴趣的读者阅读,尤其适合从事大数据相关工作或旨在推动企业数字化转型的读者阅读。
刘汪根,现任星环科技副总裁、联合创始人,中国计算机学会(CCF)大数据专家委员会和数据治理发展委员会执行委员。2006—2013年先后在Intel和NVIDIA负责CPU和GPU微架构的设计工作,2013年以联合创始人身份加入星环科技,帮助公司打造了一系列自主可控、技术领先的大数据基础软件产品,成为全球首个通过国际基准测试TPC-DS认证的公司,累计支撑了超过1500家企业的数据底座。
王志军,中国联通软件研究院副院长,首席安全官。国家科技进步奖和国务院政府特殊津贴获得者,教授级高级工程师,北京邮电大学兼职教授。致力于大数据、云计算、AI及企业信息化领域研究,是通信行业大数据平台建设的开拓者,曾帮助运营商率先实现全网数据集约化、百PB级数据集中高效处理。
陈果,企业知识开源计划创始人兼首席布道师,波士顿咨询公司前董事总经理,IBM咨询前全球执行合伙人,在管理咨询和IT咨询行业拥有24年从业经验,为消费品和零售、高科技、冶金和化工、汽车和机械、物流、银行、保险等行业的100多家企业提供过咨询服务。先后在中国科技大学担任EMBA客座教授,在复旦大学管理学院担任MBA课程教授等。
近年来,我国数字经济取得了举世瞩目的成就。数字化时代是“赢家通吃”的时代,产品的推广速度远超以往。据统计,在工业时代,收音机花38年获得了5000万用户;在信息化时代,互联网用4年时间获得了5000万用户;而在数字化时代,抖音在2018年的春节期间的日活跃用户数(DAU)增长了近3000万,达到了近7000万。创新速度是数字化时代的主要竞争力,因此企业做数字化转型势在必行。2020年,《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》首次将数据与土地、劳动力、资本、技术等传统要素并列为生产要素,这成为数据资产化进入深度应用阶段的标志。
刘汪根、王志军和陈果这3位产业界的专家联合撰写了本书,本书着眼数据价值、数据管理、数据要素、数据底座,以及数据与AI技术的融合,兼顾数字化战略和数据管理的技术和实操的多个层面,内容丰富、体系完整。
刘汪根先生深入参与多个行业客户的项目,支撑过众多大型客户的数字化建设,帮助解决了大量数字化建设中的问题,积累了大量的“他山之石”。王志军先生目前是中国联通软件研究院副院长,负责集团内部数字化平台和系统的规划建设,他从2011年就开始主持中国联通各类大数据系统的研发、建设和运营工作,积累了大量的实践经验,这些经验对央国企有很好的借鉴意义。陈果先生是国内知名的企业管理专家和IT咨询顾问,曾经帮助多家企业规划数字化转型工作,并取得了丰硕的成果。
本书的3位作者都是在数字化领域工作多年的老兵,他们的身份刚好分别代表厂商、甲方和咨询方,是企业数字化转型中的3个主要角色。他们对各行业的数字化转型的痛点有比较深刻的理解,知道哪些是需要被推广的知识、哪些是行业内急缺的资料、哪些是常见的“坑点”以及应如何“避坑”。本书包括互联网企业、央国企、金融和政府领域的数字化转型的成功实践,读者可以从中提取出可操作的技术,并与数字化转型的理论知识深度融合。因此,我觉得企业管理人员、架构师和数据管理人员都可以从本书中获得有价值的知识来解决自己遇到的真实问题。
大数据技术在过去10多年中发生过多次技术迭代,Hadoop从盛到衰,湖仓一体技术兴起,数据中台从“红”到“紫”再到逐渐理性,数据联邦、数据编织等新技术被Gartner持续推荐,AI与数据技术的融合兴起等,这些技术的原理比较复杂、理解起来比较难,而且涉及技术管理和项目管理的维度,因此对数据行业的从业者来说,对大数据知识库建立全局的认知需要付出极高的时间和精力成本。此外,常见的关于大数据技术的图书一般仅深入介绍某部分知识(如Spark或Flink),不会引导读者去思考这些技术为什么会这样发展。本书从技术使用者的视角将数据管理和大数据技术抽丝剥茧,剖析大数据技术的发展历程,总结部分技术的发展方向,期望可以帮助读者掌握体系化的大数据知识,培养全面的逻辑思考能力。
作为AI的“燃料”,数据是训练和发展大模型的基础,数据的规模、质量和多样性直接影响大模型的性能和准确性。反过来,AI技术也可以帮助企业迅速提升数据能力。2024年,我国大模型的建设如火如荼,很多企业开始了AI赋能业务的建设工作。本书内容覆盖数据与AI的融合、知识图谱、向量数据库和AI数据安全等知识,可以让数据从业者理解后续如何利用AI做好数据工作。
本书收录了我国一些数字化转型的成功案例,希望可以为大数据从业人员、企业数字化转型推动者、数据要素市场建设的各方参与者带来启发和收获。我也希望更多的数据行业从业者携起手来,通过更多的技术创新来更好地发挥数据价值,共同为数字经济实现更高水平开放、更高层次互联互通提供新的技术路径与落地实践。
黄宜华
南京大学计算机科学与技术系 教授
CCF大数据专家委员会 副主任
近年来,随着移动互联网、物联网等技术及产业的不断发展,全球数据量呈现爆发式增长态势。数据作为生产要素,在数字经济的发展中发挥着日益重要的作用。政府机构和企业持续加大在数字化产品和服务上的投入,以满足日益增长的业务数字化转型的需求。
当前我国正着力激活数据要素价值,加速推进数字经济、数字社会和数字政府建设,以数字化驱动生产方式、生活方式和治理模式的系统性变革。构建数字化能力、提升运营效率、优化业务流程,已成为企业发展的核心竞争力之一,在金融、交通、能源和制造等关键领域尤显重要。随着政府和企业数字化进程的深化,数据要素市场化配置成为必然趋势。通过构建行业间高效的数据交换与流通机制,实现跨领域的数据互联互通、信息共享与业务协同,将释放巨大的经济价值。
在2013年前,我主要从事芯片设计工作,在Intel和NVIDIA参与处理器架构的设计工作,参与了多款CPU和GPU芯片的微架构设计和技术管理工作。2013年,我有幸加入星环科技,帮助公司打造和研发产品体系,自主研发了大数据平台TDH、数据云平台TDC、大数据开发工具TDS等产品,已累计有1000多家终端用户,分布在金融、政府、能源、交通、制造等众多领域。作为一名研发管理者,我带领团队于2015年在业内首次实现了在Hadoop大数据平台上提供了完整的SQL兼容、Oracle PL/SQL支持和分布式事务等技术,并在2017年发布基于Kubernetes的大数据平台,创造了多个大数据技术领域的创新。2018年,我带领星环科技的研发团队通过了TPC-DS基准测试的认证,这是该基准测试自创建后12年来的全球首个认证,成为我国数据库产业领域的一个里程碑。
在伴随着大数据行业快速发展的这10多年里,我除了负责星环科技内部的技术研发工作,还负责支持大型金融机构、政府和央国企的数字化转型项目,并承担与投资人沟通的部分工作,这让我能够更加全面地观察数据这个行业。企业数字化转型的本质是借助数据技术来升级或者重构业务体系,其成功实施依赖3大要素:(1)组织层面的数字化思维转型;(2)技术团队的数字化能力建设;(3)业务部门的数字化应用落地。具体而言,在组织层面需建立数字化管理委员会统筹协调,构建包含数据开发、数据治理、数据分析的专业团队体系,并整合上下游生态资源;在技术层面应建设包含数据平台、数据治理体系、AI演进路径的完整技术栈;在业务层面需聚焦核心业务流程数字化改造,持续提升运营效率。
根据我们的观察,数字化转型相对成功的企业大都制定了务实的数字化战略蓝图,有计划、分阶段地实施数字化技术提升企业经营效率,拓展数字化新业务,并适时启动AI战略转型。这些企业的共性包括管理层对利用数据技术来重构和拓展业务有统一的共识,业务部门认可数字化改造方案,技术团队具备建设数据体系的能力。本书总结了这些企业的典型案例并进行分析,结合理论框架,为读者系统梳理数字化转型的成功要素与实践路径。
根据我们的观察,目前我国较多的企业数字化工作仍然处于摸索或持续提升的阶段,只有比较少的企业能够实现数据价值的持续放大。我们也观察到,大量的企业在数字化建设中有一些误区,总结起来主要有以下3点。
● 管理层没有数字化的顶层设计,认为数字化项目就是一个IT建设项目,缺少持续性投入与改进的规划。
● 技术团队只注重显性的数字化技术本身,而不会关注隐性部分,例如数据管理的持续性工作,以及如何做好对业务团队的支撑。
● 业务团队忽视自身参与数字化建设的不足,单纯地认为IT团队能够独立承担业务数字化的重任,或者认为一个数据中台或大数据平台建设好后,业务数字化和数字业务化就自然而然地完成了,业务部门无须做出重大改变。
虽然有些企业管理者认识到了这3个误区,但是整体建设过程需要投入大量的资源(包括资金和团队),而同行业可借鉴的案例不多,又缺乏可信任的团队或厂商,因此只能放慢节奏,在摸索中过河,在建设中提高整体认知。
近几年我跟国内上百个企业的数据管理者做过深入沟通,也深刻理解到不同企业管理者的痛点,而这些痛点问题大部分在其他的企业都已经解决了。因此我期望通过本书提炼的一些有价值的知识,以及部分企业的成功经验背后的体系,帮助读者更快地提升数字素养和构建数据技术知识体系,让大家更少“掉坑”,更快“爬坑”。本书内容的组织如下。
第1章介绍数字化与信息化,回顾数据在企业内的发展情况,并介绍现代企业数据组织。
第2章介绍数据价值的创造路径,通过案例来说明企业该如何实现数据价值化,以及在组织上如何做好体系建设。
第3章讲述数据管理的方法与技术,从实践的视角来讲解数据从资源转换到资产需要做哪些工作,如何做好数据资产管理和运营,如何规划数据仓库、数据湖、数据集市、数据中台等,并特别介绍中国联通的数据运营体系。
第4章是数据要素价值化的路径探索,包括数据要素在不同行业中的应用、数据要素的基础体系、可信数据流通技术和数据资产入表。
第5章是数据底座的技术与实践,侧重于大数据技术本身,总结各个大数据技术路线的发展,帮助读者理解不同技术发展的重点和能力域,以及如何结合企业自身情况落地不同架构(如湖仓一体、存算分离)。
第6章是数据与AI的融合,讲解数据如何为AI服务,包括知识图谱、向量数据库等基础设施技术,也覆盖AI数据安全的挑战和防护技术等内容,这可以帮助企业数据技术部门厘清在AI时代团队的技能升级方向。
第7章是企业AI应用的方法论与知识融合,解析企业AI落地的技术路径与挑战,涵盖通用模型、推理模型与智能体,企业AI应用落地方法论,大模型与企业知识融合,以及知识工程中的大模型应用。
第8章是数据领域技术趋势与思考,主要包括我们对数据行业一些趋势或问题的理解,这些分析可供管理者在选择技术路线时参考。
在编写本书的过程中,我得到了很多朋友的大力支持。我要感谢叶浩、张剑伟、潘颖捷、白杨、叶剑提供的帮助和相关案例素材。我还要感谢解友泉、赵梦笛为本书内容提供了大量改进建议,感谢星环科技的技术团队提供了大量的数据资产管理、大数据技术和客户案例材料。
数据行业是长坡厚雪,需要久久为功,在此也感谢我的家人让我可以做难而正确的事情。
刘汪根
2024年12月
在信息新时代,信息改变了一切,具体而言,即计算融入一切、网络连接一切、数据表征一切、智能灵化一切、软件定义一切、可信泛在一切。
——吕建,中国科学院院士
国家数据局对“数据”的定义是“任何以电子或其他方式对信息的记录”。数据在不同视角下被称为原始数据、衍生数据、数据资源、数据产品和服务、数据资产、数据要素等。
在企业运营和管理的语境(包括作业事件、业务操作、管理活动和决策支持等)中,数据是指在人类社会组织或客观世界的物理环境中,对发生事件的事实记录;而信息则指的是通过“信息系统”,将记录事实的原始数据(Raw Data)转化、加工而成的,对人类有意义和有用的数据。
信息系统是个人或组织对数据进行管理、处理、转化,由原始记录到智慧洞察的技术载体。在信息系统中,数据的转化过程被描述为DIKW模型,如图1-1所示。
● 数据(Data):数据是原始的、未经处理的事实,如数字、文字、图像、符号等。它直接来自事实,可以通过观察或度量来获得。
● 信息(Information):信息是经过组织和处理的数据,它为数据赋予了意义。例如,将数据放入特定的上下文中,使其能够回答“谁、什么、何时、何地”等问题。
● 知识(Knowledge):知识是对信息的进一步加工,是经过人们理解和解释的信息。它涉及“如何”这样的问题,并能够指导人们行动。
● 智慧(Wisdom):智慧是人们在知识的基础上,通过经验、洞察力和判断力形成的。它涉及对未来的决策和对行动的指导,包含对行动后果的深远考虑。
图1-1 DIKW模型
在DIKW模型中,数据是基础,随着处理层次的提升,数据被赋予更多的上下文和意义,最终转化为智慧。在信息系统中,DIKW模型的作用通常体现在以下几个方面。
● 数据的收集和存储:信息系统需要能够收集和存储大量的原始数据。
● 信息的处理和分析:信息系统需要能够对数据进行处理和分析,以提供有意义的信息。
● 知识的组织和管理:信息系统应该支持知识的组织和管理,使得用户能够容易地访问和应用知识。
● 智慧的生成和应用:信息系统应该能够帮助用户从知识中提炼出智慧,以支持更好的决策和行动。
所以,如今我们在日常交流中说的“数据”这个词,以至于我们常说的“数据资产”,既可能指原始数据,也可能指经过处理的数据。实际上,原始数据对个人或者组织往往没有直接用处,只有经过处理后的信息,才能发挥业务价值。例如,超市前台的收银系统中产生的一条条交易数据是扫描产品上的条形码得到的,其包含与商品相关的数据(如编码、名称和价格等),例如“303301,X牌花香洗碗液,10.50元”。信息系统对若干条原始数据进行汇总和分析,才能产生有意义的信息,例如在特定商店销售的洗碗液总瓶数,哪个品牌的洗碗液在该商店或销售区域的销售额增长最快,或者某销售区域中该品牌的洗碗液的总共销售额。
本书主要讨论在企业环境中的数据价值,而数据处理(Data Processing)是创造数据价值的基础。
利用人工方式来记录和处理数据,最早可以追溯到结绳记事。结绳记事是指通过在绳子上打结来记录数字或事件。算盘则是较早出现的计算工具,它起源于我国,通过珠子在柱上的移动来表示数字,能够进行加、减、乘、除等基本运算。在古罗马帝国和中世纪欧洲,也曾出现过类似算盘的计算工具。17世纪,在欧洲出现了一些计算机械,如帕斯卡加法器和莱布尼茨轮,它们可以执行基本的算术运算。
算盘和计算机械不能用于大规模数据的复杂计算、持久存储和结构化表达(如归类、排序),因此,19世纪法国商人和工程师约瑟夫·玛丽·雅卡尔(Joseph Marie Jacquard)发明了用于控制织布机的打孔卡片系统,他被认为是当代企业数据处理的先驱,也是现代信息系统的鼻祖。在1801年巴黎的国际工业展览会上,雅卡尔展示了他的革命性发明——雅卡尔织布机。这台机器以其可编程的能力,创新了带图案的布料的编织方式。
雅卡尔织布机的核心部件是一个能够控制经线提升的机构。在织布过程中,经线是固定在织布机上垂直的线,而纬线则是横向穿过经线的线。通过提升或降低经线,可以创造出不同的织物结构和图案。
雅卡尔织布机的打孔卡片系统不仅简化了复杂图案的编织过程,而且提高了生产效率和织物质量。这种技术在当时是非常先进的,它使得没有经验的操作者也能生产出精美的织物,复杂的图案由此可以低成本地大规模生产,原本只有富人才能享用的精美织物变得平民化。
在19世纪80年代,美国人口调查局聘用的工程师、发明家赫尔曼·何乐礼(Herman Hollerith)根据雅各布织布机的工作原理,发明了电力驱动的自动化穿孔卡片及制表机器,并用于1890年的美国人口普查。在投标竞争中,何乐礼发明的制表机用5.5小时完成了1万人的人口普查制表,而它的两个竞争对手分别用了44小时和55小时。何乐礼采用这台计算机仅用了两年就完成了美国6262万余人口的统计,而此前1880年美国人口普查的数据全靠人工处理,历时7年才得出最终结果。
1896年,何乐礼在纽约成立了制表机器公司(Tabulating Machine Company),专门生产和销售他的制表机。1911年,制表机器公司与另外3家公司合并,成立了计算制表记录(Computing Tabulating Recording,CTR)公司。1924年,CTR公司更名为国际商业机器(International Business Machines,IBM)公司。何乐礼的打孔卡片和制表机技术成为IBM公司早期产品线的重要组成部分,并为后续的计算机发展奠定了基础,他的数据自动化处理的技术开启了现代数据管理之路。
利用技术工具来处理数据有以下3种方式。
(1)机械式数据处理:依赖物理设备和介质(如打孔卡片、齿轮、杠杆等)来存储和处理数据。例如,制表机和打孔卡片系统,通过在卡片上打孔来记录数据,然后用机械装置读取和处理这些数据。这种方法虽然比人工处理效率高,但仍然存在存储量小、速度慢、出错率高等问题。
(2)模拟数据处理:使用连续变化的物理量(如电流、电压、磁带的磁化强度)来表示和处理数据。例如,磁带录音机通过模拟信号来存储和处理数据。
(3)数字化数据处理:使用电子信号来存储和处理数据,数据被转换成二进制形式,即由0和1组成的序列。计算机使用逻辑门和电路来处理这些二进制数据,通过编程来执行各种计算和数据处理任务。数字化数据处理方式提供了更高的精度、更快的速度和更强的灵活性,对数据可以方便地进行复制、传输和复杂的处理,是现代信息技术的基础,例如现代电子计算机以及数字存储设备(如硬盘、固态盘)和数据库软件等。
数据处理从机械方式到数字化方式的转变是随着电子计算机的出现而发生的。20世纪40年代,英国、美国、德国等国家出于军事目的进行数据处理,包括编译密码电报、模拟防空系统等,开始研发并且生产电子计算机,实现数字化数据处理方式。从那个时代的电子计算机到今天的云计算、AI,都基于1936年由图灵提出的图灵机模型:它是一种抽象的计算概念,由一条无限长的带子(存储介质)、一个读写头(用于读取和写入数据)、一个状态寄存器(表示当前状态)以及一组控制规则(决定动作)组成。图灵机能够模拟任何算法过程,通过有限的规则集处理符号,解决可计算问题。
到了20世纪50年代,这种用于科学计算的数字化电子计算机开始从政府军用走向企业民用,替代打孔卡片和制表机的数据处理设备。计算机的用途可分为科学计算和商业计算两种,相应产生了不同的技术平台和编程语言,而本书讨论的数据处理主要是指商业计算。
发明第一台电子数字式计算机的约翰·埃克特(John Eckert)等人共同成立了公司,接受了美国国家标准局的订单,耗时两年多,于1951年向美国统计局交付了商用电子计算机UNIVAC。美国统计局本来希望使用这台机器来代替已经使用了60年的打孔卡制表机,处理1950年的人口普查数据。直到1954年,第八台UNIAC由安达信会计事务所的商业咨询部门(即后来的埃森哲)的工程师们安装在通用电气总部工厂,用于核算工人薪资,这是人类社会第一台数字化电子计算机,用于处理数据的企业信息系统。1954年,埃克特的公司在美国交付了13台计算机,其中大部分安装在企业(包括杜邦、美国钢铁、西屋电气、大都会人寿等公司)里,用于进行数据处理。
电子计算机作为数据处理系统,除了计算机本身的计算能力,还有两个关键技术推动,一是数据存储硬件技术,二是数据处理软件(包括数据处理编程语言以及数据库管理软件)技术。
数据的记录和存储经历了打孔卡片、磁鼓、磁带和磁盘等发展阶段,它们在技术、容量、访问速度和使用方式上有所不同。磁鼓和磁带都是早期计算机使用的磁性存储设备,由涂有磁性材料的旋转鼓面或者塑料带来记录数据,通过将磁头移到数据所在的物理位置来读取和写入数据。它们的共同特点是数据是按顺序存储的,访问速度较慢。磁鼓的容量相对较小,适合作为短期高速缓存,存储操作系统、程序和临时数据;磁带的容量较大,适合存储大量数据,用于数据备份和档案存储,以及批量数据处理。
直到20世纪80年代,无论是打孔卡片(或者打孔纸带),还是磁鼓、磁带,这些早期的数据记录和存储技术仍在广泛使用,虽然如今这些技术已经难寻踪影,但是它们对于数据管理的影响持续至今,例如:
● 批量数据处理仍然是数据处理和分析中的常见做法,尤其是在大数据处理和数据仓库中;
● 现代数据交换格式(如XML和JSON)的设计,允许数据以结构化的层次形式序列化和反序列化,这源于使用打孔纸带存储数据的方式;
● 为了在打孔卡上一致地存储数据,需要根据业务含义对数据格式进行标准化。这种思想延续到现代数据管理中,推动了数据模型、数据字典、数据治理流程和数据标准化组织的发展;
● 磁带存储促进了数据备份的发展,如今,数据备份和恢复仍然是数据管理的关键组成部分,确保数据的持久性和在灾难恢复情况下的可用性;
● 磁鼓和磁带的顺序数据访问模式影响了数据库索引和查询优化器的设计;
● 早期技术中,由于存储介质的物理特性,数据损坏的风险较高,这推动了数据校验和错误检测算法(如奇偶校验和CRC)的发展,这些算法至今仍用于确保数据的完整性。
电子计算机在20世纪60年代初快速发展,需要效率更高、容量更大、更便于使用的数据存储装置来适配它。1962年,也就是IBM公司销售了其第一台电子计算机的11年后,该公司从电子计算机业务获得的收入首次超过了传统业务——机械式打孔卡计算机。
1952年,总部在美国东海岸的IBM公司在西海岸的硅谷设立了研发实验室,几年后,这个实验室向市场首次推出了磁盘存储单元RAMAC,即后来俗称的“硬盘”,成为数据处理技术的一个重要里程碑。它的数据随机访问方式提供比磁鼓、磁带更高的存储密度和更快的访问速度。在RAMAC出现之前,通过计算机检索数据需要花费数小时甚至数天,RAMAC则指数级地提升了访问和操作数据的速度——只需几秒。它为关系数据库的诞生奠定了基础,使企业能够以新的方式来思考、管理和利用数据。磁鼓采用固定的读写磁头,每个磁头对应磁鼓上的一个磁道,读取效率低且价格昂贵;而磁盘驱动器在磁盘的每一面使用一个可移动的磁头,为了记录和读取数据每个磁头必须非常靠近磁盘表面且不接触它,避免使磁盘或磁头产生物理磨损。
在这个时期,数字化电子计算机技术快速发展,开始替代企业在数据处理中使用的打孔卡片和制表机。不过,计算机在当时是非常昂贵的工业设备,占地庞大,需要专门安装在配有专业空调和玻璃隔间的机房里,企业需要考虑使用计算机处理数据带来的业务效率收益、减少企业文职人员带来的成本节降与计算机的年度折旧、编程人员的成本投入之间的平衡,于是出现了企业信息技术咨询顾问来帮助企业规划如何利用信息科技改进业务,评估信息科技的投入产出效率。
哈佛大学商学院毕业的美国海军前工程师约翰·迪博尔德(John Diebold)致力于利用计算机来改进企业的运营和管理,1952年,他在Automation : The Advent of the Automatic Factory一书中提出了“自动化”这个名词,即用可编程的计算机来控制业务流程和组织。1954年,迪博尔德在纽约创立了以自己名字命名的管理咨询公司,帮助企业实现“管理自动化”。就在安达信帮助通用电气工厂论证安装电子计算机的可行性并最终实施的同时,迪博尔德每年开展几十个咨询项目,从企业业务数据处理,到工厂自动化改造,再到复杂信息系统规划,其咨询内容不仅涉及技术选型,还包括企业在应用信息技术转型的过程中应如何解决数据部门的能力建设、组织变革和管理职能调整的问题。
数据处理技术从一开始进入企业,带来的就不仅是技术问题,还有组织问题和管理问题——如何基于透明化的、一致的数据来协调企业组织的业务操作、管理控制和高层决策等各个层级之间的关系,让数据在企业经营管理中发挥价值。例如,在一份1957年给婴儿奶粉企业美赞臣的咨询报告中,迪博尔德评估了美赞臣公司使用IBM制表机进行业务数据处理的情况,通过对业务数据的制表分析来优化生产计划、降低成本、提升客户发票处理效率以及支持新产品研发等。
20世纪60年代,那些安装了新型计算机的公司将原来使用打孔卡制表机来制作报表的部门扩展和升级为“数据处理部”;到了20世纪80年代,“数据处理部”则纷纷改名为“信息技术部”;到了今天,又在改名为“数字化转型部”一类的时髦名字。
“数据处理”这个名词的普及要归功于IBM公司,它希望借助这个市场营销概念的名词传播,将企业计算与它在打孔卡制表机的既有市场优势联系起来——过去IBM制表机在市场上的定位标签是“数据处理设备”(Data Processing Device),当IBM销售计算机时,市场认知就潜移默化成了“电子数据处理系统”(Data Processing System),在早期IBM的电子计算机产品外壳上的显著位置就贴着这个标签。
时任IBM总裁的托马斯·沃森(Thomas Watson)告诉那些操作打孔卡制表机的员工,他们的工作名称(或者说专业)就是“数据处理”,他们在公司内的价值是致力于通过处理数据,及时发现企业经营管理的相关事实,从而在与对手的商业竞争中处于更有利的地位。1962年,数据处理工作者的行业协会更名为数据处理管理协会(Data Processing Management Association)。
对数据进行排序(Sorting)是生成报表的基础。在早期计算机的数据处理中,例如生成工资报表的过程通常开始于员工考勤表数据的收集,输入员将员工考勤表数据打孔到卡片上,这些卡片随后被送入机械分选的“排序机”(Sorter),按序分装到若干个输出托盘上,排序后的卡片与包含工资费率和员工信息的主卡片进行组合,然后,这些卡片经过制表机和专用设备多次处理,最终输出工资支票和记录每位员工工资的账表。排序机是确保数据按正确顺序处理的关键工具,它通过物理分离和重新组合卡片来实现排序,为后续的数据处理和报告生成奠定了基础。
随着技术发展,许多新型计算机(如IBM 650、705等)出现,采用磁鼓或者磁带替代打孔卡片存储数据,可以同时处理多个输入和输出文件,但要求文件必须预先正确排序,以确保数据的准确性和处理效率:当从一个文件读取员工记录时,随即从另一个文件读取的记录是同一员工的考勤数据,从而计算出正确的付薪数据。这就是数据库和数据处理软件的工作原理。
电子计算机出现后,除了被用来处理复杂的科学和军事计算(例如导弹飞行的轨道、模拟核爆炸效果等),还用来处理大量的、结构化的企业数据,后者就成为计算机商用的发展动力。1951年,工程师弗朗西斯·霍尔伯顿(Frances Holberton)在UNIVAC计算机上开发了一个数据排序程序。20世纪50年代末期,有人开始在IBM计算机上编写标准化的数据排序和报表生成程序,在传统的机械制表机上,由操作员通过设置开关和电线搭线来指定要计数的内容以及格式化输出,现在这些指令都可以用编程的方式来自动实现或者调整。
1959年,IBM在当时因体型较小而销量最高的IBM 1401计算机上开发了报表程序生成器(Report Program Generator,RPG)——一种高级编程语言,使得使用排序机和制表机进行操作和编程的人员轻松过渡到使用电子计算机进行操作和编程。RPG特别适用于处理文件操作和格式化输出,例如生成价格清单和工资表等复杂报表。经过多年的发展和改进,如今,作为IBM计算机的专用编程语言,RPG在财务、物流和制造业等领域仍然有着广泛的应用,许多关键业务应用程序都是用RPG编写的,从而高效地处理大量的商业交易数据。
1965年初,IBM对市场推出了System/360系列计算机,它具有先进的硬件架构、优秀的软件兼容性和全面通用的外围设备。到1970年,这种计算机卖出了约35000台,这促使数据处理软件升级为数据库管理软件。
在20世纪50年代末、20世纪60年代初,英、美少数大企业尝试用电子计算机替代打孔卡制表机时,管理学界存在两种观点,一种观点认为电子计算机就是一种速度更快、效率更高的制表机,而另一种观点认为用电子计算机处理数据,将为企业带来管理革命。一些管理咨询师和商业思想家开始构思企业的“数字化乌托邦”,1958年Harvard Business Review 11—12月刊中,一篇名为“Management in the 1980’s”的文章描绘了30年后的企业管理,大意如下。
计算机技术和运筹学方法、统计规划、仿真技术等全面结合,作者称之为信息技术。一方面,信息技术的决策取代了中层管理人员,公司控制权重新划分,高层管理人员与信息技术工程师一起工作,他们将更加专注于创新和变革的问题,随着日常工作的程序化,高层工作越来越抽象,倾向于搜索和研究,解决各种难题,未来的社会也需要更多的、这样能干的高层管理者。另一方面,信息技术将使得企业管理工作程序化,高层可以直接做出决策,降低了中层管理者的创造性和自主性,因而他们的薪酬水平也会下降;而对于基层工作的个体,工作本身可能不再提供足够的个人表达和创造机会,强调他们对程序化工作的服从和遵从,员工需要在工作之外寻找满足感和成就感。
在这样的认知背景下,企业的管理信息系统(Management Information System,MIS)应运而生,如图1-2所示,它被认为是信息技术应用于企业管理的形式。MIS是为企业管理者提供信息的系统,帮助他们进行规划、控制、组织和决策;MIS的功能包括数据的生成、收集、处理、存储和报告,以及提供用于决策支持的分析工具,通常包括数据库、报表生成器、查询和数据分析工具。
图1-2 企业的管理信息系统
MIS是企业数据处理的核心,跟它相关的还有以下其他类型的信息系统。
● 决策支持系统(Decision Support System,DSS):提供易于理解的模型和分析工具来帮助管理者分析问题和选择解决方案,包括复杂的数据分析、模型构建、预测和模拟,以及用户友好的界面。
● 专家支持系统(Expert Support System,ESS):模拟人类专家决策能力的计算机系统,它使用AI技术来解决复杂问题,包括知识库管理、推理引擎、训练解释和用户接口。
● 事务处理系统(Transaction Processing System,TPS):用于处理日常业务(如订单处理、库存管理、工资单和账单支付)的系统。它用于处理比MIS的信息颗粒度更细、组织层级更低的具体业务数据,包括数据的输入、简单处理、存储和更新,强调数据的一致性和完整性,以确保业务流程的顺畅和准确。
MIS领域著名学者、哈佛大学教授理查德·L.诺兰(Richard L. Nolan)在1974年的Managing the Data Resource Function一书中指出,企业管理者将专注点放在了数据的收集、处理、存储和分发上,诺兰强调了数据是组织的重要资源,提出了数据资源管理的策略和方法,包括数据管理、数据库设计、信息系统规划、数据通信、数据安全等。
数据库管理系统(Database Management System,DBMS)软件在20世纪70至20世纪80年代的发展,使得MIS成为一种真正可行的企业管理手段,直到20世纪90年代,借助于计算机网络技术,出现了以ERP为代表的企业级数据处理系统的爆炸式增长。
1957年,陶氏化学公司任命了熟悉打孔卡会计应用的工程师查尔斯·巴赫曼(Charles Bachman)来领导数据处理部门。巴赫曼提出了集成数据存储(Integrated Data Store,IDS)的概念,旨在解决以下问题。
● 数据共享:在多个应用程序和用户之间共享数据。
● 数据一致性:随着数据量的增加,保持数据的一致性和完整性。
● 数据冗余:避免数据存储的冗余,节省存储空间,降低数据维护的复杂度。
● 数据独立性:解开应用程序与数据物理存储之间的耦合,数据变化不会影响应用程序的运行。
巴赫曼提出的IDS概念使得数据库(而不是计算机设备)占据了数据处理的中心,应用程序编写和对数据的操作都围绕数据库进行。IDS后来用于维护“数据字典”,数据字典定义了信息系统所有不同记录类型及其彼此之间的关系,例如客户记录与该客户的相关订单记录。1971年,巴赫曼推出了基于他提出的网状模型的第一个企业数据库管理系统——综合数据库管理系统(Integrated Data Management System,IDMS),于1973年获得了图灵奖。
1970年,IBM的工程师埃德加·科德(Edgar Codd)提出了关系模型,以其更简单的数据结构、更好的分析性能和更易于理解和使用的开发工具、更加适用于通用软件和多变的企业环境,逐渐取代了网络模型和层次模型,成为数据库技术的事实标准。如今,大多数企业级的数据库应用都是基于关系模型构建的,使用如MySQL、PostgreSQL、Oracle和Microsoft SQL Server等关系数据库管理系统(Relational Database Management System,RDBMS)。
IBM为了保护在IMS上的投资,开始并不太热衷于支持科德的理论创新,直到1973年,IBM才启动了一个名为“R系统”(System R,R代表关系型)的项目,致力于研究关系模型理论的产业化实施。在这个持续数年的研发项目中,科德和其他同事获得了一系列重要成果:唐·钱伯林(Don Chamberlin)和雷·博伊斯(Ray Boyce)研制出SQL,无须了解数据库细节而通过接近于自然语言的语句查询数据,成为今天使用最广的数据库查询语言;科学家帕特里夏·泽林格(Patricia Selinger)发明了基于成本的数据查询优化算法,通过评估不同查询方案的成本来选择更有效的策略,显著提高了数据库查询的性能;研究员雷蒙德·洛里(Raymond Lorie)发明了数据查询的程序编译器,将高级查询语言(如SQL)转换成可以在数据库管理系统中执行的低级指令,优化查询的执行方案来高效访问和处理数据。
尽管科德和他的同事们取得了非常多的成就,然而出于IBM内部的商业考虑,直到1983年,IBM才正式推出关系数据库的商业化产品DB2,科德本人几乎没有享受到他发明的产品进入市场的荣光。在这10年间,科德等人发表在国际计算机学会的学术杂志上的论文启发了硅谷的工程师和企业家。
一位是加州大学伯克利分校的计算机科学系教授迈克尔·斯通布雷克(Michael Stonebraker),1974年,斯通布雷克带领他的本科和研究生学生发起了名为INGRES的关系数据库管理软件研发项目,这个大学团队遵照伯克利开源协议(Berkeley Software Distribution,BSD),将INGRES源代码以开源软件的方式免费分发,基于开源代码孵化出众多商业化数据库软件,在数据管理领域得到广泛使用,包括Sybase(2010年被SAP收购)、微软SQL Server、Informix(2001年被IBM收购)、PostgreSQL等。斯通布雷克本人的公司经历了多次收购,他还是数据仓库以及用于科学计算和分析的多维数组数据库等领域的开创者,其中,数据仓库是为企业分析和决策支持系统提供数据存储和查询服务的数据库系统。这些发明推动了大数据技术的进步和技术生态的形成,包括分布式存储、并行处理和高效的数据压缩技术。
另外一位则是全球数据库市场的领导者甲骨文公司(Oracle Corporation)的创始人拉里·埃里森(Larry Ellison)。1979年,埃里森和同事创立了关系软件公司(Relational Software Inc.,RSI),专注于开发基于科德理论的关系数据库管理系统。起名为甲骨文(Oracle)的产品以其高性能、可扩展性和可靠性迅速获得了市场的认可,到了1983年,RSI正式更名为甲骨文公司。甲骨文公司能取得巨大的商业成功,离不开其销售人员的努力,可以佐证的是,支持企业销售管理的软件——客户关系管理(Customer Relationship Management,CRM)的开创者汤姆·希贝尔(Tom Siebel),他在1993年创立了以自己名字命名的CRM软件公司,曾经是甲骨文公司负责销售和客户服务的高级副总裁,而如今全球CRM的领导者Salesforce的创始人马克·贝尼奥夫(Marc Benioff)在20世纪90年代也曾经在甲骨文公司负责销售。
随着数据库技术的发展,到20世纪80年代,企业管理信息系统逐渐成熟。无论是管理学者还是企业信息管理实践者都认识到,有必要从企业业务职能的视角来将之分解为若干子职能系统,各个职能子系统既相对独立,又可以在模块内和模块外做到系统能力的逐步增长。从企业活动的组织层级视角,每个活动子系统如果要做到跨职能的有效运行,必须实现各个业务职能子系统之间的数据共享,而这些数据共享都依赖底层的数据库和数据管理能力的提升,因而数据库和数据库管理系统在这个阶段得到快速发展。企业信息化与数据库的关系如图1-3所示。
图1-3 企业信息化与数据库的关系
商业软件公司将企业的业务模型进行标准化,即将组织、产品、流程/活动、表单等业务对象的信息模型抽象出来,利用数据库管理系统进行管理,这就产生了企业应用软件,SAP公司的ERP软件产品是这个领域的代表,企业数据处理自动化水平得以进一步提升。
1971年,IBM德国曼海姆分公司的两位系统顾问——迪特马尔·霍普(Dietmar Hopp)和哈索·普拉特纳(Hasso Plattner)在英国的帝国化学工业公司(ICI)的欧洲纤维公司工作时,开发了德国第一个带有用户界面的实时应用软件,使得位于工厂的工作人员能够在显示器上处理订单。1972年4月1日,霍普和普拉特纳和另外3位IBM同事离职创立了一家名为SAP的公司,他们的想法是构建标准的企业应用软件,集成所有业务流程,并允许在显示器上实时处理数据,而不是到夜间在计算机上进行信息的分批处理。
到1973年,创业者们在普拉特纳的领导下开发出了第一个标准化的产品——实时财务会计(Realtime Financial Accounting,RFA)系统,作为SAP模块化软件系统的起点,该系统后来被称为“SAP R/1”,并在随后两年半的时间内获得了40多家德国企业的采用。
到1975年,SAP推出了实时物料(Realtime Materials,RM)管理系统,整合了采购、库存管理以及发票校验等流程,并且进入欧洲其他国家。直到1978年,SAP才拥有了自己购买的第一台计算机——西门子7738大型机。进入20世纪80年代,在R/1的基础上,SAP推出了新一代产品R/2。R/2产品使用了数据库管理技术,实现财务、物料管理、销售、生产制造、人力资源等多个模块的集成,具有更好的用户交互界面,并且能够支持全球性企业复杂组织的业务管理。
到20世纪80年代末期,随着小型计算机、个人计算机的出现,企业级软件可以运行在更便宜的小型计算机上,并且,个人计算机和小型计算机可以组成企业计算机网络,更加高效地实时处理数据。在当时的软件行业,标准化产品的商业模式开始流行,IBM系统应用架构(Systems Application Architecture,SAA)成为企业软件行业的事实标准,这些现象促成了1991年SAP新一代支持多个软硬件平台的企业管理软件SAP R/3问世,拉开了ERP行业飞速发展的序幕。
直到今天,SAP R/3仍广泛适用于从中小企业到跨国公司等不同规模、不同行业的公司,它使用了全新的客户端-服务器架构,成本更低、部署更灵活、运行性能更好。
尽管2000年的互联网泡沫对企业软件行业造成了一定的冲击,但是此后SAP快速发展,到2003年,SAP员工数已经超过3万人。2008年,SAP以68亿美元收购了由一位原Oracle的销售经理在法国建立的商业智能软件公司Business Objects(在此之前,这家公司经过多次并购,整合了多家开发报表、数据仪表盘的商业智能软件公司)。而在差不多同一时间,IBM、Oracle也分别都以几十亿美元的价格收购了同类型的公司Cognos和Hyperion,这标志着生成数据的在线事务处理(On-line Transaction Processing,OLTP)系统软件市场已经成熟,市场发展转向使用数据的在线分析处理(On-line Analytical Processing,OLAP)系统。
到了20世纪90年代,企业利用数字化方式来处理事务并生成数据的技术越来越成熟,企业积累的数据量逐渐增加,传统的数据库系统主要用于事务处理,无法满足企业对于消费已有数据(即数据分析和决策支持)的需求。为了解决这一问题,数据仓库应运而生,它旨在提供一种有效的数据管理工具来支持基于数据的决策分析的应用场景,包括决策支持、专家系统等。
存储和管理数据的关系数据库管理系统面对复杂查询和数据分析时力不从心,因为它的设计初衷是快速处理日常业务(如订单处理、会计记账等),而非用于分析和报告。数据仓库与数据库管理系统的主要区别在于设计目的、数据结构、数据更新频率和访问方式。数据库主要面向事务处理,支持日常业务操作的快速响应和数据更新,注重数据的规范化和一致性。而数据仓库则面向决策分析,提供全面的、历史性的数据视图,支持复杂的查询和分析操作,如多维分析、数据挖掘等。数据库系统主要采用关系模型,而数据仓库技术的发展推动了多维数据模型和星形模型等更适用于面向分析的数据模型的出现。
数据仓库的建设是一个复杂的过程,涉及数据的集成、存储、管理和分析等多个方面。在构建数据仓库的方法上,两位数据仓库的宗师比尔·恩门(Bill Inmon)和拉尔夫·金博尔(Ralph Kimball)分别提出了有着不同理念和实践方式的方法论,形成的两个流派从20世纪90年代初开始对行业产生了巨大影响,因为各有千秋,也在实践中造成很多困惑。很多大型企业在数据仓库建设中既有成功,也有失败。因而,数据仓库建设不仅是技术问题,还对企业信息的管理体系提出了很高要求。
恩门派主张“自顶向下”的开发方法,即首先构建一个完整的数据仓库,然后从数据仓库中提取数据形成数据集市。这种方法强调数据的整合和规范化,要求在构建数据仓库之前定义清晰的数据模型。这种数据仓库通常采用实体-关系模型,注重数据的一致性和完整性,适合处理复杂的数据分析和决策支持应用。其优点包括数据冗余度低、对业务变化具有鲁棒性、提供更大的灵活度以及能够满足各种企业范围的报告要求。然而,这种方法的缺点是初期设置和交付耗时、复杂度高、需要更多的数据抽取转化加载的加工操作,并且需要数据管理专家有效地管理数据仓库。
金博尔派则主张“自底向上”的开发方法,即首先根据业务需求构建数据集市,然后逐步扩展到整个数据仓库。这种模型通常是非规范化的,将数据划分为事实表和维度表,形成所谓的星形模型。这种方法的优点包括交付快速、易于理解、数据仓库系统占用空间小、查询速度快以及一致的数据质量框架,其缺点是数据在报表生成前并未完全整合,数据更新时可能会出现性能问题以及报表质量问题。
随着数据科学技术的不断发展,如今大多数据仓库产品以及企业实际应用都在结合使用这些方法,例如利用恩门派方法创建企业级数据仓库的维度数据模型,用金博尔派方法开发面向灵活即席分析的数据集市。
20世纪90年代初期开始出现数据仓库的商品化软件产品,Teradata是具有开创性意义的公司。它于1979年在加州理工学院研究处理海量数据计算的技术基础上创建,在20世纪80年代提出了基于大规模并行处理(Massive Parallel Processing,MPP)架构,通过在多个节点上并行处理任务来提高数据处理速度,尤其适合处理大规模数据集。1992年,Teradata在沃尔玛上线了第一个TB级数据库,到20世纪90年代末期,Teradata的数据处理能力达到了100 TB的数量级。在很长一段时间里,Teradata是银行、保险公司等对海量数据进行报表分析的首选。
早期的数据仓库主要依赖于物理硬件设备进行数据存储和处理,其处理能力受到硬件资源的限制。进入21世纪,随着云计算、大数据和AI等技术的飞速发展,数据仓库迎来了新的发展机遇。云计算为数据仓库提供了弹性的计算资源和低成本的存储方案,大数据技术使得数据仓库不再局限于结构化数据,开始关注半结构化和非结构化数据的处理,数据湖、湖仓一体等新技术逐渐成熟,企业数据建设有了多样化的技术选择。
谷歌在2003年发表了包括The Google File System在内的3篇论文,打开了分布式技术快速发展的大门。2006年,Apache基金会创建了Hadoop开源项目,该项目可用来解决大规模的数据存储和离线计算的难题。首先诞生的是分布式文件系统(Hadoop Distributed File System,HDFS)和分布式计算框架MapReduce,其中HDFS至今仍被广泛使用,而MapReduce已被更优秀的计算框架所替代。随后,在2007年,Apache Hadoop项目仿照Bigtable开发了大型分布式NoSQL数据库HBase。除此之外还有Apache Hive,开发者可以使用类SQL查询存放在HDFS上的数据。从2015年开始,Spark逐渐成为主流的计算引擎,为多样化的大数据分析提供更加强大的性能保障。此后,AI的兴起带动了数据科学平台的发展。
数据科学是指企业基于数据管理来利用数据、消费数据,实现对业务的洞察,从而发挥数据的业务价值。
商业智能(Business Intelligence,BI)包括基于数据存储和数据管理的数据仓库,整理、筛选、对比、统计和展现数据,关注对历史数据和当前数据的处理,监控关键绩效指标(Key Performance Indicator,KPI),帮助企业了解过去发生了什么、现在正在发生什么,从而发现其中的规律、趋势和关系,探索问题、验证假设,通过数据描述已经发生的事实,为决策者提供对未来趋势判断、方案选择的洞察依据,这些事实和洞察通常以各种报表、图表的形式展示,实现数据和信息的可视化。例如,通过BI工具生成销售报表,展示不同地区、不同产品、不同客户细分、不同渠道等维度的销售情况,帮助管理者了解销售趋势。
BI主要用于处理结构化数据,这类数据主要来自企业内部的信息系统,如ERP、CRM以及核心业务系统等。它对数据的处理主要包括数据的提取、清洗、转换和加载以及简单的数据分析(如求和、计数、平均值计算等),数据的聚合和展示是BI的重点。
在20世纪80年代前,跟BI接近的概念是前文提到的决策支持系统(DSS)或者经理信息系统(Executive Information System,EIS),1989年,当时在IT行业研究机构Gartner的分析师霍华德·德雷斯纳(Howard Dresner)提出了BI这个概念,用来更好地表达企业内各个层面通过数据分析得到业务洞察的IT应用。BI的发展得益于埃德加·科德(Edgar Codd)在1993年提出的OLAP概念,当时,企业的数据量不断增加,传统的OLTP系统主要用于日常业务操作和简单数据查询,无法满足复杂的数据分析需求,与之对应,OLAP的目的是提供一种对多维数据进行高效分析的方法,允许用户从多个角度(维度)对数据进行快速查询和分析,例如从时间、地理区域、产品类别等不同维度来分段、切片分析销售数据。
从20世纪90年代后期到21世纪初,随着数据库软件技术的发展和计算机硬件性能的不断提高(尤其是CPU处理能力、内存容量和存储设备的发展),OLAP对大量数据的快速处理和查询成为可能,无须专业技术人员编写分析程序,易于数据分析人员使用的BI软件开始大量进入企业应用,具有代表性的产品包括Business Objects(后被SAP收购)、Cognos(后被IBM收购)、MicroStrategy等。
2010年后,敏捷BI(也称自助式BI)兴起,具有代表性的产品有Qlik、Tableau(后被Salesforce收购)和PowerBI等,进一步降低了BI软件的使用门槛,让更多业务人员无须专业技术人员支持便能便捷地进行数据分析和探索,凭借优异的产品力及更低的成本逐渐替代了上一代BI产品,成为今天的BI软件主流。在这个阶段,随着移动设备和互联网技术的发展,BI软件开始支持移动端和实时数据分析,用户可以更加及时地根据最新的数据做出决策。
数据科学(Data Science)也是一个数据分析应用领域,它和BI的对象、方法和用途略有不同。它是一个跨学科领域,结合了数学、统计学、计算机科学等多个学科的知识和方法。数据科学的目标不仅是分析数据,还包括从大量复杂的数据中发现新知识、构建预测模型,解决面向未来的、涉及多个方案优化决策的复杂业务问题。例如,通过构建机器学习模型预测客户流失率、预测市场需求、预测设备故障等,利用自然语言处理技术分析社交媒体上的用户情感倾向,可用于个性化推荐(如电商平台的商品推荐、内容平台的内容推荐),还可用于风险评估和防范(如金融交易欺诈风险评估、信用风险评估等)。
数据科学可以处理各种类型的数据,包括结构化数据、非结构化数据(如文本、图像、音频)。它需要对数据进行更深入的探索性分析,包括数据的特征工程,挖掘数据中的隐藏模式和关系。数据科学涉及复杂的算法(如深度学习算法)和模型,用于对数据进行分类、预测、聚类等操作。
与BI鼓励企业内业务部门的非专业人员使用不同,数据科学的用户需要有深厚的数学和统计学基础,精通机器学习和深度学习算法,因而这些用户也被称为“数据科学家”,他们需要具备开发高级算法的编程能力,能够实现复杂的数据处理和模型开发,还需要有创新思维和解决复杂问题的能力,兼具从数据中产生洞察以及业务领域的知识。
数据科学可以追溯到19世纪。当时,统计学主要应用于天文学、物理学等自然科学领域,用于处理实验数据和观测数据。在20世纪中叶,随着基于计算机的科学计算软件出现,统计学开始在社会科学和商业领域得到应用,用于市场调查、质量控制、计量经济学等。这一时期的数据处理主要基于小型数据集,通过手动计算或简单的计算机程序进行统计分析。
20世纪80年代后,机器学习作为AI的一个分支开始兴起,产生了如决策树、神经网络等机器学习算法,运用这些算法的分析称为“数据挖掘”,即从大量数据中发现潜在模式和洞察的过程,在零售、金融等行业得到了应用。例如,超市通过关联规则挖掘发现顾客购买的商品之间的关联,从而进行商品陈列和促销策略的优化。
到2010年左右,大数据存储和处理框架(如Hadoop和Spark)应运而生,使得大规模数据的存储和计算成为可能。同时,深度学习技术在图像识别、语音识别等领域取得了巨大成功,“数据科学”这个术语开始被广泛使用。值得注意的是,存在一些与“数据科学”相近的概念,尽管它们涵盖的范畴与关注点略有不同,但均属于有别于BI的数据分析技术。例如,决策智能(Decision Intelligence)侧重于使用线性规划、非线性规划和多目标决策的优化算法(而不是统计学算法),去解决资源受限情况下多方案的权衡问题;又如供应链的订单分配优化或者物流运输路线优化的求解;又如,高级分析(Advanced Analytics)则聚焦于各类算法,通常不涉及数据管理方面。
BI和数据科学的对比如表1-1所示。
表1-1 BI和数据科学的对比
BI |
数据科学 |
|
---|---|---|
关注时间 |
过去和现在 |
现在和未来 |
分析方法 |
描述性、诊断性 |
预测性、方案优化性 |
交付方式 |
报表、即席展现 |
统计学模型 |
自动程度 |
高,自动展现 |
低,需要人工介入 |
数据类型 |
结构化数据 |
结构化和非结构化数据 |
业务场景 |
趋势发现,决策支持 |
假设验证,洞察未知 |
无论是BI还是数据科学,都需要将数据以图形、图表、地图等直观的视觉形式呈现出来,帮助用户更好地理解数据中的模式、趋势、关系以及重点信息。这种展示称为数据可视化。BI、数据科学与数据管理、数据可视化的关系如图1-4所示。
图1-4 BI、数据科学与数据管理、数据可视化的关系
数据可视化在图表中通过以下内容体现。
● 图形元素:包括各种几何形状的图形,如“柱状图”使用长方形的高度来表示数据的大小,“折线图”通过线条展示数据随时间或其他变量的变化趋势,“饼图”则以扇形的角度来体现各部分在整体中所占的比例等。
● 颜色和色调:不同的颜色可以用来区分不同类别的数据,或者表示数据的不同属性,如使用红色表示危险或下降的趋势,绿色表示安全或上升的趋势。通过调整颜色的深浅或饱和度,还可以传达数据的重要性或优先级。
● 文本和标签:清晰、简洁的文本和标签可用于解释图形元素所代表的数据内容,包括坐标轴标签、数据点标签、图例等,帮助用户准确地理解可视化所表达的信息。
● 交互元素:为了让用户能够更深入地探索数据,基于计算机的数据可视化技术通常会包含交互功能。例如,用户可以通过鼠标悬停查看数据点的详细信息,通过点击图表元素进行筛选或排序,通过缩放来查看不同范围的地理数据等。
数据可视化可以追溯到17世纪,因计算哈雷彗星的轨道而知名的英国天文学家、物理学家、数学家埃德蒙·哈雷(Edmund Halley)提出了在地图上使用等值线的方法——他通过测量不同地点的磁偏角,将磁偏角相同的点连接起来,绘制出等值线,用于指导地理定位和航海。这种方法后来被广泛应用于等高线地形图、等气压线天气图等,是数据变量可视化的雏形。
法国土木工程师夏尔·约瑟夫·米纳尔(Charles Joseph Minard)擅长用地图来展示社会、经济和历史的数据。如图1-5形象、生动、准确地展示了1812年拿破仑远征俄罗斯的历史事件,横轴代表战场地理位置从西到东,颜色较浅的条形代表前进军队的规模(随着军队向莫斯科进发,浅色条形的宽度持续下降),下方的黑色条形则显示了军队从莫斯科撤退时的人数逐步减少,底部的折线显示了气温(可以解释了低温是破坏军队规模的重要原因)。可以看到,当一个在前进过程中脱离的侧翼部队(浅色)重新加入主力时,黑色条形图短暂地变宽;然而,当黑色条形图移动到图表上一条河流时,它显著变窄,这说明了冬天冰冷的河水对军队规模的影响。而图表底部的折线显示了气温,这解释了低温是破坏军队规模的重要原因。
图1-5 拿破仑远征俄罗斯的地理、人数和气温关系示意
美国数学家和统计学家约翰·怀尔德·图基(John Wilder Tukey)以开发快速傅里叶变换算法和箱形图而知名。箱形图能显示出一组数据的最大值、最小值、中位数以及上、下四分位数,目前是机器学习领域常用的可视化图表,如图1-6所示。
图1-6 箱形图示意
爱德华·塔夫特(Edward Tufte)是一位统计学家,他出版了一系列关于信息设计的著作,树立了当代信息可视化和数据可视化的理论。塔夫特提出了“信息设计”和“可视化素养”等,用可视化来传达信息。迷你图(Sparkline)是塔夫特创造的一个术语,指的是描述数据内容的小图,如图1-7所示。数据分析人员可以将迷你图(如线图、箱形图或直方图)添加到任何包含数值型数据的工作表的列标签行中,目前主流BI软件几乎都提供了这样的功能。
图1-7 迷你图示意
早期的计算机应用就需要建立专门部门来处理数据,一些银行、大型制造企业等会设立计算机室或数据处理中心等类似机构,配备专业的计算机操作人员和技术人员。在20世纪80年代前后,企业信息系统开始兴起,越来越多的企业开始设立专门的信息管理部门,负责计算机系统的开发、维护以及数据管理,保障系统的稳定运行和数据的准确性,为业务部门提供支持。
20世纪90年代后期,随着互联网技术的普及和ERP系统的出现,企业信息部门的管理职能开始凸显,这类部门会主动参与或引领企业的信息化规划,推动运营效率提升、业务流程优化和组织变革,从单纯的技术支持部门向战略支持部门转变。
在2010年前后,随着云计算、大数据、移动互联网等技术不断涌现,企业信息部门除了负责信息系统的运维和开发,还负责大数据分析、移动应用开发、信息安全管理等工作。企业拥有和可以利用的数据越来越多,通过对海量数据的分析为企业提供决策支持,成为企业创新和竞争优势的重要来源。互联网、金融等具有丰富数据资源的企业通常会成立专门的商业分析和大数据团队,深入挖掘数据价值。
企业信息技术部门与数据相关的职能或者角色可以分为以下两类:
● 帮助生成数据,与事务处理信息系统相关;
● 管理数据并帮助用户消费数据,与数据分析信息系统相关。
近年来,随着AI、物联网等新兴技术的应用范围扩大,信息部门开始在企业内部扮演新技术的整合者,推动企业的数字化转型,实现智能化生产、智能化管理和智能化服务,成为数字化创新的引领者。例如,制造业企业通过物联网技术实现设备的联网和远程监控,利用AI技术进行质量检测和预测性维护。在组织层面,企业的IT部门与业务部门的分工协作主要有3种模式,如图1-8所示。
图1-8 企业IT部门和业务部门的组织方式
● 模式一:企业IT部门执行信息化和数据分析,业务部门只负责业务服务;
● 模式二:企业IT部门承担信息化,由业务部门承担数据分析和业务服务;
● 模式三:企业IT部门仅承担信息化的部分工作(如架构治理和IT治理),业务部门负责应用开发、数据分析和业务服务。
企业需要建立一支多学科团队来管理好数据,提升数据的业务价值,满足各种数据分析的业务需求,这涉及不同的数据工作角色来支持前述的数据仓库、BI、数据科学应用等各种IT系统,并且与企业内其他IT工作者(如企业架构管理者、系统架构师、软件工程师、应用系统顾问、业务流程分析师等)协作。企业内的数据工作角色通常包括数据工程师(Data Engineer)、数据分析师(Data Analyst)、数据科学家(Data Scientist)和数据管理人员(Data Manager),下面分别介绍这4种角色的职责和技能要求。
数据工程师的职责主要包括如下4个部分。
● 数据收集与存储:负责从各种数据源(如数据库、文件系统、应用程序接口、传感器等)获取数据,并将其存储到合适的数据仓库或数据湖中。
● 数据清洗与转换:清理数据中的噪声、错误和不一致的数据,对数据进行格式转换和标准化操作。例如,处理缺失值、统一日期格式,或者将不同编码方式的数据转换为统一的标准。
● 构建和维护数据管道:创建和管理数据处理流程,确保数据能够高效、准确地从源端流动到目标端,也称为数据的抽取、转换和加载(Extract/Transform/Load,ETL)过程。
● 数据架构设计:参与数据存储系统和数据处理架构的设计和优化,确保系统能够满足企业数据量增长和复杂业务的需求。例如,设计分层的数据仓库架构,或者根据业务需求选择合适的数据库类型(如关系数据库、非关系数据库)。
相应地,数据工程师的技能要求主要涉及如下6个方面。
● 编程能力:熟练掌握编程语言,用于数据处理和ETL操作。
● 数据库知识:深入理解关系数据库(如MySQL)、非关系数据库(如HBase)和大数据平台(如Hadoop)的原理和操作。
● 数据处理框架:熟悉数据处理框架(如Hadoop)的技术原理,能够利用这些框架进行大规模数据处理。
● 数据建模:具备基本的数据建模能力,能够设计合理的数据存储模型。
● 问题解决能力:善于发现和解决数据处理过程中的各种问题,如数据质量问题、性能瓶颈等。
● 工具使用能力:使用数据集成工具构建数据管道和数据集成,使用数据库管理工具管理和操作数据库,使用数据计算引擎(如Flink等)进行大规模数据处理和计算,使用编程语言(如Python)及其数据处理库(如pandas)进行数据清洗和转换。
数据分析师的职责主要包括如下4个部分。
● 数据分析与洞察:通过对数据的探索性分析,发现数据中的模式、趋势和关系,为业务决策提供有价值的见解。例如,分析销售数据,找出销售高峰和低谷的时间段以及不同产品的销售趋势。
● 数据可视化:将分析结果以直观的图表、报表等形式呈现出来,使其他业务人员能够理解数据所传达的信息。
● 解决业务问题:运用数据分析方法,帮助业务人员解决具体的业务问题,例如客户流失分析,通过对客户行为数据进行分析,找出可能导致客户流失的因素,为制定客户挽留策略提供依据。
● 数据监控与报告:建立数据监控体系,定期生成数据报告,跟踪KPI的变化情况。
相应地,数据分析师的技能要求主要涉及如下5个方面。
● 数据分析技能:熟练掌握数据分析方法,如描述性统计、相关性分析、回归分析等。
● 数据可视化技能:使用报表工具(如Tableau)制作高质量的数据可视化图表。
● 业务理解能力:深入了解企业的业务流程和业务需求,能够将数据分析与业务问题相结合。
● 沟通能力:有效地与不同部门沟通,将数据分析结果清晰地传达给非技术背景的业务人员。
● 工具使用能力:使用数据分析工具(如Excel)进行简单的数据处理和分析,使用Python或R语言进行更复杂的数据处理和分析,使用数据可视化工具(如帆软)创建各种报表、可视化图表及交互式的数据分析仪表板,使用数据整合、数据筛选和抽样、数据分析预处理工具等。
数据科学家的职责主要包括如下3个部分。
● 高级数据分析与建模:运用复杂的统计模型和机器学习算法对数据进行深入挖掘和分析,构建预测模型和分类模型等。例如,使用深度学习算法进行图像识别,或者使用时间序列模型预测产品销量。
● 算法开发与优化:开发新的数据算法或优化现有算法,以解决复杂的业务问题。例如,针对个性化推荐系统,开发基于用户行为和内容特征的推荐算法。
● 数据驱动的创新:与业务部门(如研发部门)合作推进数据科学应用,探索数据中的新机会和新应用,推动企业的数据驱动创新。例如,通过分析社交媒体数据和市场趋势,发现新的产品需求和市场机会;与研发部门合作,利用数据分析优化产品性能。
相应地,数据科学家的技能要求主要涉及如下6个方面。
● 深厚的数学和统计学基础:精通概率统计、线性代数、微积分等数学知识,能够理解和应用复杂的统计模型。
● 机器学习和深度学习技能:熟练掌握机器学习和深度学习算法(如决策树、支持向量机、神经网络等),能够进行模型训练、评估和优化。
● 编程能力:精通数据科学相关编程语言,如Python、R语言,能够实现复杂的数据处理和算法开发。
● 创新能力:具备创新思维,能够从数据中发现新的商业价值和应用场景。
● 领域知识:了解企业所处行业的业务知识,将数据科学技术与行业实际相结合。
● 工具使用能力:使用机器学习库(如PyTorch等)进行机器学习和深度学习模型开发,使用数据处理和分析工具(如pandas等)进行数据处理和探索性分析,使用开发环境(如Jupyter Notebook等)进行交互式代码开发和数据分析记录。
数据管理人员的职责主要包括如下5个部分。
● 数据治理:制定企业的数据治理策略、政策和流程,确保数据的质量、安全性、合规性和可用性。例如,制定数据质量标准,规定数据的准确性、完整性、一致性要求。
● 数据标准管理:建立和维护数据标准,包括数据格式、编码规则、数据字典等。例如,统一企业内部产品代码的格式和编码规则。
● 数据安全与隐私管理:负责数据的安全防护,防止数据泄露、篡改等安全事件发生,并确保数据的使用符合隐私法规。例如,制定数据访问权限策略,对敏感数据进行加密处理。
● 数据质量管理:监控和评估数据质量,组织数据清洗和质量提升活动。例如,定期检查数据仓库中的数据质量,发现问题后协调相关部门进行数据清洗和修复。
● 元数据管理:管理数据的元数据(包括数据的来源、定义、关系等信息)以便于数据的理解和共享,建立元数据仓库,记录企业内各个数据资产的详细信息。
相应地,数据管理人员的技能要求主要涉及如下5个方面。
● 数据治理知识:熟悉数据治理的理论、框架和最佳实践方法,如DAMA - DMBOK(数据管理知识体系)。
● 法律法规知识:了解与数据相关的法律法规,如《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》,以及欧盟出台的《通用数据保护条例》等。
● 项目管理和协调沟通能力:能够组织和协调数据治理项目,推动数据治理策略的实施;与企业内各个部门协调沟通,确保数据治理政策得到有效执行。
● 数据分析基础:具备一定的数据分析能力,能够对数据质量进行评估和监控。
● 工具使用能力:使用数据治理工具进行数据治理策略制定、数据标准管理和元数据管理,使用数据质量工具进行数据质量监控和评估;使用安全管理工具进行数据安全和隐私保护。