数据分析变革:大数据时代精准决策之道

978-7-115-39922-9
作者: 【美】Bill Franks(比尔•弗兰克斯)
译者: 张建辉车皓阳刘静如范欢动
编辑: 杨海玲

图书目录:

详情

本书深入探究了奠定坚实的技术和组织基础的必要条件,并涵盖一个组织想要成功地进行分析运营需要考虑的各种因素。在这个过程中,读者将了解如何改变技术和商业环境,适应大数据背景下的业务分析需要。本书跨过市场炒作的内容,关注真正重要的内容,为读者提供利用大数据实施运营分析过程所需的一切。

图书摘要

版权信息

书名:数据分析变革:大数据时代精准决策之道

ISBN:978-7-115-39922-9

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

• 著    [美]Bill Franks

  译    张建辉 车皓阳 刘静如 范欢动

  责任编辑 杨海玲

• 人民邮电出版社出版发行  北京市丰台区成寿寺路11号

  邮编 100164  电子邮件 315@ptpress.com.cn

  网址 http://www.ptpress.com.cn

• 读者服务热线:(010)81055410

  反盗版热线:(010)81055315


Bill Franks 现任天睿公司首席分析官,他不仅在大数据和分析领域发展趋势方面为企业提供深刻见解,同时帮助客户理解如何使用大数据及分析来改进业务。他擅长将复杂的分析用通俗的语言阐述以便企业用户更容易理解。Bill Franks是《驾驭大数据》一书的作者,该书是Tom Peters 2014年排行榜“必读”书籍之一。他同时也是国际分析研究院的教员。

本书特色

畅销书《驾驭大数据》作者、Teradata公司的首席分析官Bill Franks最新力作! 想要通过建立企业的分析基础来赶超竞争对手的企业管理者和业务领导者必读图书!

在当今的市场环境下,能够快速适应条件变化的能力是获得成功的关键。本书展示了如何将数据(包括大数据和小数据)分析中获得的业务洞察与日常运营紧密结合在一起。分析变革已然开始,要了解在数据分析时代如何通过使分析运营化来提升业务能力,第一步则需要了解什么是数据分析革命以及如何参与其中。

Bill Franks已经将自己的职业生涯建立在把一个复杂的分析通俗易懂地解释给业务人员的天赋之上。在这本书中,读者将学会如何梳理头绪、扫清障碍,积极利用当前主流趋势和流程,确保能够持续超越竞争对手。在本书中,Bill利用其清晰的思考方法指导读者经历建立团队、营造企业文化、升级分析方法论、利用技术使企业向运营型分析演变的全过程。

本书详细地讲述了使分析运营化对企业到底意味着什么,以及企业该如何向更好、更快、更有效做出决策的运营型分析演变。本书的写作风格通俗易懂,适合任何背景的读者阅读。本书还提供了一个在所有类型的业务流程中嵌入分析流程的可扩展框架。本书适合想要通过建立企业的分析基础来赶超竞争对手的企业管理者和业务领导者阅读。


Bill Franks.

The Analytics Revolution: How to Improve Your Business by Making Analytics Operational in the Big Data Era.

Copyright © 2014 by John Wiley & Sons, Inc.

All right reserved. This translation published under license.

Authorized translation from the English language edition published by John Wiley & Sons, Inc.

本书中文简体字版由John Wiley & Sons公司授权人民邮电出版社出版,专有出版权属于人民邮电出版社。


能够快速适应不断变化的市场环境的能力是获得成功的关键。本书旨在将数据分析嵌入运营流程,帮助读者将从数据(包括大数据和小数据)分析中获得的业务洞察与日常运营紧密集成在一起。

本书确切地讲述了使分析运营化到底意味着哪些变革,并告诉读者如何建立团队、创建文化、升级分析方法论并利用技术,使企业向更好、更快、更有效决策的运营型分析演变。本书提供了一个在所有类型的业务流程中嵌入分析流程的可扩展框架。在这本书中,读者将了解如何梳理头绪,扫清障碍,积极利用当前主流趋势和流程,确保能够持续超越竞争对手。

本书写作风格通俗易懂,适合任意背景的读者。本书特别适合那些想要通过建立企业的分析基础从而保持和超越竞争对手的经理和业务主管们阅读和参考。


“结识Bill多年,我很佩服他实施分析项目时务实而直截了当的方法。20年的实际经验让Bill与众不同,并使他成为分析领域的卓越领导者之一!”

——Elpida Ormanidou,沃尔玛Global People Analytics副总裁

“Franks打造了又一个有着实用见解和指引的力作,以实践为标准并使它向前跃进了一大步。不仅数据科学家和数据管理人员会感激Franks所提供的商业价值,其他任何想推进数据驱动决策和运营型分析的人都需要阅读这本指南,从而在基于分析的业务方面更上一层楼。”

——Jeff Tanner,《Analytics and Dynamic Customer Strategy》作者,Baylors创新业务合作实验室总监

“就在几年前,很多机构、部门、人员还对大数据将信将疑,并质疑数据分析是否真的很重要。如今,那些还没有跨越鸿沟的人正在错失大量的机会,他们显得落伍又死板。但是,大数据分析该从哪里开始呢?虽然没有一本书能够回答有关大数据发生的所有问题,但是这本书提供了一个极好的框架。我由衷地推荐本书。”

——Phil Simon,主讲人和备受赞誉的《The Visual Organization》和《Too Big to Ignore》作者

“这是一本全面的必备指导书,能指导你成功实施运营型分析、自动决策,并驱使数据分析深入到业务流程中去。在大数据时代,对这一适时的话题,没有比Bill Franks的书更好的指南了,它是大数据时代至关重要的战略性竞争优势。”

——Gil Press,Forbes.com内容贡献者

这本书在“企业领导者需要做什么、考虑什么才能成功运用数据分析”方面提供了绝佳的观点。企业决策方式正在发生改变,以前是由运营流程甚至是客户来做决策,现在所有的一切都将由数据分析驱动!这一革命性的决策变化将成为业务的新规范。我极力推荐这本书作为非常好的入门书,指导我们应该如何利用运营型分析,并预期从中得到什么!”

——Russell Walker,美国西北大学凯洛格管理学院管理经济学与决策科学临床副教授

“如果你正在你的企业的大数据运动中艰难行进(谁不是呢?),那么你必须阅读这本书。Bill Franks通过他独特的讲故事能力,为你提供了有趣味性和洞察力的案例来分析全球各地的公司是如何通过运营型分析来利用企业数据的。特别是,他专注于如何分配价值来更智能地使用数据,这是在很多有关大数据的交流中遗漏的。通过为那些想要优化大数据冲浪表现的人提供一个冲浪板,分享他对数据驱动的未来世界的远见,Franks延续了他在《驾驭大数据》一书中所表现出的的简洁分析能力!”

——Linda Burtch,Burtch Works Executive Recruiting常务董事

“我们在Kaggle的一个重要经验是,大数据不仅仅是建立先进的算法。Bill写了一本重要的书,讲述了如何将分析应用于实践。”

——Anthony Goldbloom,Kaggle创始人兼CEO


全球正进入“万物互联”的时代。以欧洲为例,德国工业4.0基于研发制造的优势,运用工艺技术、移动设备、信息互联、消费者和产品等组合形成一个整体,期许最终以创新形式重构整个社会生产的方式。以美国为代表,美洲凭借互联网优势已逐渐进入了“新硬件时代”。这是以美国优势的软件技术、互联网、云计算和大数据为基础,结合极客和创客的参与,以硬件为表现形式的一种创新产业形态,初期的产物(如无人驾驶汽车、智能机器驮驴等)已经在美国硅谷孵化器中孕育而生。

而在大中华区,信息经济也正朝着创新带动、智能转型、强化基础、绿色发展、人才为本的愿景前进。在前进的道路上,我们已经看到若干创新发展正在进行,例如:

信息和技术这两个主题一直是创新发展的重要手段。过去,技术承载的信息价值有限,而随着近几年软件和智能硬件的发展,数据背后的信息价值含金量猛增。信息已经不再是产业发展中的附属品,它在许多企业里已经成为业务的主体。越来越多的企业将驾驭大数据策略制定为核心战略之一,以提升业务水平。

数据的核心是发现价值,而驾驭数据的核心是数据分析。通用电气公司首席执行官Jeff Immelt曾说过:“今天,数据分析时代已经来临,数据分析不再是未来愿景。每家实业公司都将围绕数据与分析技术以某种方式进行变革。”我们可以看出,数据正在彻底改变各个行业,彻底改变消费者,并带来新的竞争对手,但更重要的是,数据使得我们的社会开始了前所未有的转型。

为什么说没有数据分析就没有未来呢?我们可以从身边大量已经或者正在消失的企业或行业看出,能够更早去建立“驾驭数据和洞察数据”能力的公司一定会比较晚去建立这种能力的更具有业务竞争力。任何企业,如果根本没有驾驭数据和获得数据洞察的能力,最终都是要消失的,而且消失的速度会比大家想象得要快!

由于大数据的影响力增强,广大用户群体(即消费者)的需求也产生了自主式的革新,而且速度更快。在一直以来的注意力经济中,卖方一般是在邮件中、网页中等通过广告形式和客户或者消费者建立关系和互动,吸引消费者的注意力。但现在和未来,很多消费者将不仅仅是服务的受众,他们期望参与到企业产品的生命周期中,消费者可以驾驭他们的消费内容,创造自己的数据分析,从而选择适合自己的产品功能,有些消费者甚至认为“消费者就是这个企业的产品”。消费者意向经济取代注意力经济将会是一个大趋势,越来越丰富而方便的大数据分析手段将加快这个趋势演进的速度。

本书作者Bill Franks先生是Teradata天睿公司首席分析官,在实现数字转型方面拥有深刻的思考和洞察力。他在本书中强调,不要纠结于到底什么是大数据,而真正要关注的是从具体的业务场景出发,判断对哪些相关的数据进行整合、探索、解析,转化为行动,并最终带来业务价值。

随着数字转型的加速,各种数据源和技术不断出现,必然要求企业在统一数据分析的环境中融合各种可用的分析技术,博采各种新技术之长。通过“顶层设计”建立整个企业和组织的分析文化,才能使数据分析成为拥有持续竞争力的“内功”。

我相信,这些真知灼见不仅是总体的指导原则,更是具体实践的行动指南。感谢Bill Franks先生以及Teradata天睿的相关同仁们!

——辛儿伦

Teradata天睿公司大中华区首席执行官


在过去的 10~20 年里,如果你关注过商业智能、分析方法和大数据等议题,那么你大概已经思考过,接下来会发生什么。最初由大数据带来的一阵激动已经渐渐平息,各种各样的数据分析已经成为商业中重要的一部分,并已为人们所熟悉。

答案就在这本书里。Bill Franks称之为运营型分析,此外它也可被称作生产分析、实时分析或决策自动化。正如这些术语所暗示的,实施分析的方法的本质正在迅速变化,但并不是分析方法自身发生了多大变化。如Franks所说,运营型分析方法本身和我们在过去的几十年甚至几个世纪里所做的相差无几,真正改变的是实施分析的环境。

你可以通过这本书了解更多细节,你也确实应该这么做。在这里我要告诉你,与以往后台缓慢运行的批处理分析方式截然不同,运营型分析更加快速和持续。它与业务流程及系统整合在一起,不再是单独运作。我将其称为“分析3.0”,你会在第1章读到。但是Bill 讲的“运营型分析”描述得更加清楚,他提供了很多我没有做过的实施细节。

在分析和业务运营间相互割裂的现象持续了 50年后的今天,这个变化显得有点儿姗姗来迟。这种割裂造成了许多问题。决策者常常需要分析和数据来支撑他们的决策,但实际上却并没有真正用到这些。他们可能只是想让他们的决策表现得更理性和科学而已。本该处于商业决策和执行的前沿和中心的定量分析师普遍都不被重视(Franks在第8章所提到的个人经历佐证了这一点)。任何分析所耗费的时间往往要超出它实际需要的时间。在这样的环境下分析依然有价值,但分析能够产生的价值远非如此。

鉴于传统分析有这样那样的问题,但是企业仍想把分析嵌到企业的商业活动中并将其制度化,而非任其发展或成为可选的工作,这或许证明了分析领域的重要性。运营型分析表明,由于它的开展方式,分析不能再被边缘化。分析需要从战略及战术上提供决策依据,并应该与业务运营活动的节奏、时间和地点同步。既然企业内数据流的速度已经加快,那么分析和决策也应该加速。

如果你对下一股分析潮流并不好奇,你很可能在想这是否又是一本关于大数据的书。在某种程度上来说,答案是否定的,因为在这个话题上,Franks已经写出了一本非常好的书——《驾驭大数据》。从另一个意义上来讲,这也不是一本关于大数据的书,因为它解决了各种规格和类型的数据的使用问题。事实上,它可以被称为第一本“后大数据”的书。Franks认为企业既会使用结构化的小数据资产,也会使用非结构化/半结构化的大数据资产。为什么会有人不这么做呢?显而易见,不管何种规格和类型的数据都是有用的。遗憾的是,因为小数据先于大数据产生,此前很少有书籍同时关注所有数据(小数据与大数据),也很少建议你应根据将要管理和分析的各种类型的数据,对技术环境和分析活动做出调整。

这也是第一本关注“物联网分析”话题的书。现在有很多讨论物联网(Internet of Things,IOF)的书籍,尽管物联网还是个相对较新的概念,但在亚马逊购物网站上搜索已经会有十余个搜索结果。不过其中却很少探讨如何利用传感器数据产生价值,即通过分析、挖掘来洞察解析和发现异常。Franks关于运营型分析的很多例子都涉及物联网,并且论述了数据分析是怎样处理那些传感器产生的庞大数据流的。

尽管Bill是Teradata的首席分析师,但他对于技术和供应商的态度仍然是十分中立的。举个例子来说,在本书第5章中有一个十分公正的讨论,比较了Hadoop和基于关系型技术的企业数据仓库的各自优势。Bill认为绝大多数企业会运用多种技术存储和分析数据,在这一点上,我认为他是正确的。原有的技术并没有消失,新技术只是增强了原有的技术,数据量稳步增长需要两者的结合。

本书讨论了许多不同的话题,从科技到人的隐私再到人文话题,文风平实且易于理解。激进的预测或者声明并不是Franks的风格,相反,他冷静、直白地论述了2014年有关运营型分析的一切事项。

书名中的“变革”一词很贴切。书中从诸多角度阐释向运营型分析转型的革命性,但是至少有一个革命性的问题是Franks没有深入钻研的。嵌入式实时分析引发了很多有关企业未来如何工作的问题。当大多数决策由计算机作出时,那些之前做决策的人怎么样了呢?人们应该如何监控和优化看不见摸不着的决策制定方式?Franks指出,当决策在几乎不需要人类干预而实时制定时,它就必须是一套真正智能有效的分析和决策规则,不然你会很快损失很多钱。他并没有更多解释在运营型分析下人类的新角色,不过,我必须要说,我很高兴发现这一点,因为我自己正在写一本关于这个话题的书!

好,赶快打开这本书,进入一个前所未知的世界。在那里,很多重要的决策都是通过运营型分析制定的。除了你的优柔寡断和需要淘汰的后台分析方式,你不会失去什么!

——Thomas H. Davenport
巴布森学院总统特聘信息技术与管理教授
国际分析研究所联合创始人和研究总监


正如19世纪的制造业所经历的那样,如今的分析领域也需要经受一场“工业革命”。当下的分析流程多以一种像手工艺式的方式创建,需要花费很多心思和定制化服务。在大多情况下这种手工艺式的方法仍是适用的。然而,我们也必须将数据分析的规模和影响推进到一个更高的层级。工业革命使制造流程实现了从手工制作到大规模高质量生产的现代科技奇迹。在分析领域也必须要发生同样的变革。

几百年前,如果人们需要一个碗,则需要去找陶艺工人,他可以根据任何需求定制出一个碗来。但问题在于,这种方法无法大规模量产。有限的制陶工人们在一天内只能做出一定量的碗。如今,大多数的碗都是由工厂大规模生产出来的。虽然人们依然能从手艺人那里买上一只定制的碗,但除非特殊情况,这种办法并不是那么划算。即便不考虑价格,如今人们也偏爱批量生产出的产品的一致性。然而即使在今天的世界里,碗也不是凭空出现的,仍然需要有人设计、建立原型、做出模具,并确定这样的模具能够重复多次制造出想要的碗来。只有到那个时候,才能启动生产线大规模造出碗来。

运营型分析也需要一个类似的过程。每一项新的分析都需要架构和设计。建立一个分析原型并进行多次迭代测试以确保一切工作正常,也是必不可少的。只有这样,分析流程才能升级为运营流程,启动并自动执行。启动运营型分析后,必须持续监控分析流程的表现,就像监控一个真正的生产线那样。

建立运营型分析不会移除之前分析过程所需的任何步骤。相反,运营型分析将需要更多的步骤。运营型分析依照工业规模来部署分析,就像传统制造流程使得碗可以大批量生产一样。

运营型分析将分析嵌入商业流程并实现自动化决策,使得每天少则数千、多则数百万的决策能够在没有任何人为干预的情况下由分析流程做出。无论这些决策是直接触及客户,还是仅优化一家企业的幕后行为,都将产生实质性影响。

如果一个企业仍没有开始转向运营型分析,而它的对手们已将分析嵌入了业务流程,那么它将面对更严峻的挑战。更多的可用数据、不断提升的数据分析处理能力和强大的数据分析技术,给当今的企业带来了无数运营型分析的商机。

无论你是否意识到了,运营型分析已经在我们身边不停运转并影响着我们的生活。很多情况下,这些分析也不再隐藏于幕后,消费者已经意识到正在发生的分析甚至还很期待。让我们从某些方面简要看一下运营型分析是如何影响我们的日常生活的,并以此来为本书拉开序幕吧。

以上只是关于运营型分析从哪些方面影响我们的生活、我们认定哪些方面的分析有价值并对其抱有更多期许的几个例子。接下来,我们将讨论各种发生在人们身边却很难被察觉的分析实例。

很多曾支持传统的分析流程开发及部署的技术和架构将不再适用于如今复杂的需求。在运营型分析的迫切要求下,传统的系统、架构和分析方法将显得不堪重负。企业必须适应并改变他们存储数据、分析数据和部署分析结果的方法。这不仅需要改变基础设施和分析方法论,也需要改变企业政策。如果一家企业试图将快速、高容量运营型分析挤进为满足批处理需求而创建、架构的系统和流程中,它将举步维艰。

随着企业间分析领域“军备竞赛”的继续,我们也将看到商业模式和竞争环境的持续混乱。20年前,许多企业很少甚至不使用分析,而如今大多数的企业正在大量使用数据分析。之前采用数周前的历史数据在批处理环境下偶尔执行的分析流程就能足够满足企业的要求。但是,随着分析领域的领导者们正在转向运营型分析,传统的分析流程显然已经成为明日黄花。

5~10年以后,几乎没有企业能够避免这一潮流的影响。抵抗只是徒劳。你的企业需要实施运营型分析,而这本书将帮助你起步。在未来的几年里,分析在持续的商业变革中真正成为核心的运营组件,而不仅仅是一个附加组件,让我们拭目以待。这本书重点说明了这项变革是如何发生的,并阐释了理解并实施运营型分析需要哪些要素。

放轻松,让我们开始吧!

本书旨在为读者提供关于什么是运营型分析,企业应该了解哪些,以及如何才能在运营型分析中获得成功的应用知识。本书着重在策略和概念层面上进行阐释,而非技术层面。

尽管本书对于任何背景的人来说都是易读的,但对它最感兴趣的则是那些在工作岗位中会接触运营型分析的主管和经理们。创建运营型分析流程的专业人员也会发现这本书非常有价值。

如果你喜欢我的上一本书——《驾驭大数据》[1],一定也会喜欢这一本。虽然主题并不一样,但延续了一贯的风格和结构。尽管本书大部分关注的都是全新的话题,但有些部分也是建立在《驾驭大数据》的基础上的。这并不影响本书内容的独立性,你并不一定需要熟悉《驾驭大数据》一书。

这是一本商务书籍而非技术指南。那些寻求高深技术细节、数学公式或示例代码的读者应该考虑换一本书。

本书避免推荐具体的产品、服务和平台,取而代之的是对产品类别和总体架构的介绍,以便读者寻找需要的产品和服务。因此,那些希望得到具体公司和产品推荐的读者恐怕也要失望了。

最后要说明的是,本书是建立在一定分析领域应用知识的基础上的,并不包括一些基本分析概念的论述。我并没有花费时间定义每一个词条,而是假定读者已经理解一些常用的术语和方法。

本书共包含9章,分为3个部分。第一部分描述了驱动运营型分析发展的市场趋势,给出了运营型分析的定义并举例说明。第二部分讨论的是企业该如何筹备运营型分析,概述了如何制定商业计划,需要搭建哪些基础设施,以及如何管理运营型分析流程。最后一部分探讨了分析需要哪些基础,创建并实施分析的人才与团队,以及想要成功必须具备的企业文化。下面更详细地介绍每一部分和每一章。

第一部分介绍了引领我们转向运营型分析的这股潮流,并举例说明了运营型分析已经成为我们生活的一部分。这个部分介绍了一些较高层面的主题,为后面章节中更详细的讨论做出了铺垫。

首先,我们要定义什么是运营型分析,并探讨分析手段、方法和流程如何逐步演进至满足运营型分析的条件。随后,我们会探讨如何穿过关于大数据的天花乱坠的宣传,去关注那些将大数据应用到运营型分析的企业真正应该了解的。最后,我们将通过一系列生动的案例来展示运营型分析是如何发挥作用的。

运营型分析有时会需要将批量分析流程升级,以嵌入式的、自动化且实时的模式运转。然而,运营型分析通常会包括以不同的方式应用的不同类型的分析。随着大数据的出现,越来越多不同来源的数据得到利用。运营型分析和传统分析的差别很大程度上来源于运营决策和传统分析决策的区别。因此,改变分析流程的搭建方式、所运用的方法以及专业分析人员的工作方式,成为了落实运营型分析的必需步骤。

这一章定义了什么是运营型分析以及它是如何区别于以往的传统分析的,并且解释了分析流程的发展是如何逐步进化至可支持运营型分析的。这一章还从几个角度阐释了一些关于分析是如何转变企业经营方式的。

人们很难想到一个话题能像大数据这样,如此迅速地受到广泛关注。尽管大数据在几年前还不为人知,但如今大数据已成为最受热议的商业话题之一。大数据的迅速崛起可以预见,而对大数据的疑惑和误读也十分常见,而且导致了很多企业开始偏离了方向。这些被误导的行为导致的失败将既痛苦又昂贵。幸运的是,只需要一些努力和学习,一般公司都绝对能够免于受炒作的误导,采取真正有经济效益的明智之举。

这一章讨论了各种关于大数据的炒作和误区,不仅指出了常见解释中的缺陷,还提出了一些其他更实际、更明智的观点。大数据在运营型分析中将扮演重要角色,所以了解它是如何适应该角色的非常重要。

使分析运营化的概念并不新,然而在过去却很少付诸实践。事实上,大部分的企业不需要多少分析也运转得很好,所以他们就这么做了。随着科技不断进步,业务越发复杂,运营型分析正在成为必然的要求。在未来的竞争中,作为各种决策和行动的核心,分析将必不可少。

这一章列举了许多现实中运营型分析的例子,解释了运营型分析如何支持各种决策,并展示了运营型分析从相当简易到极其复杂的范围之广。

第二部分能够帮助读者理解如何落实支持运营型分析的基础。一个坚实的基础是获得成功的重要前提。

首先,我们将讨论如何为运营型分析的投资制定商业计划,因为没有投资就不会有任何实质性的产出。随后我们讨论如何创建并利用正确的数据分析基础设施。如今的局面比以往更复杂、更难以把握。最后,我们将探讨亟待解决的管理和隐私问题。当分析实现嵌入和自动操作以达到运营型分析的程度时,适当的严格监管从一开始就是必需的。

实现运营型分析的第一步是了解所需的花费和精力。需要新工具、新数据源、新技能,大数据已经使情况变得更复杂。很多企业会因其中比平时更多未知因素和感知风险而产生不安。说服一个企业采取行动需要很大的努力和充分的理由。

这一章探究了投资计划应该考虑的因素,包括技术、实施和维护这些技术的服务、建设分析流程的工作、将分析流程嵌入和运营化的方法。只有将全部的成本都考虑进去才能做出正确的投资决策。只考虑其中的成本将使企业误入歧途。

随着分析的应用呈现出爆炸式的增长,市场上已经充斥着各种便捷的分析产品。尽管这本是一件好事,但也确实导致了混乱,并使得找出解决企业某项特定问题的产品变得更加复杂和艰难。一些技术是普适性的,而另一些却只在特定条件下适用。因此,每家企业都需要找出满足自身需求的合适的技术组合。

这一章专注于如何使用多种技术搭建满足性能要求的分析平台,还讨论了最重要的技术以及何时应用它们。至关重要的是,对如何将多种技术整合为单一协同统一的分析环境给出了指导方针。

由于运营型分析无需人为干预而直接指导行动,所以必须保证有恰当的监管,以便将意外带来严重损害的风险降到最小。与分析部署这个过程相比,分析探索和开发过程更需要不同类型的监管。同时,由于今天所使用的数据的敏感性,隐私问题也应引起特别的关注。

这一章讨论了探索和部署流程所需的监管的概念,概括了如何在安全调度的前提下,有效地实现创新与实验。同样,隐私问题得到了特别的关注。

第三部分关注落实运营型分析需要哪些工作。在第二部分的分析基础到位之后,这些基础必须被有效地利用,以发挥最大潜能。

第三部分解释了关于成功发展至运营型分析所需的分析方法的重要概念,也讨论了如何聘请和组织分析团队。最后,我们提出一家准备好运营型分析转型的企业必须考虑的文化问题。实现运营型分析最难的一个部分就是克服对改变的恐惧,并使人乐于接受新方法。

运营型分析的核心当然还是分析本身。但它们究竟是什么样子的呢?尽管运营型分析与传统分析有许多共同之处,但二者也有不少区别。成功的运营型分析和大数据都需要新的方法,需要利用新的技术与数据,需要解决新的问题,需要衡量成效的新的标准。

这一章钻研了运营型分析背后的分析要求,讨论了所需要的一些技术与方法论,以及一些过去的经典方法如何适用于当今的情况。最后,这一章还讨论了如何有效衡量运营型分析的成效和监控其表现。

不论采用了何种分析策略,必须需要有人实现。因此,分析运营化的一个重要部分就是将合适的团队安置在恰当的位置。组建合适的团队不仅是招一些具有技能的聪明人并满足运营型分析的要求,这个团队还必须要有高效的组织和架构。设置有效的激励手段,赋予整个团队成功所需的权力、责任和心态,也是至关重要的。

这一章概括了如何在企业中制定章程和授权,以成功实现利用大数据推进运营型分析,还概括了如何构建分析团队和需要哪些人。此外,这一章还讨论了团队的方法是怎样的,应该设置什么样的激励,并提出了一些能使团队高效多产的行为和态度。

转向运营型分析的一大挑战就是转变企业文化。遗憾的是,这项工作常常被低估。当企业达到运营型分析的水平时,需要不同的态度和政策。企业中各层级的每一个人必须信任、接纳和需要分析。文化上的转变可能比技术和分析流程的转变历时更久,更令人沮丧。当处理人类情感、性格而非事实和数据时,事情容易变得相当麻烦。

这一章涵盖了企业如果想要在运营型分析中取得成功,必须采取的心态上的转变。此外,还探讨了部署分析流程时积极引导人们情绪和性格的方法。最后,这一章还探讨了企业如何从重复发生的必然错误中获得成功。

最后一章包括对本书重要信息的简明回顾,并号召大家行动起来。

[1] 原书名为《Taming the Big Data Tidal Wave》,由John Wiley & Sons于2012年出版,中文版由人民邮电出版社出版。——编者注


特别感谢本书审阅小组的所有成员,每个人都是自愿利用闲暇时间来审阅本书的部分或全部内容的,并提供了宝贵意见。审阅小组成员包括(按照字母排序)Ellen Boerger、Chahnse Bourommavong、Sheck Cho、Bill Franks(不是本人,而是我的父亲)、Sarah Gates、Dan Graham、Richard Hackathorn、Bryan Jones、Jack Levis、Bob Sievert、Jeff Tanner、John Thuma和Scott Van Valkenburg。你们的巨大帮助使得本书比之前的版本有了很大进步。同时,感谢为我编写本书提供知识、经验、案例的所有个人和企业。



毋庸置疑,巨大变革正在发生!运营型分析正在引领以分析为特征的工业革命,很多公司运用分析手段的疆界也因此不断向前推进。运营型分析将源源不断地显著增加那些必须执行分析来构建和加速的流程数目。后面我们会提到,诸如决策时限以及数据洞察时间等新概念将会成为影响如何投入以及决定关注方向的主要推动力。

运营型分析需要在整个企业内部建立一套规则明确、条理清晰的指导方法,同时还需要很多技术、流程甚至是企业文化方面的配套变更。人们起初并不习惯把许多日常决策事务的处理交给计算机和分析过程。然而,时间终究会证明:一旦某个企业有效地构建了正确的运营型分析,因此产生成效,一切努力都能得到超值回报。

毫无疑问,巨大变革真的来了!为了完全理解这一结论,我们有必要详细解释一下这到底意味着什么。本章内容是对本书其余内容的铺垫。我们要对运营型分析进行定义。我们还要讨论一些市场趋势,这一直是支持运营型分析的推动力。最后,我们重点讨论几个当某个组织需要向运营型分析迈进时值得铭记的主题。

本书是有关运营型分析的。那么什么是运营型分析呢?既然我们以此作为本书的主题,就需要给出其定义。之后,本节还会讨论运营型分析与传统分析的差异,以及是什么原因使运营型分析如此独特。

“运营型分析”这一术语描述了在企业内部分析[1]已经成为每个决策制定和动作执行的内在组成部分。运营型分析并不支持大的战略决策的制定,而是支持许多小的日常性的战术决策。更为重要的是,一旦分析过程运营化,流程实际上就会直接驱动后续行为。运营型分析并非仅仅给出行为建议,还会直接导致行为发生。这一主要因素是运营型分析定义的关键。通过直接驱动决策和行为而无需人工干预,运营型分析把分析的综合性与影响力提到一个新高度。

大多数传统的分析过程产生的分析结果能够给出决策建议或者作为决策过程的输入。然而,人们经常需要对决策过程施加人工影响以确保行为正确。一旦分析过程运营化,分析过程运行时,作为分析结果的行为立刻得以执行。在决策或者行为节点并没有人工干预。

当然,要决定是否真正需要运营型分析流程并构造这些流程还是需要人工干预的。不过,一旦流程上线运行,该流程就会存取数据、执行分析、制定决策并实质上导致行为发生。这些流程每天可以执行几千次到几百万次。一旦某个企业的人们意识到可以以这种水平嵌入分析,他们常常会期望更多效果。他们要求的结果需要运用更多分析,而且更加先进。运营型分析到位时,还需要对流程的认真监控。这个主题留在第6章讨论。

建立规范


运营型分析的一个定义性特征是超出了描述性甚至预测性。运营型分析是规范性的。这意味着运营型分析需要内嵌在业务流程中,基于算法直接制定决策并导致行为发生……一切都无需人工干预。

最近几十年,在从描述性分析到预测性分析的过渡过程中,曾经经历过多次焦点的变化。在传统的商业智能环境中,关注焦点是从描述的角度总结业已发生的事件,可能会涉及每个地区的销售量、准点到达数量或者其他的重要衡量指标。对于预测性分析,相对而言,目标就是预测将来会发生什么。如何影响准点到达率,使其逐渐提高?哪些客户最有可能对最新上市的商品作出积极响应?更进一步讲,运营型分析使分析具有规范性。运营型分析首先要判断什么因素会对到达时间产生影响,又是什么因素增加了响应率,然后通过自动促使这些行为发生,使分析具有规范性。表1-1概括了上述差异。

表1-1 描述性分析、预测性分析与规范性分析对比

分析类型

描述

描述型分析

总结与描述过去已经发生的

预测性分析

预测未来将要发生的事情

规范性分析

决定采取何种行为促使未来的事件发生

区别运营型分析与分析的运营型应用非常重要。起先这种差异看起来好像文字游戏,但我向你保证事实并非如此。了解几个例子之后,读者就会明白其中的差异了。

分析已经被应用在运营问题上很多年了。接下来依然如此,分析的运营型应用仍有其重要性。然而,运营型分析前进的步伐超过以往。理想化的想法是有一个能够把运营型分析和传统分析的运营应用明确区分开来的术语,但我并没有发现现成的词汇。这么不凑巧的是短语的相似性会导致混淆,而且这些词语放在一起拼读听起来一定不协调。当我在一个会议上就此主题主持讨论时,一个参会者开玩笑建议把术语定为“Franks化”(Franks-izing)分析。显然,这即使不是开玩笑,也够自恋的。所以,我主要关注两种方法的不同之处,而不是分别给它们贴上标签了事。

给出了分析的运营型应用与运营型分析的差别,就不难看出运营型分析的重要性和复杂性。运营型分析过程通常和企业以往能够构建的任何分析流程一样先进,但运营型分析过程需要自动化,海量条件下可扩展并且执行速度飞快。这种流程非常强大,但也不乏复杂性和困难。我们看几个案例来进一步澄清其独特之处。

一个重要的区分条件是,对于运营型分析,分析需要在“决策时间”内以自动的内嵌的方式完成。“决策时间”意味着分析的执行速度要满足做出决策的需求。在某些情况下,决策时间是实时的(或非常接近实时)。还有些情况下,决策时间可以有数分钟、数小时甚至数天的延时。理解决策时间是成功的关键,因为分析过程必须在此时间内可用并执行,以便用于作出决策。

一直以来,有很多企业在定制网站时使用分析手段判断客户购物习惯中的关键因素,当客户返回网站时向其显示特定的推荐商品或定制商品。Web个性化已经证明了其强大,至今仍广泛使用。当天晚上处理客户的已知信息,预先计算出并准备好次日一早客户看到的个性化商品,这就是关于分析的一个运营型应用。上述这种对个性化的预先计算并非运营型分析的案例。在客户访问网站之前预先计算其个性化,只是简单地在运营环境下应用了传统批量分析。

运营型分析是当用户点击“下一步”按钮后,需要在提供下一页前对客户的下一页内容进行定制。这一过程不仅要用到客户的历史信息,而且还要用到当前信息,包括客户行为刚刚在网站上产生的信息。在两次鼠标点击之间的短暂时间内改变页面呈现的方式,这就是运营型分析。需要注意的是,分析并非针对某一客户,而是访问网站的所有用户,这就会基于分析产生百万计的微决策。尽管客户在访问网站时并不能感知批量处理与运营型处理方法的差异,但在现象之下却有着实实在在的区别。

仅仅把分析应用到运营上是不够的


把分析过程用于运营问题已经有很多年了。然而,运营型分析却远不只是把传统批量分析过程的结果用于运营目的。运营型分析是嵌入式的,且对每项决策都是在决策时间内执行的。

另外一项有关两者差异的案例(我们将在本书后面深入讨论)来自于生产场所。生产商可以利用机器传感器数据推导更好的维护计划。对汽车、卡车、飞机或者拖拉机引擎来说,掌握其详细信息能够为故障分析模式提供许多思路。使用传感器数据开发一项改进的维护计划是分析的一个运营型应用。

比起前一个案例,基于机器传感器数据的运营型分析显得直接而且人性化。当机器运行时,来自机器的传感器信息得以实时分析,这时,运营型分析就介入了。如果识别到一个已知能够导致紧急故障的模式,就需要进行干预以避免或者修复问题。当驾驶员得到某些机器部件即将出现故障的预先警告时,这就是运营型分析。

如果一个企业还没有规划好如何有效地运用传统批量分析过程,那它也不能进行运营型分析。一个企业必须先具备基础分析能力,然后才可以更进一步。首要关注点应该是建立批量模式下的强有力的分析。

没有捷径


一个企业在没有精通传统批量分析的情况下,不能推进运营型分析。运营型分析是建立在坚实的基础之上的。

只有在企业的数据和技能足以构建强大的分析过程时,这一过程才可以运营化。如果想让你的企业推进到下一阶段,首先要确保强大的分析基础已经就位。没有这一基础,运营型分析只能是一个梦想。

我们刚刚从几个重要方面阐述了运营型分析与传统分析的不同之处。我们来定义4个区分运营型分析和传统分析的标志性基石,并以此总结二者的不同。

运营型分析的基石


运营型分析是嵌入式的、自动的制定决策过程,它规定并导致在决策时刻执行的行为。一旦运营型分析过程获得批准并启用,这一过程会自动作出成千上万条决策。

从分析中获得新观点有些匪夷所思。既然各种各样的观点可以从数据中发掘出来,那么把这些观点从运营角度实现显然是一项巨大的挑战。确定如何提取一项新观点并开发出得到此观点,同时实时给出决策的有一定规模的流程是非常困难的。人的因素对于运营型分析的实现非常关键。运营型分析过程的设计、构建、配置和检测都需要人来完成。计算机并不能自行进行决策制定。

有一个要点需要再次陈述,运营型分析是分析过程的新一级演化。如果企业还未掌握传统的批量分析过程,不能直接进行运营型分析。第6章会谈到,在启用运营型分析流程之前,需要仔细对其进行广泛的测试,因为自动的错误决策会带来不小的损失,如果要做出成千上万的决策,确保决策制定的高水平显得尤为重要。

分析的演化可见诸于国际分析研究所(International Institute for Analytics,IIA)及其研究总监Tom Davenport创建的分析3.0框架[2]。我本人在IIA的一个分部并有幸在分析3.0框架开发时参与了早期讨论。我们接下来详细了解一下分析3.0这一概念,这有助于从更广阔的视角去看待运营型分析的演化。只有了解了过去数年来世界发生了哪些变化,我们才能更容易理解为何运营型分析即将成为主流。

分析1.0的时代包含了企业多年来所做的一切有关分析的事情。我之所以用过去时表达分析1.0时代,是因为如果企业还没有做过这些事情,那需要将其置于后视镜上随时参考。如图1-1所示,分析1.0时代非常侧重于描述性统计以及报表,并附带少量预测性分析。而规范性分析根本与之不在一个层次。谈到分析1.0世界的数据,基本毫无例外地来自企业内部,并有良好的结构。这些数据包括企业获得的事务性数据、来自企业资源计划(ERP)系统中的信息等。现在的数据不可思议地变大,并且难于及时处理,按照现在的标准那时的数据相对较小并易于处理。数据在可以使用之前,须经IT(信息技术)部门收集和存储。不幸的是,在分析1.0时代,IT企业并没有在使数据可以用来分析上花多少时间。这限制了分析可能的广度和深度,以及影响力。

图1-1 分析1.0:传统分析(来源:国际分析研究所)

还有更糟糕的。当数据摆在专业分析人员的面前时,在开展分析之前还有很多准备工作要做。这是因为在合作系统中存储的数据很少具备可用于分析的格式。构建一个分析过程需要对数据源进行各种转换、聚合、拼接等,这延长了从IT部门产生数据到得到结论所需的时间。所以说,在分析1.0时代,大部分时间花在了使数据可用而不是分析上面。

从文化的角度看,创建分析过程的专业分析人员退居了幕后。在大多数情况下,他们从业务和IT部门分离出来,被看作随时能带来有趣观点的科学家。专业分析人员自成体系而非任何团队的核心部分。第 8 章将对此进行进一步的讨论。几乎创建的所有过程都辅助了内部决策。产品的客户或用户对幕后分析即使偶尔知晓,也是微不足道的。

企业必须快速跨越分析1.0时代


分析1.0时代已经发挥了很多年的作用。然而,在今天的商业环境中,有必要超越分析1.0,增加更多的能力和不同的方法,让分析1.0成为过去。

传统技术,比如商业智能和报表工具,被用来创建各种报表、仪表盘以及警示。但是,即使简单的报表创建起来也并非易事。创建报表需要人们在集中的商业智能团队收集用户需求,配置报表并且显示。这一过程漫长而僵化,只有极少用户能够创建自己的报表。虽然分析1.0时代也有少量预测性分析,但是绝大部分还是描述性分析和报表。

一个不同的观点认为,没有必要加快报表制作与分析的过程,因为业务终究不能做出更快的反应。在我的早期工作中,有一次,需要构建一个支持直达邮件策略的模型,我们需要用到三四周之前的数据来确定哪个房主该取哪个邮件。我们要把列出的清单发送到邮局,两周后邮件得以打印并邮寄,邮件被打印并投递到信箱后,投递到客户的信箱还需要一周。这就意味着,在我们分析之后到对客户以及业务产生影响前,有大概6周,有时甚至8~10周的延迟。快速执行分析并没有什么帮助,这是因为邮递按照固定月度计划进行,而清单按照周期计划进行。由此不难看出为何在此种环境下许多分析过程并未充分发挥其潜力。

21世纪初期,分析2.0时代开始,并带领我们走进大数据的世界。[3]大数据的创新性体现在多个方面。其面对的数据比分析1.0时代更复杂,体量更庞大,且并不具备像分析1.0时代使用的数据那样有足够的结构化程度。大数据的来源包括文档、照片、视频以及传感器数据等一切数据。很多用于分析的数据,如社交媒体数据,对企业来说来自外部。尽管来自外部,但其数据价值并不受影响。

在现今的分析2.0时代,如图1-2所示,我们仍然需要新的分析技术和计算能力来处理所需的各种分析过程。Hadoop(后续讨论)等技术从陌生到为大家熟知,且当下的分析过程已经考虑采用该技术。分析2.0时代的主要关注点是获得廉价的以原始格式收集和存储数据的手段,然后再考虑如何利用。

图1-2 分析2.0:大数据时代(来源:国际分析研究所)

最近出现的一个明显的趋势是,用来描述专业分析人员如何分析大数据的术语“数据科学”以及描述进行分析的专家的术语“数据科学家”的出现。数据科学家与传统的专业分析人员的一个主要差异是用于分析的工具和平台不同。大公司的传统的专业分析人员倾向于使用SAS和SQL等工具分析来自关系数据库环境下的数据,而数据科学家则倾向于在Hadoop环境下采用R和Python分析数据。然而,这些差异是局部性的,更多体现的是语义上的差异。任何人只要擅长上述环境之一便可轻易转型到另一环境。尽管贴了不同的标签,但这些专业分析人员所需的基本技能和知识储备其实是不同的。第8章将进一步讨论。

在分析2.0时代,专业分析人员在企业中要么演变为决策层的一员,要么对决策层有着直接的影响力。专业分析人员不再是完全独立于业务群体的幕后资源。

本章后面我们可以看到,许多企业,尤其是在线公司和电子商务公司,已经着手仅基于数据和分析来开发赚钱的产品。线上公司是率先做起来的,也是首先进入分析2.0时代的。一个最熟悉的案例是LinkedIn,其开发的产品类似于“你可能认识的人”和“你可能喜欢的群”。上述基于分析的产品把收集到的信息作为管理与维护用户账号的一个环节,并产生用户可能在多种情形下会为之付费的新信息。

分析2.0有一个有悖直觉的方面就是不够先进。这是由于数据规模和复杂度造成将数据转换为适合分析的格式具有挑战性。而且它还要处理处于成熟度曲线早期的数据源,分析工具集也缺乏分析数据所需的成熟度。抛开一切炒作,分析 2.0时代仍然有大量的报表和描述性分析,而预测性分析和规范性分析还相对较少。

只有分析2.0还不够


分析2.0时代把大数据和全新的分析机会推到前沿。然而,对于不同的人、数据和工具,只关注大数据的分析是没有意义的。分析过程必须涵盖所有数据和所有分析需求。这正是分析2.0并不是终点的原因。

分析2.0时代出现的一个误解来自于分析2.0时代的许多专家并未经历过分析1.0时代。许多分析2.0专家具有计算机科学背景,并且以技术手段而非分析手段进入分析殿堂。在分析2.0时代,某些新的分析人员有时并不了完全解分析1.0时代发生的大规模业务变革。这些专家会认为他们所用的所有有关分析的概念与方法都是全新的。有时这是对的,但大多数情况下则不然。我们来看一个例子来证明这一点。

我在一个会议上看过一个年轻人的精彩发言。我不披露他的姓名和所在公司,因为我们的目的不是让人难堪,而只是想探讨他发言中的逻辑缺陷。在发言中,他论述了他和他的团队为他们公司的电子商务网站创建各种分析过程的理由,其逻辑和方法听起来几乎无懈可击。看上去,创作团队正在有条不紊地按照正确的计划进行。比如,亲密度分析和协同过滤,基于客户先前的购买和浏览经历来判断其可能对什么样的额外产品感兴趣。这种类型的分析正是传统零售商多年来已经在采用的手段。

其发言的错误之处在于,他说在大数据和某些新技术到来之前,亲密度分析没有可能。他确信这些通用算法的实际应用是具有开创性的,究其原因是其未曾感受到传统零售行业在过去数年中发生的变化。亲密度分析也并非创新,事实上只是对他来说是新的(其他人也莫不如此)。他只是未曾经历过去的变化而已。尽管围绕大数据存在各种炒作,其实不难做出假设,如果不能从经验中获取更多知识,过去也就从未发生过有趣的变化。但是,这种知识的缺乏导致把很多时间花在重建已经存在的解决方案上,这对于高效利用时间来说可不是好事。

在分析2.0时代,必将从学习并借用分析1.0时代的成果中受益匪浅。为了成果最大化,一个企业需要综合分析1.0时代和分析2.0时代的精髓,并在此基础上向前推进。由此,我们进入分析3.0时代。

分析3.0时代聚焦于演进,而非替代。就像分析2.0并未取代分析1.0那样,分析3.0也并未取代其他两者。分析3.0时代把前两个时代所掌握的一切成果组合到一个整体框架中,如图1-3所示。它对传统数据采用传统分析,而对大数据采用大数据分析。当一个企业开始使用大数据时会发现,把大数据分析作为一个完全独立的功能是行不通的。大数据仅仅是数据量更大,需要对数据做的分析更多,它不得不与其他技术结合。分析3.0时代标志着新的、集成的、演进的分析范型的到来。在2014年年初我们进入了分析3.0时代。运营型分析正是这种趋势的自然成长。

图1-3 分析3.0:数据经济的快速业务影响力(来源:国际分析研究所)

分析3.0时代重新聚焦的一个概念是探索过程的重要性。探索过程的目标在于从数据中获得新的观点,以及可能由此观点推导出的行为、产品和服务。对很多企业来说,完全认识到探索过程的潜力需要实质性的文化演进。分析必须作为企业战略的核心组成部分。分析地位的日益提高需要从高层来推动与操作。同时,改变分析平台与过程建立的方式也是必需的。我们会在本书的后续章节中讨论探索过程,并理解其实施所需要的变化。

数据类型以及数据源的变化和创新是分析3.0时代的又一巨大挑战,同时也带来了大量的新的创新性的分析。新型分析方法将是分析3.0时代决定性的特征。数据的强大和处理的可扩展性将最终推动企业广泛应用预测性分析和规范性分析。尽管在分析3.0时代,仍然有对描述性分析和报表的需求,而企业最终会把嵌入和运营型分析之梦付诸实现。分析的嵌入不仅限于集中化、大规模的企业系统,还包括向终端用户部署的运营型应用,如移动设备、ATM和kiosks。

向分析3.0演进


分析3.0时代是分析的最新演进。它不仅综合了分析1.0时代和分析2.0时代的优势,而且演进到了新的高度。

分析3.0所需的新架构会给企业带来额外的复杂性。分析3.0不仅需要关系数据库环境下的并行处理,还需要Hadoop环境下的并行文件处理。同时,还需要在内存环境下混合一些图形处理单元等。这些将在第5章讨论。

对于我,一个具有专业分析人员背景的人来说,分析3.0时代最激动人心的一个方面是,专业分析人员最终成为正规企业中对于业务如何开展富有价值的一类人。这一团队将由一位首席分析官领导,至少是负责统筹所有企业分析的副总裁级别的分析专家。首席数据官的职位也会变得很普遍。我们将在第8章深入探讨这些角色。分析3.0时代对专业分析人员来说是一个尤为令人兴奋的新世界。

我们来考虑一项许多大银行和电信公司正在采用的分析。本项分析对有销户倾向的客户行为进行判断,是一种展示在分析3.0时代运营型分析过程如何发挥作用的案例。需要指出的是异动预测或者客户流失分析并不是新课题,其创新性体现在扩展分析以及当今使用的客户流失分析的应用。

作为客户流失分析过程的一部分,收集与销户行为紧密相关的数据是必要的。这将包含传统数据源和大数据源,比如收支明细、投诉、从各种渠道获得的降低手续费的要求、一个时间段内资产负债表的变化、社交媒体报道等。

长期以来,客户流失分析已经演进为查找行为组合的特定模式,这是因为行为组合比单一行为更具危险性。这一般称作路径分析。换句话说,如果一个客户在线看到对账单,首次了解手续费后请求取消手续费,这可能不是件麻烦事。但是,如果客户通过致电客户服务渠道再次要求取消手续费,并且接下来又要致电分支机构,那么对客户的忽视就会加大其销户的风险。

构造一个分析流程来标记行为的重要路径,其中涉及很多复杂的工作。客户有可能在任意时间通过各种渠道接触银行,可能通过呼叫中心、分支机构、Web在线交流或者电子邮件。银行需要了解已经发生了哪些事,以便采取正确的响应措施。创建这样一个运营型分析过程要求针对每位客户,在每次交互行为之后更新对其行为的推荐。一旦已经有过一次有关降低手续费的咨询,而且给与了接受或拒绝的明确答复,这一新信息必须立即反馈到计算环节,才能在下次与客户交互时确定采取何种恰当的响应方式。本案例中,如果不创建运营型分析流程则会带来麻烦。我们来看看为什么。

很容易造成决策太迟


运营型分析使组织能够在任意时刻做出最好的决策。基于过期的数据进行分析,哪怕只是晚几分钟,即使做出的决策不是绝对错误的,那也不是最优的。

当我要求取消手续费后,银行连夜以批处理方式执行分析,结果会怎么样呢?银行了解到,那一天我通过邮件要求过取消手续费并遭到拒绝。分析系统判断此项拒绝并不会增加我销户的风险。所以,给银行的推荐结果是应该拒绝我接下来的手续费取消请求。推荐结论载入系统准备次日使用。

第二天,我在车里打电话再次要求取消手续费。按照计划,这一请求再次被拒绝,这是正确的。然而,因为我已经相当愤怒,所以我决定去一个我驾车经过的分支机构跟经理当面沟通。这就是问题的开始。批量分析在昨夜之后不会再次运行,分支机构经理和系统并不知道我刚打过电话并再次回转。针对我取消手续费的请求的推荐措施仍然有效。分析系统必须在那个晚上判断出,我去分支机构的请求需要被获准以保留我的业务,否则就迟了。我销户的风险因最后一次交互而大大增加了,但因为系统未运行造成分支机构并不掌握这一情况。这是一个有关传统分析的运营型应用的经典案例,不难看到这种方法出了差错。

如果是运营型分析,系统就会更新数据对我的电话呼叫做出响应。然后分析过程针对我的账户并基于新数据立刻执行。在我进入分支机构之前,推荐措施更新为接受我的要求,经理取消我的手续费,我将保持账户有效。先前的拒绝请求推荐措施仅在我进入分支机构的几分钟前有意义。然而,我给呼叫中心的电话呼叫彻底改变了正确的应对措施是什么。要达到目的,银行就必须能收集到与我的交互行为相关的一切数据(在行为发生时),并在行为发生之后启动分析来正确判断接下来会发生什么。这就是分析3.0时代运营型分析的工作方式。我的朋友James Taylor是一家名叫Decision Managanant Solutions的公司的首席执行官以及《Decision Management Systems: A Practical Guide to Using Business Rules and Predictive Analytics》(IBM,2011)一书的作者,他写过很多有关运营型分析的文章。他说过:“一家想要发展而不是只想生存的公司,必须从上到下转变。运营卓越不再是可选项,而通向卓越之路是一条分析之路。用分析方法做每一项决策,并把良好的决策放入运营过程中,应该列入每个执行层的计划中。”

分析已经越来越广泛,但人们还没认识到其发展方向是从根本上挑战业务模式。在这一节,我们要谈到必须要理解的几个重要概念和趋势。你所在的企业很可能不得不思考如何让分析与未来的发展相匹配。

运营型分析有一个大趋势是,大量的产品正在收集数据。在很多情况下,针对数据执行的分析实际上是主要目标,如果不是主要目标,那就是产品本身的目标。换句话说,当今一个现实的产品通常只是收集数据的机制。我们来深入挖掘以上陈述的含义。

从历史角度来看,公司一直在开发新产品,不管是一个玩具、呼叫计划,还是一种新型的银行账号。目标很明确,即产品要获得成功,但产品的成功并不会太多依靠数据或者分析。公司更愿意不断收集与产品销售业绩、谁在购买这一产品、被发现了哪些缺陷和问题等相关的数据。这的确会给产品改善带来思路,但这仅是产品售卖过程的副产品,而不是产品内在属性。

现在情况发生了变化,产品发行的终极目的是其收集的数据以及由此带来的分析,而产品本身实际上退居次要地位,并不会比收集数据的某一渠道重要。在某些情况下,产品对客户的价值就是产品所提供的分析;在另外一些情况下,客户以其他手段获取价值,而公司从分析中获取价值。当客户从分析中获益时,更具竞争力的是提供最有价值的数据和分析的产品,而不是更多的传统功能特性。

谁关心产品?来看看这些分析吧!


运营型分析的驱动力之一是最早旨在对数据进行收集并加以分析的产品的演化进程。在某些情况下,一些实际产品不过是为分析流程收集数据的工具。

这样的案例随处可见。很多Web免费服务就属于这一类。来看一下免费电子邮件服务。提供免费电子邮件服务的公司,目的不是单纯地给人们提供免费的电子邮件服务,而是运行社区服务。公司之所以提供免费电子邮件服务,是因为可以在订阅者使用电子邮件服务时了解很多公司想知道的事情。提供商有机会针对用户行为向广告商提供服务,并在获得回应的时候得到回报。在某些情况下,免费的电子邮件服务读取用户的邮件文本并进行分析,因而生成可向其提供的商品列表。如果你经常和朋友用电子邮件谈及体育。我敢断定你会得到很多体育方面的商品的报价。不仅如此,电子邮件提供商还会把你对体育感兴趣的信息卖给其他愿意付费寻找有关体育资源的公司。是时候在同意使用之前仔细阅读隐私策略了。第6章将进一步讨论隐私问题。

现在市面上已经存在直接转化为产品的分析流程。其中一个著名的案例是Netflix的一个影片推荐引擎。[4]它收集客户在浏览Netfilx网站时的数据,以此判断客户还会对哪些影片有兴趣。这一电影推荐系统在Netfilx被当作一个正式产品。他有自己的产品经理,管理方式也与其他产品大同小异。Netflix 不断向推荐引擎增加特性和功能,并不断改善向客户呈现的方式。比如其引进的“Max”界面,在向用户推荐之外还制造出游戏效果。[5]

对Netflix来说,其成功的一个巨大因素要归功于推荐引擎。但这个称为推荐引擎的产品实际上却是数据的分析与应用。这一引擎也是一个完整的运营过程,它在没有人工干预的情况下,每天运行其算法并向客户呈现上百万次结果。

现在我们来分析一个有趣的例子,来看看关注分析的产品是如何通过涉足人们戴在手腕上的新型人体健康产品来打破行业界限的。当前市场上有很多来自Nike、Jawbone和FitBit的产品,这里我们重点关注Nike。[6]

如果我到大街上调查100个人,问他们Nike是做什么的,大概98%~99%的人会说Nike是服装制造商、运动装备制造商或者类似的答案。上述表述都没错。毕竟,泛而言之,那正是Nike多年来广为人知的领域。然而,Nike的某些变化有必要让公众认知并重新评判这一品牌归属于哪一行业。同样的变化也发生在许多其他的业务领域。

2012年,Nike发布了一款叫作FuelBand的产品。[7] FuelBand是一款像手表一样戴在手腕上的设备,它测量每日行走了多少步以及有关睡眠模式等几个指标。这种设备以及其他类似的产品备受欢迎。实际上,我在写本书时手腕上就戴着类似的设备。我们来看看FuelBand是怎样挑战Nike的行业分类以及如何改变Nike的传统业务模式的。

虽然大多数人仍然把Nike看成服装制造商或运动装备制造商,但FuelBand打破了这一成见。起初,FuelBand实际上是一款具有传感器、发射器等部件的高科技产品。现在Nike进入了高科技制造业务领域。

客户购买FuelBand之后,要发挥其效能需要做的第一件事是什么呢?他们必须在台式机、手提电脑或者移动设备上下载软件。Nike又进入了软件业务领域。

你的公司还处在从前的行业吗?


随着传统的制造商纷纷嵌入了传感器、收集数据并为其客户提供分析,行业界线模糊了。这不仅是新竞争的需要,也是客户选择产品的原因,相对于传统的选择依据,客户使用随产品配备的数据和分析作为判断依据更加可靠。

那么为什么客户需要软件呢?因为只有这样,移动设备和计算机才能与FuelBand交互并把收集到的数据上传给Nike。Nike又进入了数据收集与存储业务领域。

之所以进行上述活动,是为了让Nike能够向客户提供关于睡眠和行为模式的分析和趋势。现在,分析成为了Nike的服务业务。如果Nike找出将FuelBand收集的数据与健康问题关联起来的方法,甚至可以认为其进入了健康业务领域。现在,你应该抓住了要点,因为FuelBand的存在,Nike进入了诸多业务领域,而这些领域与时尚和制衣业务毫无关系。

购买FuelBand或其他相似的先进产品,可能最重要的一点并非其外观多么漂亮,款式多么新颖。这些因素对于传统的Nike商品非常重要,但对于像FuelBand这样的产品,关键是让客户相信,设备能为其收集最佳的数据并提供最好的分析。数据和分析驱动产品的购买行为。可能还会涉及其他的实际产品,但FuelBand真正要卖的,以及客户真正要买的,都是数据和分析。

Nike正在转变为可穿戴技术企业以及消费行为分析的企业。最终,鞋、手套、衬衫以及其他Nike产品上都会找到传感器的身影。这些产品一道为客户也为Nike提供了一套丰富的分析。

这是一个重要的基础性变革。现在我们拥有了不因其实际产品属性而购买的产品。Nike认识到了这一点,正在调整业务来拥抱这种性质的产品。为了让这种产品获得成功,Nike开始雇用Web开发人员以及高科技电子设计人员。它还不得不雇用专业分析人员来设计报表和分析。他不得不雇用IT员工构建系统以存储数据。类似FuelBand这样的产品需要的各种与其传统体育用品和服装制造商的定位不同的技能。

我关注了一款个人健康产品,而相同的概念也在其他行业发挥着影响力。汽车、飞机、拖拉机、风动机以及卡车都嵌入了传感器。客户开始把这些传感器收集到的数据用于越来越多的方面。当人们要决定买哪种型号的轿车时,二选一的竞争就像一场短跑,最终的选择取决于来自两种汽车的数据和分析的对比。

在这场把分析和数据而非实物产品本身作为产品关注焦点的变革中,既存在机遇又存在风险。基于世界的当前状态,我们不能再用过去的视角看待业务。数据和分析最有可能给你的业务带来诸多变化。

一些行业会被产生出的新数据和新分析从根本上颠覆。这对于过去从未经历过数据和分析的行业来说尤为正确。现在可能要关注的案例很多,这里我们来关注一个亟待改变的行业:教育行业。

我们仍然遵循着几十年甚至几个世纪以来的教育模式。我们招收恰巧出生时间接近的孩子而不管他们的背景和技能水平(很少有例外),我们把他们一起放到教室里。三年级9岁大的孩子就要完成特定的课程,而不管他们在学校表现得是好还是差。美国不仅没有改变这种模式,反而逐渐加强规则,约束每个学年孩子们学习的内容。

但是,在大数据与分析时代,我们为何不能自主学习呢?如果教师负责回答问题并作为帮助学生的启迪者而不是指定资料的背诵者,学校不是更有吸引力吗?学生们用自己的节奏向前推进课程,并可以在任何时间向老师寻求指导。已经有这样组织机构致力于推进这种方式,比如Khan Academy和Coursera,其运作方式就是在线邮寄教育资料供查看。[8]之后用户观看视频,并进行测试以验证是否掌握了知识。

我们为什么不可以使用数据和分析,允许学生随时用自己的节奏学习呢?为什么不能让学生每天学习不同年级的内容呢?要完成三年级的计划,学生仍然必须通过三年级的全部课程。为什么五年级科学课程的学生不能同时学习三年级的历史课程。如果一个学生以自己的节奏学完全部必修资料且通过测验,为何还有人关心其学习途径以及年龄?

期待分析转变业务模型


一些行业已经加入分析的行列并改变了业务运作的方式,但还有一些行业还在观望,与几十年前并无不同。一个行业落后得越多,它通过使用运营型分析带来的颠覆性(褒义的)改变的潜力就越大。

启动这种转变的关键在于数据和分析。每个学生看完了哪个指导视频,哪个学生完成了哪个练习,每个学生的每个练习和测试的完成情况,这都是可以监控到的。哪一领域需要某个学生重修?这不难看出,由练习情况得出的分析不仅可以判断某个学生在运算方面比较吃力,而且可以判断他在与某一基本概念相关话题方面比较吃力。

既然可以通过快速分析某一学生回答过的所有问题判断出影响其测验成绩的模式,也就可以立刻引导学生学习合适的辅导资料。通过收集与分析每一细微级别的数据,幕后的运营型分析能够帮助学生在其不失自由又确保必学资料全面覆盖的前提下学完知识。

我记得很多课堂是很无聊的。实际上,我记得在我从高中保送进大学的过程中,由于意外造成我不得不重听一门已经听过的课程。我花了一整个学期聆听教授讲解我已经通晓的知识,并参加我本该在第一天就通过的测试。我没有机会去表明(我没有证据去证明,我可以不用耽误一个学期,去学习已经学过的课程)我不必闲坐一个学期。那个时候对我没有任何意义,现在同样没意义。使用运营型分析在一个新高度跟踪与分析学生的表现和进度,在未来数年能够让教育行业成为被数据和分析颠覆的行业中的一员。

运营型分析是超越历史性分析实践的一种演进,但并不能说过去的经验无关紧要。贯穿本书的主题之一就是多年来核心原理的兼容性。本节将讨论几个值得考虑的重要主题,来全面了解运营型分析。

数据质量及时效性对分析流程一直非常关键。随着企业的分析运营化,这一问题变得日益重要。当一个流程使用数秒前的数据在一秒钟后作出决策时,数据必须做到及时和准确。对于来自运营型分析流程的自动决策来说,实际上没有机会修正数据错误。

我有一个朋友在一家大型的物流公司工作。我不打算说出公司的名称是因为我不想针对某一家公司,很多企业都存在同样的问题。我的朋友曾经吐槽他们为司机提供正确导航路线时遇到的问题。他描述了一个在收集地图数据时遇到的一个有关数据质量的问题。

想一想你曾经使用过的普通地图应用或者GPS设备。你有没有注意到经常被指引到离目的地有些许偏差的地方?比如,宾馆的地址可能在Main街上,而停车场入口却在Elm大街的角落的不远处。你的地图应用会把你带到Main大街,而你还要考虑如何从那里到停车场。

这种细微的错误在你只是想去就餐或者找个商店时还只是令人有些恼火,毕竟某一次浪费一两分钟不算什么。然而,对于一家有几千名司机的公司,每天在数百次停靠的过程中不断经受同样的误导,就难以接受了。作为对策,我朋友的公司有一个大型团队,负责根据司机报告的最新信息更新公司的地图数据库。

数据质量不可忽视


数据质量的重要性不言而喻,在运营型分析的世界里更是如此。流程自动和快速的本质也意味着几乎没有机会捕获数据问题。数据必须可靠。

地图数据团队需要通盘考虑。团队成员标记出酒店停车场入口位于与官方入口有一定距离的角落。如果酒店因交通拥堵而更改了入口位置,在入口开放的同时数据库要得到更新。主流的地图应用会导航到住宅前面的街道。如果房子坐落在半公里泥土路的郊区呢?向那些地方发送物品造成的沿路颠簸而增加的五分钟车程对算法来说是很关键的。如果这家物流公司没有充分、及时、正确的数据,将会因效率降低造成数百万美元的损失。如果地图数据不够准确,优化驾车路径的分析流程也不会准确,所以公司对获得正确数据极其关切。

不难想象错误的数据是如何造成运营型分析脱轨的。这就又回到了为何企业不可以跨越传统分析直接转到运营型分析。运营型分析一个很重要的步骤仍然是收集所需数据并确保数据质量。分析一直遵循一错全错(garbage-in,garbage-out)的原则。不过在转向运营型分析时,不同之处是在执行分析和采取对策之前,几乎没有机会进行合理性检查和对貌似正确的数据进行校验。数据质量必须满足非常高的标准,否则数据错误首先导致分析错误,然后导致做出错误的决策。等到数据错误暴露出来时,可能已经造成了大量的实际损失。

有人质疑分析和创新性的关系。分析在企业内占了主导地位,是否创新性会因此受到压制?换句话说,当自动化计算机算法越来越多地接管了决策,是否创新性和人为因素就淡出业务活动了呢?

我的观点是恰恰相反。我相信运营型分析会促进创新性。原因在于,当自动制定决策时,很容易跟踪那些决策的效率,跟踪决策能让企业测试哪些决策有效,哪些决策无效。不再需要开富有建设性和娱乐性的头脑风暴会议然后不得不选择一两个指定路程执行,分析使测试想法然后基于结果推进成为可能。创新性仍然用于帮我们做出选择。然而,这给更好的量化创新思维的潜力以及通过试验降低风险提供了可能性。这是网站一直在努力做到的。

让你的创新性思潮流淌起来


让分析释放而非压制你的创新性思维。只要创新性观点能够通过分析和试验进行验证,企业能够尝试比过去更多的创新性想法。

在主流网站,如 eBay 或者 Amazon,几乎可以保证,在每个看到的页面的某个位置,一定正在进行某种类型的测试。这些测试或许是顶部某个提示条的颜色,或许是有两个还是三个广告,或许是或长或短的产品描述这么简单。用户永远不会知道页面的哪些部分是用来测试的,哪些部分是标准的。这才是关键。这些都是为网站负责的,正在进行小型实验。行业领导者可迅速测试冒出的创新想法,并能够迅速地以最小代价且几乎没有风险判断它是否是胜出者。

拥抱分析并使其运营化实际上能够释放更多时间用于创新。通过打造先进的运营型分析流程,把简单的日常决策交由系统处理。工作人员只需坐在一边考虑尝试更具吸引力的想法。数据的收集与分析允许创造性与革新性在组织内部自由流动,而决不会对其进行压制。

我们以一个案例结束本章的内容,来讲讲有多少传统的、经试验正确的规则适用于运营型分析。许多运营型分析从概念上并非全新的,不管其看上去有多么复杂和强大。通常运营型分析仅仅是长期最佳实践的最新最先进的逻辑扩展。速度、时效性和运营型分析的自动化实质是新的,但基础的分析概念本身往往并不是全新的。

一个广受欢迎的把老概念用新方式应用的案例是Web定制和关键字优化。这些概念之所以看上去新,是因为20多年前我们甚至还没有网页,更别提用几百种方式随意对其定制的能力。然而,隐藏在Web页面布局和关键字优化背后的概念却存在相当时间了。

在一次媒体见面会上,一个欧洲记者向我进行了一次精彩的演示。这个记者提到了他认识的一位在报纸行业工作了十几年的人。退回到20~25年前,当编辑准备每天的报纸时,经常会为哪些故事放在页面顶端和底部以及标题应该怎么写而争论不休。这位记者的朋友总能根据经验针对文章的位置布局以及标题书写发表好的看法。

此人的经验是如何起作用的呢?因为他经常私下跟踪并收集在他们的报纸订阅区域内各种不同位置什么故事和标题卖得最好的数据。其中一些数据得以记录下来,而更多的数据保留在他的头脑中。尽管并未意识到这一点,他还是有效地进行了关键字优化和页面布局优化。其逻辑、方法以及流程从抽象角度看与当今Web发生的现象吻合。他的工作方式无疑有些原始,但在本质上却遵循了相同的基本准则。有必要提出的是,今天所做的许多分析,恰是从前所做分析的扩展,尽管现在采用了更先进且更具分析性的手段。运营型分析也是如此。

从本章中我们获得的最重要的启发有以下几个。

[1] 如前言所述,我们没有留出篇幅对类似分析之类的通用术语进行定义。我们假设读者业已熟悉基本核心概念。

[2] 有一本免费的电子书介绍了分析3.0的细节,参见http://iianalytics.com/a3/

[3] 要了解更多信息,请参考Bill Franks所著的《驾驭大数据》一书。

[4] 参见2012年4月6日Xavier Amatriain和Justin Basilico在Netflix Tech博客上发表的“Netflix Recommendations: Beyond the 5 Stars (Part 1)”,网址是http://techblog.netflix.com/2012/04/netflix-recommendations-beyond-5-stars.html。

[5] 参见2013年6月28日Dawn C. Chmielewski在《洛杉矶时报》上发表的“Meet Max: The New Voice of Netflix Recommendations”,网址是http://articles.latimes.com/2013/jun/28/entertainment/la-et-ct-meet-max-new-voice-of-netflix-recommendations20130627

[6] 基于2013年8月我为国际分析研究所写的题为“Is Big Data Changing the Business You Are in without You Realizing It?”的博客,参见 http://iianalytics.com/2013/08/is-big-data-changing-the-business-you-are-in-withoutyou-realizing-it/。

[7] 参见http://www.nike.com/us/en_us/c/nikeplus-fuelband

[8] 参见https://www.coursera.org/和https://www.khanacademy.org/

如果你所在的企业正在利用大数据支撑运营型分析工作,本章讲的正是这时你需要掌握和了解的那些关乎大数据的重要趋势。过去的许多年间,企业积累的数据越来越多。尤其是到了近几年,数据累积的节奏开始加速。今天,数据格式往往呈现新颖化的趋势,分析手段往往呈现多样化的趋势。大数据正是在这个趋势上打的标签,它带来的是更大的数据挑战,更多的数据源,以及不同的数据格式。

当一家企业开始思考大数据,并且思考大数据将如何影响企业的业务分析流程时,它必须高瞻远瞩地思考很多概念。本章讲述了我们经常会遇到的那些花样繁多的大数据炒作热点,需要为大数据做的一些准备措施,以及如何客观地看待大数据等内容。大数据并不像乍一上来看到的那么可怕。只有正确理解了大数据的整体定位,才有可能成功地将其应用于运营型分析。

毫无疑问,围绕大数据已经集聚了大量的宣传和概念炒作。我们必须透过层层炒作迷雾,关注什么才是真正重要的。本节将要介绍的是一些有助于此的概念。本节并没有对大数据的重要性或价值有任何贬低的意思,而是要让大数据切切实实地回归现实本原。可以说,制定切实可行的期望应该是成功迈向大数据的第一步。

见客户的时候,我有一个经常会被问到的问题:“比尔,在你心里,大数据是如何定义的?”为什么大家总是乐此不疲地纠结于大数据的定义呢?[1]其实,如果想对这方面有直接的认识和把握,可以访问Linkedln(领英网)上的大数据讨论组。过去数年间,各个小组论坛里都以各种不同的方式,反复出现着关于大数据该如何定义的问题。“大数据的定义是什么?”有关于这个问题的问答,我参与过的讨论到不了几百也得有几十次。论坛发帖如果回帖数超过几十个是极为罕见的情况。随着讨论的继续,大家都是企图拿一些细微差别来压倒对方,而这些差别本身与大数据的定义可能相关也可能不相关。我感觉这很愚蠢,而且太过学术化。

社会上的人特别喜欢把关注点放在大数据本身的定义上。而我不管在哪儿,一直都喜欢借用下面的大数据定义,这也可能是最短的定义,这个略带叛逆感的定义只有三个字组成,但我认为这是与大数据最相关的定义:“管它呢!”听上去是不是感觉很极端?那为什么我还要说这个定义呢?下面我来解释一下。

如果企业最关心的是如何通过新的运营型分析解决具体的业务问题,实际上根本不需要再纠结大数据的定义本身了。为什么这么说呢?那些应当遵循的流程以及企业在这些年当中本应一直遵循的流程,其实都很简单。如果有问题要解决,应该先行调查,然后再提出问题:“我们应该在分析过程中收集、整理和使用哪些数据,才能完善解决我们的问题的答案呢?”一旦我们能掌握哪些是必要数据,我们需要做的就是想清楚怎样才能收集到数据,整理好数据,并且把这些数据融合到数据分析当中。但下面这个问题才是要点。第一个问题是,“这份数据对业务有价值吗?”这个问题肯定和大数据的定义无关。数据本身可能是大数据,也可能是小数据,或者也有可能是一堆电子表格。

定义不重要,结果才重要


即使每个人都认同大数据的一个定义,也不会给业务问题的解决带来任何价值。虽然定义大数据是一项非常有趣的学术训练,但了解某个给定的数据源是正式的大数据(或者不是)根本没有任何用处。如果我们需要分析某个数据源,不管给它打上什么标签,我们都会找到办法把它用好的。

到了企业意识到必须要上线大数据这类东西时,这时再关心定义是什么为时已然过晚,我们需要的是数据。也许,数据的结构性不好,数据量又太大,但它刚好满足Gartner行业分析师创造的“数据量、数据种类、处理速度”(Volume, Variety, Velocity)这个著名的理论框架的定义。[2]了解数据如何适配3V框架其实也没什么用,因为我们需要的只是数据,这时候我们需要的只是搞懂如何利用数据,其实这和大数据本身的定义根本无关。我一直还想说的,其实也是最重要但是往往容易被忽视的,与大数据最相关的V其实是价值(Value)。[3]我们担心其他特征会带来的影响,根本原因在于我们相信数据存在价值,值得花功夫收集和分析。

不要曲解我的意思。如果企业加工处理的数据能满足大数据的典型定义,这时把大数据与分析流程相融合,肯定会影响到我们所使用的工具与技术。这里,最大的区别在于,对于工具和技术的选择只是一个实现策略问题,而刚开始,战略层面的问题一般是:“这份数据有重要的信息吗?”到了我们可以回答这个问题的时候,企业必须完成相应的工作,才能让数据真正起到作用。

不要再没完没了地纠结于大数据拥有哪些特征,缺少哪些特征了。相反,我们要关心的是,如何把那些已经识别出来的重要的数据源融合到企业的分析流程当中。

之前的话题蕴涵着这样的意思:我们要从正确的角度出发。我们不能只是收集数据并保存下来,然后就妄想着某天能把数据价值挖掘出来。如图2-1所示,企业应该从业务问题出发,让业务问题来牵引,然后才能把正确的数据找出来。如果确有合适的理由,我们可以付出努力,投入成本,拿到数据源并且使用好。在大数据的世界里,很容易陷入这样的境地,面对每一份可以接触到的数据都试图要努力收集,然后才去考虑收集到的数据如何才能产生价值。企业往往会因为要收集那些后续用不到的数据而变得忙碌无比。

图2-1 从正确的角度出发

从业务问题开始,而非从数据开始,听上去很简单,但在大数据领域,我看到过太多极其聪明的、细致入微的企业完全摒弃了这条基本原则。起初,这种倾向性让我感到很困惑,但之后不久,我就意识到究竟是哪些地方出了问题。2014年初,当我要着手开始本书的写作时,围绕大数据有太多炒作,没有什么人想错过这个潮流。董事会会问CEO:“你要拿大数据干什么?”CEO又会问CIO、CMO和CFO:“你要拿大数据干什么?”每位执行官接下来又会问各自的团队:“你要拿大数据干什么?”

不要迫于压力而变得目光短浅


不要屈服于压力而向外界展示你正在用大数据做什么事情。系统构建、数据捕获只是为了支撑验证有效的商业机会。许多聪明的企业因为被市场炒作蛊惑的原因,一头冲进去做大数据,实际上是在冒险,他们学到的是一些显而易见的教训,但代价却很高。

没人愿意回答“还没有”或者“有计划,但我们得先调查清楚,怎么把它弄对了”。正是因为炒作的存在,这些回答肯定都没法儿让人接受。结果,很多企业一猛子扎进来就去搞大数据了。有时候,企业在大数据上的投入手笔很大,但对如何运用投资,企业自身往往缺乏明晰的计划。他们只是买来一堆存储设备,再弄进来一堆数据,然后就幻想着自己往下做着做着就能自然而然地把事情搞定。

这种方法的最大问题在于:它只能让你应付好今年这一年。你站在了大数据潮流之巅,做了这样一些事情,得到了众人的交口称赞。但是,在接下来的一年或者一年半时间里又会发生什么呢?那时候,同一拨人会回头来问:“我们很清楚你在大数据项目上投入了很多资源,但我们该怎样验证它的投资价值呢?”如果事先不清楚我们能拿数据干什么,那大数据的后端投资会难以快速证实自己的价值合理性。我讨厌这样的回答:“噢,我们是根据要求积极投身大数据的,但现在还没什么好演示的。”

既然要投身大数据,企业就一定要保证自身训练有素。我们还要再花些时间,从一个真实的业务问题开始,制订好相关的计划。要搞清楚我们能用数据做哪些分析。这花不了多少时间,但如果这么做,成功的可能性会更高。不要迫于炒作的压力,摒弃执行基本原则。

面对所有这些大数据的炒作,我们常常会遇到大数据是否存在泡沫这个问题。[4]行业分析公司Gartner在2013年1月提出了一个官方观点,宣称大数据已经越过了炒作的峰值点,正在迈向幻灭低谷期。[5]一名记者在听完Garnter报告后打电话给我,问我大数据是不是马上要走下坡路,泡沫是不是要破裂。经过思考以后,我给出了一个初看自相矛盾但经过解释又觉得很有意义的回答。我的回答是,从某些层面上讲,大数据确实存在泡沫,但在更重要的层面上却又不存在泡沫。本文总结了这些观点,参见表2-1。

表2-1 大数据有泡沫吗

在这些方面,是

在这些方面,不是

不切实际的期望

新信息总会给分析增加能量

相信几个快捷键就可以搞定

大数据通过努力确实会产生价值

把钱砸向领域相关的公司

有真实的成功故事

以某种观点看,我确实认为大数据存在泡沫,肯定要破灭。这个问题起源于市场不切实际的期望。很多人似乎认为他们能够很轻松地进入大数据领域,按下一个“自动魔术化”按钮,就能得到提交的所有问题的答案。对于许多分析工作来说,这条假设很愚蠢。在大数据的世界里,这同样也是很愚蠢的。

大数据根本没有所谓的快捷键!使用大数据构造分析流程是要花时间和投入精力的,就像面对其他任何数据类型一样。因为大数据刚刚出现,所以一开始要投入更多的时间。由于这些错误假设所造成的影响,市场上肯定会出现一些大家都能看到的大数据的失败案例。我看到有些失败案例已然开始发生。这些最初的失败案例会刺破不切实际的炒作泡沫,从这个角度来讲,这对大家都有好处。对于大数据和运营实践而言,这是绝对可以做到的。相反,在成本、时间和投入等方面,企业应该带着切实的期望置身于大数据。

大数据没有快捷键


要有多少投入大数据实践才能获得成功,此间期望是脱节的,这确为事实。从这个意义上讲,确实存在泡沫。但是,大数据带来的深远影响以及大数据分析,最终将远超今天炒作宣传的想象空间。互联网泡沫并没有阻止互联网本身的潜力发挥,同样,大数据泡沫也没有阻止大数据本身的潜力发挥。

现在,我们将注意力转向大数据泡沫不会发生破裂的方面。大家往往认为泡沫破裂是因为一开始的支撑前提本身就是虚假的。我们可以确信,大数据肯定不是一个虚假的前提条件。大数据会对我们的未来生活产生巨大的影响。下面我会用比喻来解释个中缘由。

我们回头来看1999年和2000年的互联网泡沫。那时候,互联网公司有巨大的泡沫,很多人都赔了大把的钱。但这里有一个重要的观点。回头找找1999年末或2000年间互联网泡沫顶峰时期的新闻故事,看看那些文章是怎么吹嘘互联网将会如何改变我们的生活,如何改变我们的事业的。我相信你会发现互联网的发展已经超过了那个时代最狂野的梦想。

互联网泡沫承载着当时被炒作的所有(甚至更多)期望,是真是假其实已经没什么本质关系了。互联网泡沫的存在是因为人们认为能以较少成本、快速简单地获得这些收益。在互联网泡沫发生期间,只要公司创始人愿意把“i”或“e”字母加在公司名字前面,就能轻松获得投资。我感觉这和现在大数据没什么两样。如果我在2013年创立一家公司,宣称自己是一家基于云的、大数据的、机器学习的、分析即服务的公司,相信我可能会超快地搞定投资。

在接下来的几年间,大数据领域市场会重新洗牌,会有很多商业失败案例发生。由于市场异常火爆,公司带着不切实际的期望置身其中,他们会因犯下的错误而买单,因此肯定会有公司遭遇灭顶之灾。但是,再往下五到十年,大数据将会拥有它曾经标榜过的所有影响,甚至更多。基于大数据的运营型分析带来的影响将会远超我们今天所讨论的内容。不管本节之初我们说过要心存何种警惕,企业都不能仅仅是冷眼旁观。你的企业肯定要投身其中,只是我们要睿智而理性地对待大数据这个新事物。

如果企业现在对大数据已经有了正确的期望认知,那它应该再做好哪些准备呢?在制定大数据战略时,哪些概念最重要?本节讨论的正是可以帮我们做好准备,穿越大数据的炒作迷雾的话题。

毫无疑问,数据浪潮已经到来,每一家企业都要有能力驾驭数据浪潮,这样才能勇立潮头。这正是我所编写的《驾驭大数据》一书[6]的主题。我之所以选这个名字,是因为海洋是数据的一个非常好的比喻。试想乱石穿空、惊涛拍岸的场景。如果你坐在汽车内胎上,浪涛打身,这时即使浪涛不比你的腰身高多少,也能把你打翻。如果你身处大浪之下,大浪击打你的身体,肯定会把你弄伤。数据也是如此。数据量越积越多,最后变得巨大而难以应对。如果你只是任由数据浪潮击打你,那只会把你打翻,而你自己什么也得不到。

无论面对的是海浪还是数据浪潮,我们都要掌握好如何才能挺立潮头。海上冲浪要有冲浪板。那些对冲浪毫无概念的人,容易认为冲浪就是冲浪,冲浪板就是冲浪板,但事实并非如此。走到冲浪用品商店,四周看一看,肯定有很多种不同类型的冲浪板。冲浪板有长有短,形状也各有不同,有些有鳍,有些没鳍。冲浪运动员选择某种板型的原因与浪形、技巧娴熟度、是否追求速度以及是否要玩花式有关。

同样,当我们面对数据和分析时,门外汉经常会认为不就是采采数据、存存数据,然后再用个工具分析分析数据嘛。但理解分析的人会认为存取数据以及执行数据分析会用到很多不同种类的工具和平台。大数据肯定会加入一些新的工具组合,就像冲浪运动员一段时间过后会增加多块板子一样。正如在如何使用两块不同的冲浪板之间相似性大于差异一样,在不同类型的数据和分析上应用不同的分析工具和平台,相同之处同样也会大于差异。

做好准备开始大数据冲浪


如果有很强的员工可以帮助企业充分利用过往的数据,那么即便说需要投入一些精力,他们肯定也能用好大数据。就像职业冲浪选手能用冲浪板在任何地方冲浪一样,专业分析人员也一样可以使用任何工具或平台分析任何数据。

如果企业到了该使用大数据工具的时点,相应地,肯定需要配备熟稔工具用法的人员。就算给我最好的冲浪板,让我在最大的浪上冲,我保准我会掉下来,因为我压根不会冲浪。对于职业冲浪选手而言,就算到了新的海滩,面对新的冲浪板,对着大小、浪形都不怎么熟悉的浪花,肯定也能玩得很好。刚开始,他肯定也会歪歪斜斜,但几小时以后,他们就会立直,会像以往那样开始冲浪。那是因为新板子、新海滩、新海浪,这些都是增量变化。它们并非是不可克服的量子跃迁场景。同样,专家级专业分析人员已经掌握了大数据处理的底层技术,面对新数据和新需求,他们只需要把各自的技能略微调整即可。就像冲浪选手可以适应任何海滩上的任何板型的道理一样,专业分析人员在任何数据上执行任何分析时也一样能够适应,因为改变是增量进行的。这并非是一个不可克服的量子跃迁过程。

是什么让大数据如此强大,如此让人兴奋?为什么我预测大数据能产生巨大的影响?根本原因在于大数据能够提供新的信息。[7]大数据源通常能够在某一两个维度上给企业提供新的信息。首先,大数据所能处理的数据细节是以往看不到的。其次,大数据还能提供以前获取不到的一些内容信息。

比方说,汽车厂商现在都使用大数据来预测汽修意向。这么多年,汽车一旦出现故障,车厂就要努力找出汽车发生故障的原因,推演出是哪些因素造成了故障的发生。今天,在发动机研发和测试期间,以及从新车销售后卖出的发动机上,嵌入式传感器都能提供密集的数据监控。利用这些传感器数据,汽车厂商现在都能在出现故障、车损之前识别出故障模式,这就是所谓的预测性维修。

有了发动机传感器数据,我们就能及早识别出故障警告。出现故障之前,有的部件是不是已经开始发热?在一个常见的电路问题发生之前,电池电压是不是已经有所下降?是不是有些部件会成组成对地坏掉而不是独自坏掉?以往,这些问题的答案肯定不能事先知晓,因为没有数据可以支撑答案。但是现在我们已经拿到这些数据,可以进行详尽的分析了。

在这个案例中,传感器数据的效能并不仅仅在于数据量本身。数据包含了以前没有提供过的全新信息。如果能够提前预测出问题,那么在故障发生之初,一般都还有时间可以主动把问题解决掉。这样,客户满意度会更高,保修成本则会更低,这是因为汽车到店后花的时间会更少,避免问题的发生通常也比问题发生后再进行修复的投入要更低。

以前,专业分析人员要花很多时间使用一组特定的数据源来对现成的模型做微调。一段时间过后,专业分析人员又会主动尝试应用最新最好的建模方法并增加从数据中衍生的指标。这样,模型能力会得到增量式提升,努力是有价值体现的。

几乎每一次新信息都会把新算法打败


企业激进地开展大数据业务,原因在于大数据往往能提供全新信息。使用既有数据调整当前的分析流程,肯定是有好处的。但是,增加新信息有可能会获得巨大收益。测试新信息的优先级应该永远比基于老数据测试新方法或新指标来得更高。

一次小小的改变就有可能会大幅提升某些特定分析流程的效能。只要发现与某个问题相关的新信息,企业就应该立即从传统调优方案上调头。新信息一旦被发现就会很有效能,分析专家这时应该不再思考如何使用现有信息来完善既有模型,而是立即把注意力投向新信息的融合和测试上。

即使对于新信息相当简单的使用,也会对分析流程的性能产生巨大的影响,其影响可能远超通过既有信息对流程做出的调整。即便说刚开始会做得比较粗糙,我们也要尽可能快地把新信息融合到既有流程当中。等到融合完成以后,再回过头来渐进地调整和完善分析流程。新信息几乎每次都能把基于既有信息的新算法和新指标打败。

企业数据使用与工具应用的范围越来越广,在此基础之上,我们必须提升重视程度,寻找新问题提问,或者在老问题上提出新方法。通常,在发现新数据源的时候,人们往往能立即想到的是,如何针对老问题的已有解决方案增加某些新的能力。但我们还要再从两个角度进行思考,如图2-2所示。

图2-2 激发大数据价值的三种方法

首先,我们要找到那些可以使用新信息来解决的、全新的、具有差异性的问题。这是一个看似显而易见的提议,但人们往往容易墨守成规,只喜欢省事地把数据用于常见问题。然而,企业必须把工作重点放在找寻新的数据机会上。其次,我们还应该找到新方法来解决当下的问题。我们可以检视那些待解决的问题,思考这些问题是否可以通过引入新数据从一个全新的角度来解决。这么做肯定能提升洞察效力。[8]在客户数据上实施这些活动,有一个框架会给予帮助,也即动态客户策略,这个框架由Jeff Tanner在《Dynamic Customer Strategy: Big Profits from Big Data》一书[9]中提出。对动态客户策略感兴趣的读者,可以深入参考这本书。提出新问题从概念上讲很简单,所以,我们会把重点放在下面这个例子上,即如何使用大数据以全新的视角重温老问题。在医疗卫生行业,临床试验是黄金法则。临床试验通过所谓的双盲方法最终确定测试和控制结构。双盲临床试验中,医生和病人互相都不知道谁在接受何种治疗。这是一种严格控制下的环境,只有这样才能异常准确地查明治疗或者用药的正负效果。幸运的话,在投入数千万美元,经过许多年试验以后,临床试验会有2000~3000名试验参与者。这并非是一个很大的样本量。这说明,虽然临床试验可以准确测量研究人员预先想要测量的内容,但对于各种意外影响,测试数据根本不充分。

样本匮乏会造成何种结果呢?几年前,我身边出现过类似的场景,COX-2抑制剂止痛药系的多种药物,其中就有Vioxx和Celebrex,遇到了一些麻烦。研究人员发现这些药物与心脏病有关,是心脏病普通发病率的2~4倍[10]。在最初的临床试验中,这些问题并没有显现,产品上市好多年后问题才得以发现。

以全新视角思考待解决的问题


如果发现含有新信息的新数据,这时一定要记得重温老问题。往往是我们认为已经解决的问题,如果使用新信息来处理,方法会靠谱得多,同时问题解决的方法还是全新的。

我们快进到今天来看。在对照试验环境外,我们还能使用大数据来提升临床试验的效果吗?在不远的将来,详细的电子医疗档案肯定会变成常态化。药物一旦上市,就可以监控到千百万人的用药趋势。这时我们可以做到的是,考虑药物本身与其他各种药品组合以及治疗方案的配合使用,分析用药以后可能会产生的疾病组合。肯定有人会用错药,或是没有用好药品本身的药效,或者是用了其他本不该搭配使用的药物。这些事很可能无法在临床试验中得到有效的评估。

使用电子医疗历史档案,我们能够挖掘出预想之外的药品正负疗效(当然,我们同时要保护病人的隐私)。我们的数据当然不会来源于像临床试验这种充分受控的环境。不过,我们是不是有可能越来越早地识别出将要发生的事情,就像Vioxx会引发心脏问题那样?我们还需要做更进一步的对照研究才能验证那些从医疗档案中发现的结果,研究人员要知道从哪个地方查找速度会更快。我们不是要使用非对照医疗数据来替代临床试验,而是因为这关乎着研究人员识别新药与疗效正负效果的能力,是否能通过使用非对照数据而有巨大提升。需要做的就只是思考如何以不同的方式来解决问题,即便说这些问题当前已经被充分思考过。

大数据的出现使企业在数据收集、存储以及存储期限上的政策不得不做出相应改变。一直到最近还是这样,除非是最关键的数据,否则我们绝不能浪费资源,因为那样成本太高。如果数据足够重要,需要收集的话,即便说不需要永久保存,也有必要保存相当长的一段时间。当我们有了很多大数据资源以后,就必须从“收集或不收集”的两元决策转变态度,再也不能把收集到的数据无休止地永久保存下去。这时候,实施多级决策机制就是很有必要的。

首先,我们是不是一定要收集数据的各项内容呢?其次,数据源到底应该采集多少内容,要保留多长时间?对于大数据源来说,我们只能捕获到一小部分内容,而且我们获取到的数据在删除之前也只能保存很短一段时间。如何确定正确的方法,需要我们评估数据的当前价值和未来价值。

为了说明数据是否有收集价值,请看下面的例子。譬如说,你的房子通过传感器和宽带与外界有很多联系。每间屋子都有自己的恒温调节器,可以持续不断地把当前的温度反馈给中央控制系统,这样每个房间的温度才能保持恒定。恒温调节器在与中央控制系统通信时会持续不断地产生数据,但这些数据有价值吗?可以说,这些数据具有某些特定的战术价值,但如果说要长期获取这部分数据,很难想象其中的原因。除了系统更新升级以外,毫秒级温度其实也没什么意义。比方说,电力公司要把自己管辖范围内的所有家庭建筑的细节数据都存储下来,受存储能力的限制,电力公司将会不堪重负,但其实根本没有产生任何价值。

同时,我们也可以进行分析,减少数据量。降低数据量的过程,需要我们识别出可以忽略或者可以合并的数据字段,确保虽然工作指标比较少,但信息丢失程度比较低。例如,如果我们发现这样的规律,屋里相临房间的温差永远只有半度。这时,我们根本不需要保存每一个房间的温度值,只需要存储其中一个房间的温度值,并把它与一个区域内所有房间的读数关联起来即可。这样,数据存储需求肯定会下降,但信息分析的质量却不会相应下降。

在数据上使用过期限制


数据在保存一段时间后会被删除(如果已经把数据收集并保存下来),这是思想观念上的一次重大转变。我们有必要评估数据对于企业而言的时间价值。一些数据会立即失效,而另一些数据则会慢慢失效。作为今天大家的共识,只有一小部分数据会被长期保存。

在下面这个场景中,数据只是在一段时间内起到了关键作用。铁轨现在都安装了传感器,可以监控到火车的行进速度。直到最近,我才知道火车机车的车轮温度也是被监控的。如果机车上的载重不平衡,向一边倾斜的话,整个机车的车身就会倾斜。倾斜会把重量加在车身一边,摩擦就会增加,车轮温度会随之上升。如果车轮温度上升超过某个临界点就表明存在严重的失衡,失衡会有潜在的脱轨风险。火车在铁轨上呼啸而过,车轮其实是被实时监控的。如果一组车轮的温度超过警戒线,火车就会停车,有人会被派去检查和处理载重问题。从长期来看,这会节约大量资金,因为脱轨事件即使没有造成人员伤亡,肯定也是灾难性的,会有更多资金损失。

现在,我们重点来看收集到的车轮温度数据,以及它能发挥重要作用的时间段。比方说,一个大组列车在多天时段内行驶了2000英里的旅程。大约以30秒为固定时间间隔,测量各个车轮的温度。这时,收集数据并立刻分析就显得尤为重要了,只有这样才能保证不出任何问题。

现在往前快进几周。火车没有出现问题,安全抵达目的地,所有车轮读数都在期望温度半度以内。在那个时间点,保存读数实际上是没有意义的。而在旅途中进行采样是有意义的,这样异常点可以通过比对得到,这样就能保持一切正常。旅途中车轮温度的异常数据与平静旅途中的少量采样一样可以永久保存。其他数据根本就没有增加价值。

当然了,肯定还有数据要保存相当长的一段时间。银行或者经纪公司与客户之间可以维持几年甚至几十年的关系。这些企业需要保存客户的每一笔存款记录,以及与客户之间沟通的每一封邮件。这样才能做到更优质的长期服务,同时还能提供法律保护。这时,正如我们以往所做的那样,我们收集到的数据仍然会永久保存。

关键在于,企业会形成习惯,以一种全新的方式评估数据的收集、存储和保存策略。忽视数据的存在,以及删除收集到的数据,这种策略乍一看来让人很不舒服。但在大数据时代,这是很有必要的。

自2013年到2014年年初,物联网(Internet of Things,IOT)的概念逐渐引起了越来越多的关注。物联网是指所有东西都必须在线,相互之间都可以通信,且与我们有交互。随着传感器与通信技术变得越来越廉价,越来越多的物件都具备了与周围环境通信并报告信息的能力。我们看到,冰箱和钟表这类生活日用品正在与因特网进行连接,会定期发送和接收信息。

物联网肯定会产生海量数据。它甚至会超过以住所有其他大数据源的数据产生速度。关于物联网产生的大量数据,最有意思的是它们通常都是在战术层面发生的。任何通信的时间都非常短,而且包含的也只是简单信息。例如,钟表会从一个可靠外部源处收到一次实时更新,然后通过家庭网络把那条信息传递给房间内的其他钟表。总体而言,这肯定会产生大量数据,但大多数数据的价值都是很低的、非常偏战术层面的、非常短时的。

本书中给出的很多例子均可认为是物联网的一部分。一旦涉及传感器数据,基本可以算是就进入了物联网领域。如果所有设备均能互相通信,业务与消费者则均可从中获益。越来越多的个人物品间均可通信,伴随着这个趋势,许多新的机会点得以开启。

我们的物品会成为最大的个人数据来源


物联网来得可真快。过不了多久,我们的物品,不论大小,都会安装传感器,相互之间均可通信。今天我们所收集的那些数据与个人物品产生的数据量相比,则会相形见绌。而个人图像以及视频存储的数据量在与所有个人物品发送的各种数据量相比时,也会相形失色。

虽然物联网的出现会驱动产生最大体量的数据,但与多数数据相比,其上的过滤力度要强劲得多。事实上,我们决定保存下来的数据肯定是相对可控的。物品在不停地自由通信,而我们其实只需要捕获那些关键的通信片段。第6章对此将有更多的讨论。

很快,物联网就会变成一个非常热门的、非常流行的话题。我们不可能只拿这么短的介绍来评判话题的公正性,但这个主题绝对不能忽视。就像大数据一样,物联网方面的书籍和文章也一样会马上泛滥起来。感兴趣的读者一定会谨慎观察趋势发展。正如本书当中许多示例所描述的那样,许多运营型分析活动都是由来自我们身边各式各样的物品所产生的数据来驱动的。物联网很快就会变成各家企业分析策略中的重要一环。

大数据是如何适应现状的?为什么说大数据具有特殊性?大数据以后发展方向是什么?这些问题都很常见,大多数企业都会碰到。就像所有新鲜事物一样,关于大数据究竟能干哪些事情,肯定也会出现混淆和不一致的地方。本节探讨的正是那些必须理解的主题和概念,这样我们才能纵观全局,全面地思考大数据。把大数据放到正确的背景下思考,这样在使用大数据做运营型分析时,会更容易达成目标。

正如本章先前所述,大数据让人兴奋的原因之一是它包含了新的信息。但是,许多人都认为造成大数据挑战更多的原因只是大数据的体量巨大。数据体量其实并不是让许多大数据源与众不同的原因。关于大数据,通常最有挑战性的是不同的数据类型和不同格式的数据,我们能从中发现它所蕴涵的一些新信息,因此需要不同的分析方法。

以往,我们在商业环境中收集的用于分析的数据多是事务性的、描述性的、结构非常好的。这意味着,这些信息可以清晰识别,方便阅读。例如,电子表格中Sales列的数值以美元表示。企业里结构较差的数据,譬如书面文档或图片,往往无法用于分析。大数据技术出现以后,企业碰到了新的数据类型和格式,与传统数据源相比,它们当中很多都缺乏结构性。例如,传感器吐出的信息格式是很特殊的,GPS数据描述的则是人和物在空间中的位置信息,人或企业之间的关系强度往往也是重要数据。从数据格式和数据分析方法看,这些数据的类型完全不同。我们将会在第7章中讨论各类分析。

“差异性”其实比“数据之大”更有挑战性


大数据中的“大”得到的关注度最多,但往往大数据的“差异性”才是真正具有挑战性的。新的数据源多种多样,新的格式也富于变化,同时,信息类型也是新的。弄清楚如何从数据中提取出我们所需要的数据类型往往要比弄清楚该如何扩展分析流程投入的精力更多。

分析社交网络,评估人与人之间发生关系的数量与强度,需要完全不同的销售预测方法。大数据的“差异性”其实比“大数据量”带来的挑战要更大。为什么说它的挑战性更大呢?下面我们来看一个例子。

比方说,某家企业要首次启动做文本分析。他们要分析几千封电子邮件,准备好文本分析工具,配置好这些工具,定义好企业将会应用的文本分析逻辑。处理1万封邮件,与处理1千万封邮件和1亿封邮件,刚开始构造文本分析流程的时间和投入其实是差不多的。随着处理邮件数量的增长,应用逻辑必须要具有一定的可扩展性。因为文本是一种完全不同的数据类型,所以我们肯定要做一些准备工作,即使对于少量文本数据来说也是如此。

当然,在我们执行定好的数据分析流程时,1万封电子邮件的处理速度肯定要比1亿封邮件快得多。数据量增加需要流程具备可扩展性,但底层数据分析逻辑还是相同的。弄清楚如何处理大数据之间的差异性是我们需要迈出的第一步。如果我们能够处理差异性,我们就可以进而弄明白如何在不同尺度上处理数据的差异性。

关于大数据带来的挑战,越来越多的关注放在了问题规模本身。尤其是,以往我们关注的是数据量和数据处理的规模。但是,如图2-3和图2-4所示,如果要在整个企业层面上实现分析,特别是当我们要实现运营型分析的时候,我们还需要在其他维度上也具备扩展能力。

图2-3 大数据扩展:典型的关注维度

图2-4 大数据扩展:必要的关注维度

首先,在用户数和用户多样性上要有扩展能力,因为用户既有存取底层数据的需求,又需要访问构筑于其上的分析流程所产生的结果。在任意时间,数以万计的员工都能看到不同的原始数据视图以及分析结果。企业平台必须对用户友好,可以兼容多种工具及应用。

扩展性不只在于存储和处理能力


在讨论大数据扩展性挑战时,我们更多关注的是存储和处理能力的可扩展性。有些关键维度必须具备扩展性,但往往会被忽视,其中就有用户数、并发度、负载管理以及安全性等。如果系统在这些维度上缺乏扩展能力,那么企业就不会获得运营型分析的成功。

其次,另一个可扩展性的关键需求是并发度。并发指的是在相同时间内能够访问给定信息集的用户或应用数。企业级并发还意味着数据虽然会不断变化,但用户接收到的答案却能保持一致。随着并发度的提升,如果系统缺乏工程化实践能够应对相应的处理请求,风险就会逐渐加大。如果大型企业要构造自己的运营型分析流程,就必须有一个环境,让各种不同的用户和应用可以同时存取和运用相同的信息。

再次,负载管理工具也要有可扩展能力。在架构上面的安全层上,不同用户类型会提交各种不同的分析请求,必须有软件可以对负载实施管理。平衡并发请求本身就不是一项简单的任务,我们很容易忘记这方面的可扩展性。我们构造的系统既要能有效地管理很小的战术请求,同时还要能管理非常大的战略请求,这是非常困难的。

最后,安全协议也要有可扩展性。企业必须能锁定数据,按需进行访问控制。用户只允许看到授权自己可以看到的数据段。大型企业在构建平台时,必须要以一种健壮的方式把安全性构筑其中。

所有这些可扩展的维度——数据量、处理能力、用户数、并发度、负载管理及安全性,从一开始时都是互有依赖的,只有都做到,运营型分析才能成功实施。只关心存储能力可扩展性和处理能力可扩展性的企业注定会失败。

我曾见过的最常见错误类型之一是,企业虽然很努力地要把大数据融入现有的分析流程当中,但他们却认为大数据是一个完全独立的特殊问题。许多公司都成立了内部机构,负责处理大数据,而且只处理大数据。[11]事实上,有些企业会远去硅谷设立办公室,开展自己的大数据业务。这其实是在自找麻烦,因为最重要的是,大数据只是总体数据和分析策略的一方面而已。我们的策略应该是唯一的、内聚的,可以同时处理所有的数据,无论是大是小,如图2-5和图2-6所示。

图2-5 以独立竖井模式呈现的大数据

图2-6 整合后的大数据

下面我们看一个相似情形,它说明了为什么缺乏单一数据和分析策略就会有问题。电子商务时代到来时,许多零售商没有想清楚电子商务只是零售策略的另一面而已。相反,许多零售商对待电子商务的态度就好像它是全新的一样。于是,许多零售商都成立了独立部门来应对这些电商活动。有时候,该部门还会有一个独立的法务实体。这些独立实体都有自己的供应链流程、自己的产品体系、自己的定价策略等。

现在,让我们快进到今天的状态。同样还是这些零售商,他们渴望拥有自己的唯一业务视图。他们想让自己的电子商务和其他店面不仅在统一视图之下,而且还想跨渠道提供无缝的客户体验。在体系与系统完全不兼容的场合,零售商是花了很多年投入了很多资金才完全接受这些内容的。

制定整体的数据及分析策略


我们必须使大数据成为数据与分析整体策略的另一个组成部分。如果做不到这一点,就会面对零售商所面对的同一类问题,刚开始的时候不会把电子商务看作是零售策略的另一方面。

10~15年前零售商清楚地认识到电子商务会带来新的挑战,但他们其实还应该认识到电子商务应该与他们的整体零售策略是相契合的。电子商务要以某种方式与核心业务进行整合,刚开始的时候,花的时间要多一些,但长期来看,节省的时间和资金会大得多。

一定要确保我们的企业不会在大数据上犯相同的错误。前面多花一些时间,这样才能想清楚大数据如何才能与数据分析整体策略相匹配。这是非常重要的,因为数据源本身不会提供最优价值。把多种数据源合在一起,是实现价值最大化的唯一方法。例如,我们需要把销售数据、网页浏览数据、人口属性数据以及更多的数据组合起来,这样才能充分理解客户。

企业如果在建立独立的大数据系统和流程时没有先行考虑数据整合需求,在后端产生期望价值就会困难得多。公司的工作目标是创设整合分析环境,让大家可以在任何时间在任意类型和数据量的数据基础上执行任意类型的分析。我们将会在本书中更细致地探讨如何让这一点变为现实。对于那些希望从大数据中获得深入营销价值的读者,推荐阅读我的同事Lisa Arthur所撰写的《大数据营销:如何让营销更具吸引力》一书。[12]

大数据现在热炒的概念之一是,非关系型工具集并非是以关系数据库为基础的,这是一个全新的世界,根本不需要用SQL作为主要的接口。SQL即结构化查询语言,它已经被称为“商业语言”很多年了。其实,就算应用的话,非关系型工具集也不会只使用SQL语言。非关系运动背后的基本前提是SQL虽然在许多公司里是唯一的商业语言,但肯定还需要其他类型的语言。毕竟,商业环境为什么就不能是多语言的呢?其实本应如此,而且应该一如既往地如此下去。

下面我们来直面炒作中的致命缺陷。事实上,非关系型分析并非新概念。在我开始分析生涯时,在商业界,关系数据库还不存在。当然SQL也是不存在的。因此,我们所做的只是基于非关系型方法来生成分析结果。至于我,我通常愿意使用SAS工具。对于我这样的人来说,SQL就像街区上新来的孩子一样。过上一段时间后,我们这些专业分析人员都注意到SQL是一种比较好的方式,可以用来处理某些类别的问题。当然,肯定还有某些处理要求专业分析人员在SQL环境之外执行。

大数据带来的真正改变之一是,企业重新发现了在SQL环境之外展开处理的价值。碰巧在大数据源的条件下做出非关系型的选择要比在传统数据源下更有意义。许多公司其实做过头了,要把所有处理规则都往SQL上扔。这其实是个错误,企业肯定还要把其他选项加入到这个行列当中。对于我们来讲,只需记得非关系型方案一直可用就可以了。21世纪头十年,并非没有非关系型处理的需求。只是说公司朝SQL这个方向走得太远而已。可以想象,未来SQL肯定还是主流的数据分析方法,而非关系型分析关注的则是特殊需求。

大数据,大转变


预言SQL将亡的声音延续了很多年,非关系型平台在争着抢着实现SQL接口。尽管这是巨大的转变,但它也反映了业务需求的现实。

如果可以,企业应该赞同使用非关系型工具集,但不能简简单单地就认为这么做会否定他们身边的SQL需求。我们很容易滑向另一个极端,今天就有许多人在冒险那么干。这么多年来,很多人都曾经做出过SQL将亡的预言。在思想观念发生巨大转变之时,在Hadoop等大量非关系平台上支持类SQL功能,也是一场声势浩大的运动。我们要再次回到未来。在第5章和第6章中,我们要大谈这个趋势,以及该如何利用合适的处理手段。

很多人都曾经跟我讲过,大数据压得他们喘不过气来。太多新的数据源和太多新的事情要处理,许多企业根本弄不清究竟该如何开始和如何处理。千万不要沮丧,大数据正在经历的是与其他任何新的数据源完全相同的成熟度曲线。[13]现实状况是,新数据源首次可用之时,肯定是充满挑战的。我们往往不能明确如何才能最好地使用新数据,要从数据中创建哪些指标,发现哪些数据质量问题,以及诸如此类的问题。但是,经过一段时间以后,对于数据源的处理就会变成标准化流程。

许多年前,当我第一次分析POS数据时,我的团队和我都弄不清如何才能用好数据来分析客户行为,并得到较完美的业务结论。我们更想不清楚,如何才能使数据分析运营化。我们有许多理论和想法,但究竟可不可行本身是没有得到验证的。当然,我们没有把数据的输入、准备和分析过程标准化。一段时间过后,对POS数据的定期分析会让所有这些层面都实现标准化。今天,我们都认为POS数据处理起来很简单,可以应用到各种各样的问题上。

不要气馁


首次分析新数据源的时候,总是让人恐惧。一段时间过后,我们的理解就会逐渐成熟,数据用起来也开始得心应手。大数据也会出现相同的成熟过程。但大数据的情况好像要更糟一些,因为我们同时要处理太多的数据源。

面对每个新的数据源,企业会经历与图2-7所示大致相同的过程。大数据的根本不同在于,以往企业每隔几年才会面对一个全新的独立数据源,但在大数据时代,企业会同时面对多种新的数据源。

图2-7 任意新数据源都会面临的挑战

如今,专业分析人员的职责变成了要同时分析社交媒体的互动数据、客服会话数据、网站行为数据、传感器数据等内容。我们必须要在一套分析流程中同时使用这些数据。这样,我们会有同时经历成熟度曲线的多个数据源被同时应用。对于单一数据源而言,这种情形带来的挑战更大。更糟糕的是,如前所述,我们要考虑的不只是如何处理每个数据源,还要考虑如何把它们关联起来。

我们既不能忽视新数据处理的内在困难,也不能一上来就被它们吓倒。成功的道路上肯定布满荆棘。数据融合与分析方法必然会在很大程度上实现标准化,而现在一切都很好。我们要做的是转向处理下一个新的数据源,而这也正是大数据领域将要发生的和正在发生的事情。

关于大数据,最后一个值得讨论的趋势是,对于大数据的认知和成熟度,如何在全球形成一致性。[14]在采纳曲线和成熟度曲线上,有些企业走得很靠前,有些企业走得靠后。说起来,我还去过几大洲,找过银行、保险公司、零售商和政府机构。我感到每个地球人都在思考几乎相同的问题。海关、法规虽然说肯定受本地市场因素的影响,但它们描述的基本业务问题却是高度一致的。同时,多数人会认为,其他行业以及世界其他地方的发展都要比自己的企业好,然而现实状况往往并非如此。

数学、统计学、分析和数据既没有以某种语言沟通交流,也不隶属于某种文化现象;相反,它们从本质上就是全球化的。中国的趋势图与西班牙的趋势图看起来一模一样,传递的信息也很相近。印度算平均值的方法与德国肯定是相同的。日本的交易记录与巴西的交易记录也有相同的信息。除了极少数情形,宣传大数据在某国某个行业独树一帜,所言定然不实。

你的企业可能并非那么落后


对于大数据,全球的公司目前所面临的问题都非常类似。不管哪儿的企业,它们的感受往往都一样,自己处在其他行业之后,在自己的行业里也靠后,与全球其他区域相比也靠后。既然每个人都认为其他人是先进分子,许多时候,差距其实比想象中要小得多。

形成同行业人脉关系,这事儿全球都差不多,社交媒体让一切变得简单了。其他企业面临的问题可能与我们的企业完全相同。但是,我们自己企业的数据分析肯定不可能与直接竞争对手之间展开有价值的讨论话题。不过,我们肯定能与地球另一面没有竞争威胁的人们进行对话。信息与经验教训的分享,企业都能获益良多。

不管我们的企业正在经历着大数据带来的何种阵痛,我们完全可以相信,其他企业其实也在经历着类似的痛苦。过上一段时间,就会出现针对这些痛点的解决方案,而这些方案也会迅速传遍大江南北。在运营型分析中融合大数据变得越来越容易,越来越常见。我们肯定算不得是世界上第一次解决某些问题的企业,但我们不能守株待兔,直到问题能够充分解决,我们才会往下走。在这一点上,我们要付出的努力无非是往前追、往前赶而已。跟随策略肯定不是我们的致胜法宝。

从本章中我们获得的最重要的启发有以下几个。

[1]  基于2014年6月12日我为国际分析研究所写的题为“What’s the Definition of Big Data? Who Cares?”的博客。参见http://iianalytics.com/2012/06/whats-the-definition-big-data-who-cares/。

[2] 参见www.gartner.com/it-glossary/big-data/的“Gartner IT Glossary”。还请参考2013年5月27日Svetlana Sicular在《福布斯》上发表的“Gartner’s Big Data Definition Consists of Three Parts, Not to Be Confused with Three ‘V’s”,网址是www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-partsnot-to-be-confused-with-three-vs/

[3] 参见2012年8月2日我在《IT Briefcase》上发表的“Defi ning Big Data: The Missing ‘V’”,网址是www.itbriefcase.net/defining-big-data-the-missing-v

[4] 基于2012年12月12日我为国际分析研究所写的题为“Will the Big Data Bubble Burst in 2013?”的博客。参见http://iianalytics.com/2012/12/will-the-big-data-bubble-burst-in-2013/

[5] 参见2013年1月22日Svetlana Sicular在《福布斯》上发表的“Big Data Is Falling into the Trough of Disillusionment”,网址是http://blogs.gartner.com/svetlana-sicular/bigdata-is-falling-into-the-trough-of-disillusionment/

[6] 参见Bill Franks的《Taming the Big Data Tidal Wave》(Hoboken, NJ: John Wiley & Sons, 2012) 。

[7] 基于2013年1月11日我为国际分析研究所写的题为“Driving Analytic Value from New Data”的博客。参见http://iianalytics.com/2013/01/driving-analytic-value-from-new-data/。该主题也在我的《驾驭大数据》一书中有所讨论。

[8] 基于2013年1月14日我为国际分析研究所写的题为“Think Differently to Maximize Value from Big Data Analytics”的博客。参见http://iianalytics.com/2013/03/think-differently-to-maximize-value-from-bigdata-analytics/

[9] Jeff Tanner的《Dynamic Customer Strategy: Big Profits from Big Data》(Hoboken, NJ: John Wiley & Sons, 2014)

[10] 参见2010年8月10日www.drugrecalls.com/celebrex.html的“Pfizer Study Finds that Celebrex May Increase the Risk of Heart Attack”。

[11] 基于2012年8月9日我为国际分析研究所写的题为“A Strategic Mistake with Big Data”的博客。参见http://iianalytics.com/2012/08/a-strategic-mistake-with-big-data/。该主题也在我的《驾驭大数据》一书中有所讨论。

[12] Lisa Arthur的《Big Data Marketing: Engage Your Customers More Effectively and Drive Value》(Hoboken, NJ: John Wiley & Sons, 2013)。

[13] 基于2013年7月11日我为国际分析研究所写的题为“Big Data Analytics Doesn’t Have to Be the Wild West”的博客。参见http://iianalytics.com/2013/07/big-data-analytics-doesnt-have-to-be-the-wild-west/

[14] 基于2013年2月14日我为国际分析研究所写的题为“The Global Nature of Big Data and Analytics”的博客。参见http://iianalytics.com/2013/02/the-global-nature-of-big-data-and-analytics/

相关图书

算者生存:商业分析的方法与实践
算者生存:商业分析的方法与实践
数据结构与算法(Rust语言描述)
数据结构与算法(Rust语言描述)
R语言医学多元统计分析
R语言医学多元统计分析
Python数据分析(第3版)
Python数据分析(第3版)
Python数据分析入门与实战
Python数据分析入门与实战
Python贝叶斯分析(第2版)
Python贝叶斯分析(第2版)

相关文章

相关课程