驾驭大数据

978-7-115-30480-3
作者: 【美】Bill Franks
译者: 黄海车皓阳王悦等
编辑: 杨海玲

图书目录:

详情

本书为读者提供了处理大数据和在你的企业中培养一种创新和发现的文化所需的工具、过程和方法,描绘了一个易于遵循的行动计划,以帮助你的企业发现新的商业机会,实现新的业务流程,并做出更明智的决策。本书介绍了大数据时代,企业如何发现优秀的分析师、组建优秀的分析团队、使用什么分析工具、改进分析流程,以及目前有哪些大数据源可供使用等。

图书摘要

驾驭大数据

TAMING THE BIG DATA TIDAL WAVE

FINDING OPPORTUNITIES IN HUGE DATA STREAMS

WITH ADVANCED ANALYTICS

【美】Bill Franks 著

黄海 车皓阳 王悦 等 译

张锦沧 张新宇 张琦 审校

人民邮电出版社

北京

内容提要

书提供了处理大数据和在企业中培养创新和探索文化所需的工具、流程和方法,描绘了一个易于实施的行动计划,以帮助企业发现新的商业机会,实现新的业务流程,并做出更明智的决策。

本书重点介绍了如何驾驭大数据浪潮,并详细地介绍了什么是大数据,大数据为什么重要,以及如何应用大数据。本书还从具体实用的角度,介绍了用于分析和操作大数据的工具、技术和方法;以及从人才和企业文化的角度,介绍了如何使分析专家、分析团队以及所需的分析原则更加高效,如何通过分析创新中心使得分析更加具有创造力,以及如何改变分析文化。

本书适合对数据处理、数据挖掘、数据分析感兴趣的技术人员和决策者阅读。

对本书的赞誉

本书关注了它应该关注的地方,主要关注大数据的有效分析,而不是大数据管理(BDM)。它从数据讲起,并进一步讲到如何制定决策,如何创建卓越的分析中心,以及如何建立分析文化。你将可以发现关于大数据管理的一些话题,但是,大量的内容是关于如何创建、组织、补充、执行那些使用数据作为输入的分析活动。

——Thomas H. Davenport,国际数据分析研究所联合创始人、研发总监

这是一本一站式手册,任何想要了解大数据是什么,以及如何通过高级分析流程和方法驾驭大数据的人都应该阅读它。Bill Franks深刻理解了如何创建一个完整的、意在竞争中获得优势的分析生态系统,并在本书中对其进行了详细描述。

——Stuart Aitken,美国dunnhumby公司首席执行官

在《驾驭大数据》中,Bill Franks很好地介绍了可以产生新商业价值的大数据和分析类型,而这些价值将从正在被大数据浪潮冲击的企业所掌握的新型大数据源中获得。这本书很容易阅读,在每章的末尾都有“本章小结”来帮助你进行总结。这本书还避免使用过于专业的技术术语,但本书绝不是一本轻量级书籍。在这本很棒的大数据入门书中,Bill为分析创新和从现在开始做大数据分析提供了强大的案例。

——James Taylor,Decision Management Solutions 公司首席执行官

Dicision Management Systems: A Practical Guide to Using Business Rules and

Predictive Analytics作者

如果你想要了解为什么在许多行业中,大数据都可以产生商业价值,那么,这本书将为你提供多个视角和多种答案——从高科技,到数据科学,到业务用户和流程等。在我整个分析的研究和教学生涯中,我从没遇到过这样一本书,能将信息技术与公司业务以如此简洁的方式结合到一起。我推荐任何与大数据有交集的人都阅读本书。

——Diego Klabjan,美国西北大学教授

Master of Science in Analytics Program 负责人

Bill Franks 以一种寓教于乐的方式来讨论这个复杂的主题。他为从业人员和新手们提供了他对大数据最真实的理解和远见卓识,这使得本书成为一本重要的读物,任何分析领域的新手和从业人员都可以通过本书向分析行业的领导者学习。Franks跨多个行业的见解,以及他对大数据的驾驭,都证明了他是带领你进入大数据分析领域最好的领路人。

——Richard Maltsbarger,美国劳氏公司高级战略副总裁

驾驭未来的价值发现之旅

不仅是数据爆炸的时代,更是一个大数据爆发的时代。面对大数据的激流,多元化数据的大量涌现,大数据已经为个人生活、企业经营,甚至国家和社会都带来了机遇和影响。

大数据的技术和市场正在快速发展,而驾驭大数据的呼声则一浪高过一浪。随着大数据所蕴含价值的激情释放,使得大数据已经成为IT信息产业中最具潜力的蓝海。但是,面对各种不同的大数据工具和解决方案,到底哪些才是技术核心,并能够带来真正的价值?

本书作者 Bill Franks 先生是 Teradata 天睿公司首席分析官,他将自己和Teradata在数据分析领域的知识和经验进行了总结,并带领我们迈上了大数据价值的发现之旅。我很荣幸率先阅读了本书的中文版,并郑重推荐给大家,同大家一起分享数据价值极致演绎的心得体会。

大数据的核心

麻省理工学院管理评论在“通往价值的新道路”研究报告中,总结了“顶尖绩效的公司使用正确分析挖掘方法和工具的使用率,与绩效较低的公司相比,高出了5 倍。”美国全国保险公司客户管理副总裁Kathy. Koontz 女士指出:“重要的不是数据,而是如何使用数据。企业必须改变它们的经营方式,学会从数据中洞察事实并做出反应,否则数据整理得再有条理,也没什么价值。”政府或企事业单位对于数据的驾驭,从最基本的获取,到整合、治理、分析、探索、汲取智能、采取精确的行动,这种全程能力的建立已经比以往任何时候更为重要。

所以,数据的核心是发现价值,而驾驭数据的核心是分析。我想强调一点,过去所谓“得数据者得天下”的说法,只是说明了“获取”数据的重要;然而,立身于大数据时代的我们,应该更加专注于数据的核心价值,如何转化和激发它的潜能,赋予它新的生命,创造出更多的业务提升机会,这才是真正的重点所在。

IDC调研显示,中国的大数据市场未来5年将以51.4%的速度增长。正如书中所言“今天的大数据并非明天的大数据”,帮助政府和企业掌握驾驭大数据的能力就是帮助它们赢得未来。Teradata天睿公司在帮助政府和企业进行大数据分析的过程中,倡导使用已经过无数次验证的 IDA方法论,即通过对信息的整合(Integration)、探索(Discovery),并使其转化成行动(Action),最终帮助用户建立制胜未来的核心竞争力。

大数据的挑战和趋势

随着大数据浪潮的加速到来,未来5年将成为大数据的全面发展期,将出现产业链的整体繁荣。如何在大数据浪潮的洗礼中确保技术架构、人才、政府和企业战略以及商业模式能够“逐浪潮头”,将更需要积极主动地选择适合的技术、方法论、解决方案和发展策略等。

环顾整个市场,我们在某些领域取得了突破性发展,但仍然面临着大量挑战。例如,研发分析各种多元结构化数据的高效技术,提高大数据分析的易用性,让大数据分析技术实现“开箱即用”,使得数据分析成为政府和企业建立核心竞争力的关键途径。技术创新永无止境,面对快速增长的大数据,我们还需要处理“更大的数据”,激活“各种渠道、各种结构、过去、现在甚至未来的数据”的更大价值。

驾驭大数据就是驾驭未来

本书作者Bill Franks 先生奉献出自己的智慧、见解和实践经验,帮助武装我们的思想和技能。

无论你是首席技术官、首席信息官和首席营销官,还是想成为更加优秀的业务分析师,本书将告诉你如何整合数据、探索数据,并转化为行动,并最终带来业务价值。书中不仅介绍了分析流程的演进、方法论、分析团队的组建,还有对建立分析文化的深入探究。我相信本书将成为大家应对大数据来袭的最佳工具书,成为你驾驭未来的技术指南,帮助你成为赢得蓝海的真正王者。

最后,我要感谢本书的原著作者Bill Franks,感谢几位先期读者在百忙中为本书写下真知灼见的书评,感谢为中文版出版做出贡献的人民邮电出版社的领导、编审和各位译者,感谢Teradata天睿公司的技术和市场团队付出的日日夜夜,请相信你们的努力将会在我们的数据价值发现之旅中绽放精彩。

辛儿伦

Teradata天睿公司大中华区首席执行官

2012年12月12日

序言

论你是否喜欢,大量的数据都会在不久的将来涌入你的生活。也许它现在已经出现在你的生活中了,也许你已经与它们打了一段时间交道——例如,试图解决这些数据的存储问题以便后续的访问,处理错误和缺陷,或者将这些数据进行结构化分类。或许你现在准备通过分析庞大的数据集提炼出一些有价值的数据,进而从中得到一些关于你的客户、业务或者你的企业所处商业环境的信息。或许你还没有到这一步,但是你已经意识到了数据管理的重要性。

无论你属于上述哪种情况,你都找对了地方。正如Bill Franks所说,在不久的将来,不仅会有大数据,还会有许多关于大数据的书籍。但是,我觉得这本书不同于其他的大数据书籍。首先,该书是这个领域的先驱者。最重要的是,它与其他书籍侧重的内容有所不同。

很多大数据的书籍侧重于大数据管理:如何将大数据存储到数据库或者数据仓库中,或者如何将非结构化数据进行结构化和分类。如果你发现自己阅读到了很多关于Hadoop、MapReduce或者其他关于数据仓库方法的内容,那么你可能已经遇到了,或正在寻找一本“大数据管理(BDM)”的书籍。

当然,大数据管理是一项重要的工作。无论你有多少何种质量的数据,如果你不能将它们按照某种便于访问和分析的格式存储到一个环境中,那么你就无法体现出这些数据的价值。

但仅仅是大数据管理方面的知识还不能让你走得更远。为了让这些任意大小的数据变得有价值,你不得不自己分析和操作这些大数据。正如传统的数据库管理工具不能自动地分析来自传统系统的交易数据一样,Hadoop和MapReduce也不能自动解释来自网站、基因图谱、图像分析或者其他大数据源的数据的含义。即使在大数据时代到来之前,许多从事数据管理多年(甚至是几十年)的组织也没能从它们的数据中获取到便于分析和决策的有价值信息。

在我看来,这本书将重点放对了地方。它主要是关于大数据的有效分析,而不是大数据管理本身。它从数据开始,所有的内容均围绕如何做整体决策,如何构建卓越的数据分析中心,以及如何构建数据分析文化等主题。你也会发现一些大数据管理中提到的内容,但该书内容的主体仍是关于如何利用输入数据生成、组织、配置和执行数据分析。

或许你还没有意识到,分析在今天的商业领域中是一个很热门的话题。这本书将主要围绕公司如何利用分析进行竞争,我在该领域的著作和论文一直是我所有著作中最热门的内容。关于分析的会议也在各地不断涌现。大的咨询公司,例如,Accenture、Deloitte和IBM已经在该领域积累了大量经验。许多公司、公共服务部门甚至非营利机构都已经将分析作为一个优先的战略。现在人们对大数据非常感兴趣,但是重点仍应该放在如何组织这些数据并使得它们便于分析,进而影响决策和行动。

Bill Franks 独创地将讨论重点放在大数据和分析的交集上。与其他数据仓库和数据应用供应商相比,他所在的公司Teradata,在数据分析及从中提取商业价值的领域,一直都表现出了最高的专注程度。尽管 Teradata 最被人们熟知的是其企业数据仓库工具,但是这些年来,它也提供了一系列的分析应用工具。

在过去的一些年中,Teradata为了开发面向大数据的高度可扩展的分析工具,已经和领先的数据分析软件供应商 SAS 建立了紧密的联系。这些工具通常是数据仓库环境的嵌入式分析工具,并针对大量数据分析应用,例如,实时欺诈检测和大规模客户购买倾向评分。Bill Franks 是Teradata 的首席分析专家,因此有机会了解大规模分析和库内处理的理念和专业知识。如果讨论这个主题,可能没有比Bill Franks更好的人选了。

那么,本书还提供了哪些特别有趣且重要的内容呢?以下是关于本书重点的简要介绍。

第1章概述了大数据的相关概念,还解释了“数据的大小并不总是最重要的”这个观点。事实上,在整本书中,Franks指出了许多大数据其实并没有用,如何过滤掉无效的数据才是真正重要的。

第3章是对大数据源的综述,将大数据源进行了创造性和有价值的分类,且非常全面。该书第2章介绍了网络数据及其分析,对希望了解在线用户行为的企业和个人会很有帮助。这部分内容绝不仅仅是一般的面向网页分析的报表。

第4章致力于介绍分析可扩展性的演进,这部分内容为您提供了一个大数据和分析技术平台的全新视角。可以肯定的是,你在其他地方都未曾看到过这部分的内容。该章也讲述了最新的技术,例如,MapReduce,并讨论了大部分大数据分析工作都需要一个混合的环境。

该书包含了一部分关于如何生成和管理分析数据环境的最新内容,这也是在其他地方看不到的内容。如果你想要了解最新的关于“分析沙箱”和“企业分析数据集”内容(这对我来讲也是全新的内容,但是现在我知道了它们是什么以及它们的重要性),那么你可以在第 5 章中找到答案。本章还包含了一些关于对管理系统和处理流程进行建模和评分的重要信息。

第6章讨论了目前常用分析软件工具的类型,包含开源包R。虽然很难找到关于这些不同分析环境优缺点的评价,但是本章中你将读到这些分析。最后,本章讨论了一些组合和简易分析的方法,以便于像我这样的非技术人员理解。

该书的第三部分从技术角度给出了在分析中和企业管理方面的建议。同时,选取的角度也是很合理的。例如,我特别喜欢第7章中关于制定决策和发现问题的部分。许多分析专家进行分析时都没有考虑一个更大的问题——这些问题是如何产生的。

近来有人问我,关于分析文化内容的描述是否超出了本书的范畴。我回答说,在我读Franks所写的第四部分之前,我并不知道这个问题的答案。他将分析文化和创新文化联系在了一起,这一点我非常喜欢,并且以前从未见到过此类内容。

尽管这本书并没有避开技术话题,但它以一种直接和解释性的方式对它们进行了描述。这使得本书适合更广泛的读者,包括那些技术背景有限的读者。Franks使用数据可视化工具的论述借以概括整本书的基调和视角:“简单即是最好的。仅当必要时,再把它变得复杂。”

如果您的企业打算进行分析工作——毫无疑问你将需要解决很多在这本书中所涉及的问题。即使你不是一个技术人员,你也需要熟悉一些关于构建企业分析能力所涉及的内容。如果你是一个技术人员,你将学习到分析中人性化的一面。如果你正在书店或者通过“搜索本书内容”浏览本书的前言部分,那么买下这本书吧。如果你已经买了这本书,那就赶快行动起来,阅读它吧!

Thomas H. Davenport

信息、技术与管理领域杰出教授,美国巴布森学院

联合创始人、研发总监,国际数据分析研究所

前言

收到一封邮件,邮件中提供了一套个人电脑的报价。而你几个小时前刚刚在这家零售商的网站上搜索过电脑的信息,似乎它们已经读出了你的想法……当你驱车前往这家商店购买这套个人电脑时,你路过了一家咖啡店,你看到了这家咖啡店的一条折扣信息。你获知由于你刚来到这片区域,你可以在未来20分钟内享受10%的折扣……

在你享用咖啡的时候,你收到了一家制造商关于某产品的道歉,而你昨天刚刚在你的Facebook主页和这家公司的网站上抱怨了它们的产品……

最后,当你回到家之后,你又收到了一条关于购买你最喜欢的在线视频游戏升级装备的信息。有了这些装备,你才能顺利通过某些曾经苦苦挣扎的关卡……

听起来很疯狂吗?难道这些事情只有在很远的未来才发生吗?不,这些场景都是我们今天可能见到的!大数据、高级分析、大数据分析,似乎今天你已经逃脱不了这些术语了。无论在哪里,你都会听到人们在讨论大数据和高级分析,看到关于它们的文章或是宣传推销它们。好了,现在你也可以将这本书加入关于它们的讨论中了。

什么是真实的,什么是炒作?这些关注可能会使你怀疑大数据分析是一种炒作,而非真实的东西。尽管在过去的几年曾经有不少被炒作的概念,然而就分析能力和处理海量数据而言,我们确实处在一个转型的年代。如果你肯花一些时间来理清并过滤掉那些有时被媒体过分炒作的部分,你会发现大数据背后有一些非常真实和强大的东西。随着时间的推移,大数据分析会使企业和消费者都获益,而收益带来的兴奋和期待又会继续引发更多的炒作。

大数据是下一波新数据源的浪潮,并会驱动分析在商业、政府及教育界的下一次革新。这些革新将有可能快速改变企业审视它们自身业务的方式。大数据分析可以促成更加明智的决策,在某些情况下,促成这些决策的方式将明显不同于今天。它带来的很多洞察在今天看起来都像是在做梦。你会看到,征服大数据的需求和一直以来征服新数据源的需求在很大程度上是一致的。然而,大数据的额外规模必须使用新的工具、技术、方法和流程。传统的分析方法已经不再适用于新的环境,我们有必要使用高级分析将商业界带入更高的层次。这就是这本书要讲的内容。

“驾驭大数据”并不只是本书的书名,而是下一个十年中,决定哪些商业活动将振兴,而哪些商业活动将消亡的决定性因素。准备主动接受大数据,企业可以通过驾驭大数据浪潮而取得成功,而不是遭受大数据浪潮连绵不断的冲击。你需要了解些什么?你如何为征服大数据做准备?你如何从大数据中获得振奋人心的分析结果?坐下来,找一个舒服的姿势,准备好发现大数据的秘密!

读者对象

这些年来有无数关于高级分析的书籍问世,最近也开始有关于大数据的书籍出现。本书是从一个与其他书籍不同的角度来看大数据的,主要帮助读者理解什么是大数据,如何通过分析来利用大数据,以及在如今的大数据环境中,如何处理世界范围内的高级分析生态系统的创新和变革。大部分读者都将发现这本书有价值且充满趣味。无论你是分析专家,还是使用分析结果的企业家,或者只是对大数据和高级分析感兴趣的人,这本书都有适合你阅读的内容。

本书并不会深入介绍所涉及主题的技术细节。本书的技术高度刚刚能够让读者从高层次来理解其所讨论的概念。本书的目的是使读者可以理解,并开始运用这些概念,以及帮助他们认识在哪些方面还需要更加深入的研究。这本书更像是一本手册而非教科书,完全可以被非技术人员理解和掌握。同时,那些对这些主题已经有深入了解的读者,也可以从本书的一些讨论中获得一些技术方面更深层次的启示。

内容提要

本书由四部分组成,每一部分都从一个方面来介绍如何驾驭大数据浪潮。第一部分将介绍什么是大数据,大数据为什么重要,以及如何应用大数据。第二部分集中介绍那些能够用于分析和操作大数据的工具、技术和方法。第三部分介绍如何使分析专家、分析团队以及所需的分析原则更加高效。第四部分将前三部分结合在一起,重点介绍了如何通过分析创新中心使得分析更加有创造力,以及如何改变分析文化。以下是关于各章节所涉及内容的详细提纲。

第一部分 大数据的兴起

第一部分重点介绍了什么是大数据,大数据为什么重要,以及分析大数据可以带来什么好处。本部分覆盖了10种类型的大数据源,以及如何利用这些资源来帮助企业提高其业务水平。如果读者拿起这本书时,还不知道什么是大数据,以及大数据的应用有多么广泛,那么第一部分会帮助你了解这部分内容。

第1章 什么是大数据,大数据为什么重要

本章首先介绍了大数据的背景知识,以及大数据到底是关于什么的。然后给出了一些企业如何利用大数据的案例。如果读者想要帮助自己的企业驾驭大数据浪潮,那么请首先理解本章所讲的内容。

第2章 网络数据:原始的大数据

如今,或许应用最为广泛并为人们所熟知的大数据源是从网站上收集来的详细数据。用户浏览互联网所产生的日志信息,是等待分析和挖掘的信息宝库。不同行业的企业都将从它们网站上收集到的详细用户信息整合到它们的企业业务分析中。本章将探索这些数据是如何增强和改变一系列业务决策的。

第3章 典型大数据源及其价值

在本章中,我们将从高层次来探索9种大数据源。其目的是介绍每种数据源,并讨论每种数据源在商业中的应用和启示。一些本质相同的技术应用在不同的行业中,以产生多种大数据源,这个趋势已经越来越明显。另外,不同的行业可以利用一些相同的大数据源,大数据并非只能用于某些狭窄的领域。

第二部分 驾驭大数据:技术、流程以及方法

第二部分将集中介绍用于驾驭大数据的技术、流程以及方法。这些年取得的重大进展增加了这3个方面的可扩展性。企业不能继续依赖外部的方法和专家来保持它们在大数据世界中的竞争力。本书的这一部分将是技术性最强的一部分,但仍然可以被绝大多数的读者所理解和接受。读完这些章节后,读者将熟悉他们今后进入大数据分析领域时可能遇到的一系列概念。

第4章 分析可扩展性的演进

在每一个时期,数据的高速增长使得当时最具可扩展性的工具也只能疲于应付。在大数据出现之前,传统的高级分析方法已经到达了它们的瓶颈。如今,传统的方法已经不再适用。本章将讨论分析和数据环境的融合、海量并行处理(MPP)体系、云、网格计算,以及MapReduce技术。这些技术增强了可扩展性,并且在大数据分析中扮演着重要角色。

第5章 分析流程的演进

为了更好地利用被极大增强的可扩展性,分析流程也需要进行升级。本章将首先概述如何利用分析沙箱为分析专家提供一个可扩展的环境,从而建立高级分析流程。然后,我们将介绍企业分析数据库如何帮助在创建分析数据时,获得更高的一致性并减小风险,同时提高分析专家的生产效率。本章最后将探讨如何使用嵌入式评分过程将高级分析流程部署和转移到用户端和应用端。

第6章 分析工具和方法的演进

本章将介绍一些高级分析方法演进的过程,以及这些改进将如何继续改变分析专家完成工作和处理大数据的方式。讨论的主题将包括可视化图形界面、单点分析解决方案、开源工具,以及数据可视化工具的演进。本章也讲述了分析专家将如何改变他们建模的方法,以便更好地利用可用资源。讨论的主题包括组合模型、简易模型以及文本分析。

第三部分 驾驭大数据:人和方法

第三部分重点讨论驾驭大数据的人和他们所属的团队,以及确保他们能够提供优质分析的方法。如何提供优质的分析,包括大数据分析,其关键因素是找到合适的人来掌舵,并且他们能够遵循正确的分析原则。读完这3章后,读者将了解优质分析、优秀的分析专家和分析团队的特质。

第7章 如何提供优质分析

计算统计结果、撰写报告、使用建模算法仅仅是实现优质分析众多步骤中的几步。本章首先阐述了一些定义,然后讨论了一系列关于如何创建优质分析的主题。大数据给企业带来了从未处理过的复杂数据组合,将本章讨论的原则牢记在心对驾驭大数据非常关键。

第8章 如何成为优秀的分析专家

数学、统计学以及编程方面的能力是必要的,但对于一个优秀的分析专家来说,仅仅具备这些技能还不够。优秀的分析专家还需要具备大多数人通常不会首先具备的特质。这些特质包括承诺、创造力、商业头脑、演讲能力与沟通技巧以及直觉。本章将探讨在寻找一个优秀的分析专家时,这些特质为什么非常重要且不能被忽视。

第9章 如何打造优秀的分析团队

企业如何打造一个高级分析团队,并使其发挥最优效果?把他们放在企业的什么位置最合适?这些团队如何运转?谁来创建高级分析?本章将讨论建立一个优秀的分析团队时必须考虑的一些常见挑战和原则。

第四部分 整合:分析文化

第四部分将介绍一些著名的基本原则,企业想利用高级分析和大数据进行成功创新必须遵循这些原则。尽管这些原则也被广泛地应用于其他领域,但我们的焦点和视角是这些原则将要如何应用于当前企业环境的高级分析中。读者可能已经比较熟悉所涉及的这些概念,但是对于如何将它们应用到高级分析和大数据中,也许还是很陌生的。

第10章 促进分析创新

本章从回顾一些成功创新背后的基本原则开始,然后通过分析创新中心的概念,将它们应用到大数据和高级分析中。我们的目标是能够让读者清楚地理解如何在企业中更好地促进分析创新,并驾驭大数据。

第11章 营造创新和探索的文化氛围

本章将介绍如何营造创新和探索的文化氛围作为本书的结尾。本章的文字有趣而轻松,并给如何营造出有利于促进创新分析的文化氛围留出了一些思考空间。这些涉及的原则被广泛地讨论,并被大家熟知。但是,这些原则仍然值得回顾,并且需要思考企业如何将这些确立的原则应用到大数据和高级分析中。

第一部分 大数据的兴起

 

第3章 典型大数据源及其价值

你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,这种体验是不是很棒?如果赌场老板把发牌人忘记付给你的20美元亲自送还给你,你的心里是不是有点儿小激动?如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这世界会不会变得很美妙?你是不是要下调汽车保险费率?大数据能让这一切变成现实。

在第2章中,我们已经讨论过了网络数据。网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。除此之外,还有很多大数据源,它们都有各自的使用价值。其中一些广为人知,而另一些几乎没有名气。我们在此要借用本章的篇幅一起来回顾除网络数据以外的其他 9 种大数据源以及它们的用途。我们将站在一个较高的层次上讲解这部分内容,意图是在简单描述各类数据源的基础上,回顾每种大数据源的应用与商业含义。

第 2 章和第 3 章并不是要介绍排名前 10 位的大数据源,而且排名在前 10位也不意味着它们就是最重要的10种大数据源。同理,我们的讲解顺序也并没有暗含任何级别高低。我们的重点是有代表性地描述大数据源,并希望读者们能够理解现有大数据的广度和种类,以及大数据分析能够达到的广度。希望每一位读者都能从中找到自己感兴趣的地方。

我们发现了一个非常明显的趋势,各行各业虽然生成了许多大数据源,但其底层的支撑技术却是相同的。而且,不同行业还可以使用相同的大数据源。大数据并非只有单一的用途,它的影响将会非常深远。

我们将要讨论以下几种大数据源。

汽车保险业:车载信息服务数据的价值。

多个行业:文本数据的价值。

多个行业:时间数据与位置数据的价值。

零售制造业:RFID 数据的价值。

电力行业:智能电网数据的价值。

博彩业:筹码跟踪数据的价值。

工业发动机和设备:传感器数据的价值。

视频游戏:遥测数据的价值。

电信业与其他行业:社交网络数据的价值。

 

3.1 汽车保险业:车载信息服务数据的价值

车载信息服务在汽车保险行业中的关注度非常高。车载信息服务是通过汽车内置的传感器和黑盒来收集和掌握车辆的相关信息。我们可以配置不同的方案,使用黑盒来监测所有的汽车数据。我们可以监测车速、行驶里程,以及汽车是否安装了紧急制动系统。车载信息服务数据能够帮助保险公司更好地理解客户的风险等级,并设置合理的保险费率。如果彻底地忽略隐私问题,车载信息服务装置可以跟踪到汽车去过的所有地点、何时到达的、以多快的速度、使用了汽车的哪些功能等。

车载信息服务可以潜在地降低司机的保险费率,并提升保险公司的收益。它是怎样做到在降低费率的同时提升收益呢?答案就在于保险公司要根据风险评估来进行保险定价。传统的风险评估方法使用的是年龄、人口统计特征以及个人意外伤害历史这类数据,它们只能提供高层次的概要信息。对于驾驶记录没有任何问题的车主,传统方法根本没办法把他们和附近的其他人区分开。

保险公司要未雨绸缪,并做好最坏的打算。它们要弄清楚哪些人放在哪个风险范围上是最安全的,一般情况下,它们会先假定这些人的风险是位于该风险范围较高的一端。汽车保险公司对车主的行为习惯和实际风险了解得越详细,风险范围就会越窄,同时认定范围内出现需要提升费率的最坏情况的可能性就会比较小。这就是为什么可以同时降低保险费率和提升收益的原因。如果保险公司认为投保个体的风险较好,那么保险公司将可以更好地了解每个人的风险状况,预计必须支出的保费就不会发生太大变化。

全球很多国家的保险公司都在使用车载信息服务,而且数量越来越多。早期项目的注意力放在从汽车上收集最少的信息,例如,它们并不关心汽车去过什么地方。早期项目跟踪的是汽车开了多远、什么时候开的车、是否超速和是否使用了大量的紧急制动。这些信息都是非常基本的信息,不牵涉到个人隐私,是故意设计成这样的。因为避免了收集高度敏感的信息,所以才会被广泛地接受。这个道理也同样适用于商业车队。如果保险公司了解到公司车队更多的用车情况,那么它为公司车队确定保险费率也就更容易。

车载信息服务数据最初是作为一种工具出现的,它可以帮助车主和公司获得更好的、更有效的车辆保险。再过一段时间,等到许多交通工具都安装了车载信息服务装置后,那时保险业以外的行业也可以使用车载信息服务数据了。现在,公共汽车已经有了车载计算机管理系统,但是车载信息服务设备可以将其提升到一个新的层次。车载信息服务数据还有一些有趣的应用,我们来看一下这些应用。

使用车载信息服务数据

如果车载信息服务真的开始大规模应用,一定会出现许多令人兴奋的分析应用。想象一下,以后全国有数以千万计的汽车都安装了车载信息服务装置,那时候第三方研究公司会以匿名的方式为客户收集非常详细的车载通信数据。与为保险收集的有限数据不同,这时数据收集是以分钟或秒为频率,且收集内容包括但不限于速度、位置、方向和其他有用的信息。

无论交通是否阻塞,无论什么日期,这种数据反馈方式都会提供大量的车载通信信息。研究人员可以知道每辆车在道路上的行驶速度,他们还可以知道车流开始的时间、结束的时间,以及持续的时间。这种真实的交通流信息视图将会多么令人惊讶!试想这会对交通阻塞和道路系统规划的研究产生多么大的影响!

无心插柳柳成阴

车载信息服务数据的多种用途只是一个例子,它说明了可以用最初预见不到的方式来使用大数据。对于某种特定的数据源,我们最后发现它最有效的用途可能与其创建之初的用途大相径庭。面对我们碰到的每一类大数据源,我们要开拓思路,多想想常规之外的其他用途。

如果研究人员能够掌握大量汽车在每一个高峰时段、每一天、每个城市中的动向,他们就能非常清晰地判断出车流产生的前因后果。此外,还能查明下述问题的答案。

一个在路中央的轮胎会对交通产生什么影响?

左侧车道堵车会发生什么?

如果路口的交通灯不同步,会产生何种结果?

哪些十字路口虽然按照预期设定方式工作,但通行时间的设计仍然不合理?

如果某条道路堵塞,堵塞会以多快的速度蔓延到其他道路?

即使我们集中精力投入到昂贵的测试中,现在要想有效地研究诸如此类的问题也几乎是不可能的。除非我们安排人手来实际地监测每一条道路,记录下所有的信息,只有这样我们才能解决交通堵塞的问题。或者,我们可以安装大量的传感器来监测过往的车辆,还可以安装视频摄像头,但这些选择因为成本问题被严重限制了推广。

交通道路工程师做梦都想得到我们所讲的车载通信信息。如果车载通信装置变得随处可见,那任何交通拥堵的地方都能被发现。城市道路和交通管理系统的革新,以及城市道路建设规划,都将惠及普通大众。车载通信刚开始出现时是为了满足保险定价的需求,但有了它还可以缓解交通压力和驾驶员堵车时焦急等待的心情,它的存在终将使高速公路的管理模式发生革命性的改变。

 

3.2 多个行业:文本数据的价值

文本是最大的也是最常见的大数据源之一。想想我们周围有多少文本信息的存在,电子邮件、短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。文本数据是现在结构化程度最低的,也是最大的大数据源。幸运的是,我们在驾驭文本数据、利用文本数据来更好地做商业决策方面已经做了很多工作。

文本分析一般会从解析文本开始,然后将各种单词、短语以及包含文本的部分赋予语义。我们可以通过简单的词频统计,或更复杂的操作来进行文本分析。自然语言处理中已经有很多诸如此类的分析了,这里我们就不再赘述。文本挖掘工具是主流分析套件中一个不可或缺的组成部分。此外,我们还能找到许多独立的文本挖掘工具包。其中一些文本分析工具使用基于规则的方法,用户需要调整软件才能找到自己感兴趣的模式。另一些工具则使用机器学习和其他算法自动地发现数据模式。每种方法都各有利弊,其相关论述已经超出了本书的范围。我们关心的是如何使用生成的结果,而不是使用工具产生结果的过程。

做完文本解析和分类以后,我们就可以分析这些过程所产生的结果了。文本挖掘过程的输出结果通常是其他分析流程的输入。例如,如果能够分析出客户使用电子邮件的情感,就能利用一个变量将客户的情感标记为正面情感或负面情感。这种标记本身是一种结构化的数据,可以作为分析流程的输入。使用非结构化的文本创建结构化的数据,这个过程通常称为信息提取。

另一个例子是,假定我们能够在客户与公司往来的邮件中识别出他们对公司某些产品的评价,我们就能利用一系列变量来标识客户的产品评价。这些变量本身也是结构化的度量指标,可以用来做分析。上述这些例子解释了如何捕获非结构化数据片段,并从中提取出相关的结构化数据。

从非结构化文本中提取结构数据

文本分析的例子很好地说明了该过程:获取非结构化数据,然后处理该数据,最后创建出可以用于分析和报表过程的结构化数据。驾驭大数据的一个重要部分是,利用这种创造性的方式将非结构化数据和半结构化数据变成可用于分析的数据。

解释文本数据实际上是相当困难的。强调的词汇和语境不同,同一个单词表达出来的意思就不同。面对纯文本,我们根本不知道重点在哪里,也不知道整个语境。这说明我们得事先进行一些假设,我们会在第 6 章中更详细地讨论这个问题。

文本分析既是一门艺术,也是一门科学,总会存在一定的不确定性。文本分析往往会有分类错误和含义模糊的问题。没错,如果我们在文本集合中发现了更好的决策支持模式,那就应该使用它。文本分析的目标是改进你的决策,但并不是令你的决策变得完美。文本数据可以有效地提升决策效果,它能提供比没有它时更好的结果,即使数据有噪声或含义模糊时,这一点也成立。

使用文本数据

一种目前很流行的文本分析应用是所谓的情感分析。情感分析是从大量人群中挖掘出总体观点,并提供市场对某个公司的评论、看法和感受等相关信息。情感分析通常使用社会化媒体网站的数据。以下是情感分析的几个例子。

公司或产品的口碑怎么样?

大家正在讨论的是公司的哪些活动?

大家对公司、产品和服务的评价是好是坏?

如前所述,文本分析的难点在于词汇和语境是相关的。我们要考虑到这个问题,但大量的评价会让客户情感的倾向变得明确。如果我们可以解读出人们在社交媒体上所说内容、与客服互动信息的趋势,这会对规划下一步的工作有很大的价值。

如果公司可以掌握每一个客户的情感信息,就能了解客户的意图和态度。与使用网络数据推断客户意图的方法类似,了解客户对某种产品的总体情感是正面情感还是负面情感也是很有价值的信息。如果这名客户此时还没有购买该产品,那价值就更大了。情感分析提供的信息可以让我们知道要说服这名客户购买该产品的难易程度。

文本数据的另一个用途是模式识别。我们对客户的投诉、维修记录和其他的评价进行排序,期望在问题变大之前,能够更快地识别和修正问题。产品首次发布,然后开始出现投诉,文本分析可以识别出客户在哪些方面存在问题。我们甚至可以做到在客服电话接二连三打进来之前,先把问题识别出来。这样我们就能更快地、更积极地做出响应。公司可以及时地做出反应,解决产品未来发行版本中同样的问题,也能主动与客户进行接触,缓解他们当下遇到困难时的焦躁情绪。

欺诈检测也是文本数据的重要应用之一。在健康险或伤残保险的投诉事件中,使用文本分析技术可以解析出客户的评论和理由。文本分析可以将欺诈模式识别出来,标记出风险的高低。面对高风险的投诉,需要更仔细地检查。另一方面,投诉在某种程度上还能自动地执行。如果系统发现了投诉模式、词汇和短语没有问题,就可以认定这些投诉是低风险的,并可以加速处理,同时将更多的资源投入高风险的投诉中。

法律事务也会从文本分析中受益。按照惯例,任何法律案件在上诉前都会索取相应的电子邮件和其他通信历史记录。这些通信文本会被批量地检查,识别出与本案相关的那些语句。例如,哪些电子邮件中有隐藏的内幕消息?哪些人在和别人交流时说的是假话?威胁背后的实质是什么?

在法律案件中应用文本分析的做法称为电子侦察。所有预先进行的分析将帮助起诉获得成功。不使用文本分析,仅通过人工的方式将无法浏览所有的所需文档。即使我们可以做到人工浏览那些文档,但因为任务本身过于单调枯燥,我们很可能会漏掉其中的一些关键信息。

文本数据可能会对所有的行业都产生影响。它可能是如今使用最广泛的一类大数据。对企业来讲,掌握如何收集、解析和分析文本是很重要的。文本是我们必须驾驭的一种大数据源。

 

3.3 多个行业:时间数据与位置数据的价值

随着全球定位系统(GPS)、个人GPS设备、手机的出现,时间和位置的信息一直在增加。从Foursquare 到Google Places,再到Facebook Places,它们提供了大量的服务与应用,可以记录每个人在某个时间点的位置。手机应用程序可以记录我们的位置和移动的轨迹。即使手机没有正式开启 GPS,我们还是可以使用基站信号来获得相当准确的位置信息。

消费者应用程序中有一些新颖的使用这些信息的方法,这些方法可以捕捉到消费者允许其捕获的信息。例如,有一些应用使我们可以追踪锻炼中行进的路线,路线的长度,以及走完该路线所需要的时间。事实上,如果携带了手机,我们就能记录去过的每一个地方。我们还可以选择把数据公开给他人。当更多的人向公众公开了自己的时间和位置数据,就会出现一些非常有趣的事情。

许多公司已经开始意识到掌握客户的时间与位置数据的威力,它们开始尝试从客户那里收集这类信息。当然,这类信息必须建立在筛选的基础上,并且必须制定明确的隐私政策,并严格地遵守这些政策。许多公司推出了令人难以抗拒的位置价值服务,吸引用户把时间和位置信息开放给它们。

我们并非只想了解消费者的时间和位置信息。卡车车队的领导也想掌握每辆卡车在某个时间点的位置,比萨店肯定想知道每名外送人员某个时间在什么地方,养宠物的人肯定想知道宠物在外面的什么地方,大型宴会中组织人员需要知道侍者四处走动的效率和响应顾客的速度。

从收集个人、资产的时间和位置数据开始,企业可以快速地进入大数据领域。如果这些信息能够频繁地更新就更好了。知道每辆卡车每天早晚的位置是一回事儿,知道每辆卡车每秒钟在哪儿就是另外一回事儿了。时间和位置数据被采用、应用的程度将越来越高,其造成的影响也将越来越大。

使用时间和位置数据

时间和位置数据是对隐私最敏感的一类大数据。我们面对的不仅有隐私问题,还有道德和伦理问题。我们是否要在孩子们的胳膊上安装芯片,以便当他们迷路时可以追踪到他们?老年痴呆患者离家出走或者擅自离开护理机构时我们应该怎么做?当然,时间和位置数据被滥用的可能性会相当高。但从好的方面想,它们被合理使用的可能性同样也会很高。下面我们来看一些例子。

可能很快人们就会在警察局和消防部门注册,并提供自己日常会去哪些地方的信息。这样,如果遇到洪水、火灾或封路这类大事件,人们会收到警察局和消防部门发送的警告信息,告诉他们即将路过的地方有情况,提醒他们绕道。如果人们可以主动避开是非之地,就能使交通中断的时间降到最低,这样每个人的时间都能节省下来。最后,在得到你的许可后,当地政府甚至可以接收你的实时位置信息。

一种初露端倪的数据使用方法是开发对时间和位置信息敏感的消息通知,这个市场的未来空间很大。通知不再局限于当天或本周,而是根据客户的时间和位置信息提供最适合的消息通知。现在的做法一般是由客户签到并告知他们的位置,这样他们就能接收到通知信息了。公司能够持续地跟踪到客户的动向,以做出相应的反应。

例如,可能用户会告诉你,他要在5:30分离开办公室回家,大约5:45到6:00之间会开车通过5号出口。他要找地方吃饭,并且想了解你的商店或餐馆那个时间有什么食物。你需要在那个时间那个地点提供匹配他的需求的可口饭菜。第二天早上才通过电子邮件告诉他相关的信息显然已经太迟了,我们要的是当他通过那个地方的那一刻就主动推送给他通知信息。

按照地点和时间主动推送通知信息

营销领域渐渐显露出来的一个趋势是,只对刚好处在某个时间段和某个地点的客户才针对性地推送通知信息。与根据大范围的时间和地点发送的通知相比,这种通知的效果更好,针对性更强。早期采用这种做法的企业已经取得了令人吃惊的效果。

当然管理这种通知的复杂性要高不少,因为我们要做的不只是跟踪每个人当周的服务推荐这么简单。我们需要关心的是每个用户每时每刻在什么地方,我们在这个时间点为他们推荐什么东西最合适。根据时间和位置推送通知确实大大地增加了复杂性,并且变得难以管理。但我们相信假以时日,如果我们做得不错,这种方式的转化率应该会远远超过传统的个性化推荐。历史经验反复地告诉我们,如果通知信息越精准,转化率就会越高。

使用此类数据的另一种模式是增强型社交网络分析。无线运营公司可以根据语音和文本交流信息识别出用户间的关系,借助时间和位置数据可以识别出哪些人在同一时间出现在了同一个地方。例如,哪些人在听音乐会或看电影?哪些人要去观看某一场体育比赛?哪些人在同一时间同一餐馆就餐?

如果能识别出哪些人大约在同一时间同一地点出现,就能识别出有哪些彼此不认识或者在同一个社交圈子里的人,但是他们都有着很多共同的爱好。想象一下,如果婚介服务能用这样的信息帮助我们找到自己的另一半那该有多好!我们可以鼓励人们建立联系,给他们提供符合个人身份或团体身份的产品推荐。

时间和位置数据不仅可以帮助我们理解客户的历史模式,还可以准确地预测客户未来会出现在什么地方。对于有固定习惯的客户尤其如此。如果我们知道某个人会在哪里出现,要往哪里去,我们就能预测出他们10分钟或1小时以后会出现在哪里。如果我们知道客户以前在同一条路上去过哪里,我们就能更准确地做出他现在要去往何处的预测。我们最差也能大大地减少列表上的候选路线,这样就能支持更精准的营销。

未来几年间,时间和位置数据的应用会经历爆炸性的增长,面向消费者的选择流程和激励措施终将成熟。现在我们要小心行事,并在我们使用这些信息之前,获得用户的许可。使用时间和位置数据的消息通知将会更有针对性、更个性化。在不远的将来,如果通知信息不是根据时间和位置推送的,也许会被认为很土。

 

3.4 零售制造业:RFID数据的价值

无线射频标签,即RFID标签,是安装在装运托盘或产品外包装上的一种微型标签。RFID标签上有一个唯一的序列号,这个序列号与UPC类似的通用产品标识码不同。换言之,RFID标签不仅能够识别出托盘上装的是Model 123 电脑,还能识别出托盘上装运的是独一无二的、特定的一套Model 123 电脑。

RFID读卡器发出信号,RFID标签返回响应信息。如果多个标签都在读卡器读取范围内,它们同样会对同一查询做出响应,这样辨识大量物品就会变得比较容易。即使当这些东西堆叠在一起或者放到了墙后面,只要信号可以穿透,我们就能得到响应信息。有了RFID标签,我们就不再需要人工记录和盘点每个商品,这样清点商品的时间就会缩短。

多数用于高价值应用外的RFID标签都是被动式的无源标签,意味着这些标签是没有内置电池的。读卡器的无线电波产生磁场,该磁场给标签提供了足够的能量,使得标签可以将内置信息发送出去。RFID技术已经出现很长时间了,但成本问题限制了该应用的进一步推广。今天,无源标签的成本只有几美分,而且价格还在不断下跌。随着价格的不断下跌,实际应用情况将会出现持续增长。现在的RFID技术还有一些问题,例如,液体会屏蔽标签的信号。随着时间的推移,这些技术问题都将会得到有效的解决。

有些RFID应用很多人都曾经接触过,其中之一就是自动收费标签。有了它,司机通过高速公路收费站的时候就不需要再停车了。它的工作原理是,交通管理局在所发的卡中植入了RFID标签,同时高速公路上安装了读卡器;当汽车开过时,标签会把汽车数据传到读卡器,这样我们开车通过收费站就被记录下来了。

RFID数据的另一个重要应用是资产跟踪。例如,一家公司想把其拥有的每一个PC、桌椅、电视等资产都贴上标签。这些标签可以很好地帮助我们进行库存跟踪。跟踪这些物品。如果物品移出指定区域,它们就会发送警告信息。例如,我们可以把读卡器放在出口处,如果公司资产在没有被事先批准的情况下出门,警报很快就会响起来,这样就能起到安全警示的作用了。这种做法类似于零售商店里的物品标签,如果标签变为无效,警报就会被拉响。

RFID最大的应用之一是制造业的托盘跟踪和零售业的物品跟踪。例如,制造商发往零售商的每一个托盘上都有标签,这样可以很方便地记录哪些货物在某个配送中心或者商店。最终,商店中价格很低的商品也可以配备RFID芯片,或者使用一种类似的新技术。现在我们已经明白了RFID数据是什么,下面我们来看一看RFID数据可以从哪些方面来改善当前的商业模式。

使用无线射频标签数据

RFID的一种增值应用是识别零售商货架上有没有相应的商品。如果读卡器能够连续不断地确定货架上每种商品的存量,当需要重新配货的时候,我们就能得到准确的信息。使用RFID可以更好地跟踪货架的供应状况,因为商品脱销和有商品可供应的状态是完全不同的。一种可能的情况是,商店货架上没有该商品了,但后面储藏室里还有5件该商品。

在这种情况下,任何传统的商品脱销分析都会显示货架上现在仍有存货,因此不需要担心。当销售业绩开始下滑时,人们才会发现问题所在。如果有RFID标签,就可以跟踪到储藏室中还有5件该商品,但货架上却没有该商品了。这样,我们只需要简单地从储藏室把商品搬到货架上就能解决问题。这个例子在成本和技术上有一些挑战,但现在大家正在努力克服这些困难。

RFID还能很好地帮助我们跟踪促销展示影响的效果。通常在促销过程中,商品要摆在商店的许多地点进行展示。从传统的 POS 数据中,我们可以知道促销商品的销量,但我们不知道销售来自于哪个展示点。通过RFID标签我们可以识别出商品是从哪个展示点销售出去的,这样我们就能评估不同的地点对销售效果的影响。

RFID如果和其他数据结合起来,就能发挥更大的威力。如果公司可以收集配送中心里的温度数据,当出现掉电或者其他极端事件时,我们就能跟踪到商品的损坏程度。也许仓库某一区域在停电期间的温度高达90摄氏度,且时间长达90分钟。有了RFID,我们就能准确地知道在那个时刻哪些托盘位于配送中心的那个区域内,然后我们就能采取相应的行动。仓库数据还可以和装运数据匹配起来,如果商品发生了损坏,公司可以有针对性地召回商品,并通知零售商当商品抵达时再次对商品进行开箱检查。

组合显神通

就像许多其他大数据源一样,RFID数据本身并不能发挥所有的威力。当与其他数据组合起来使用时,它们就能发挥作用。大数据战略的目标是把大数据和其他数据整合到同一个处理流程中,这一点再怎么强调也不为过。使用大数据并不是一个孤立的工作。

RFID还有一些操作型应用。有些配送中心商品管理不严格,导致商品损坏程度很高。对于某些团队,甚至某些工人来说确实如此。人力资源(HR)系统会报告谁在任意时间点上工作。当RFID数据和这类数据组合起来,就能显示出商品何时被移动了,还能识别出损坏、损耗、偷窃商品概率更高的员工。数据的组合使用,使我们能够采取更强大、质量更高的行动。

RFID有一种非常有趣的未来应用是跟踪商店购物活动,就像跟踪Web购物行为一样。如果RFID读卡器植入购物车中,我们就能准确地知道哪些客户把什么东西放进了购物车,也能准确地知道他们的放入顺序。即使并非每种物品都配有标签,我们仍然可以识别出购物车经过的道路。通过在店面中使用RFID,第2章讨论的Web数据所能带来的诸多好处都将变成现实。最后两个例子必须考虑隐私问题,因为也许顾客根本不想让他们的购物行为被跟踪。我们可以采用“匿名”购物的方法,不对产生数据的人进行方位识别。

RFID的最后一种应用是识别欺诈犯罪活动,归还偷盗物品。如果物品贴有RFID 标签,零售商可以通过标签的 ID 进行识别,确定返还物品是否属于偷走的同一批产品,并采取适当的行动。事实上,关键在于RFID的ID可以作为收据的一部分,辅助返还流程。零售商知道购买商品上贴的是哪个RFID标签,而不是像平常那样只知道你购买了某种商品。当我们来到退货台,要把贴有那个标签的商品退还。我们肯定不能从货架上拿下来另外一个一模一样的商品,假装跟收据一起返还。以这种方式来使用RFID,欺诈将会变得无比困难。

未来几年RFID有可能会对制造业和零售业产生巨大的影响。与许多人的期望不同,RFID的接受速度要慢一些。但RFID标签价格在持续下跌,标签和读卡器的质量却在不断上升,从经济的角度考虑,RFID的应用将会更加广泛。

 

3.5 电力行业:智能电网数据的价值

智能电网是下一代电力基础设施。与我们周围经常见到的高压电传输相比,智能电网更先进更可靠。智能电网有非常复杂的监控、通信和发电系统,可以提供稳定如一的服务,如果出现停电和其他问题,可以更好更快地恢复。各类传感器和监控设备记录了电网本身和流经电流的许多信息。

智能电网中的一个环节是我们经常提到的智能电表。智能电表是一种传统电表的替代品。从外观上看,智能电表和我们一直使用的电表没有什么不同,但智能电表的功能更强大。以前抄表人员都是每隔几周或几个月就挨家挨户地抄电表,而智能电表可以每隔15分钟到1小时从每一个家庭或企业自动地收集数据,甚至可以跨区或者跨电网收集数据。

虽然我们这里关注的是智能电表,但在智能电网中大量使用的传感器也值得一提。这些遍布智能电网但我们却看不到的传感器,它们收集到的数据从规模上使智能电表数据相形见绌。传感器每秒要从发电系统读取60次同步向量测量值,与记录家用电器开关状态的家庭网络一样,它们都是大数据的例子。普通人并不知道这些传感器的存在,但它们对电网来说十分重要。传感器要读取所有的电流数据和智能电网的设备状态,数据量非常非常大。

智能电网技术已经在欧洲和美洲的某些地方开始使用了。我们相信在不久的将来,世界上每一处电网都会被智能电网取代。电力公司因为使用了智能电网,它们所掌握的耗电数据量会以指数级增长。这类数据要怎样使用?下面我们来看一下。

使用智能电网数据

从用电管理的角度来看,智能电表数据可以帮助人们更好地理解电网中客户的需求层次。此外,这些数据也可以使消费者受益。例如业主可以选择把待测试的电器打开,与此同时保持其他电器的稳定,这时从智能电表处可以监控到详细的电力消耗情况,这样我们就可以明确地测量出各种电器究竟消耗了多少电量。

世界各国的电力公司现在都已经在积极地转向这样的定价模型,即按时间或需求量的变化来定价,智能电网的出现加速了这种趋势。电力公司的主要目标之一是利用新的定价程序来影响客户行为,减少高峰时段的用电量。为了应对用电高峰需要另建发电站,需要一大笔钱而且还会对环境造成很大的影响。如果用电成本可以灵活地根据时间来设定,并由智能电表来测量,我们就可以促使客户改变他们的用电行为。较低的峰值和较为平稳的用电需求等同于更少的对新基础设施的需求和更低的成本。

当然电力公司通过智能电表提供的数据还能识别出其他的各类趋势。哪些地方的用电量有所回落?哪些消费者每天或每周的用电需求比较相同?电力公司可以根据使用模式对客户进行分类,可以选择针对某些特定的群体开发产品和活动。使用这些数据我们还可以识别模式出现异常的那些地方,它们揭示了需要解决的问题。

实际上,电力公司有能力执行其他行业已经使用多年的客户分析工作。例如,电话公司知道我们月底的所有账单,但并不知道我们具体的通话。零售商店只知道整体销售状况,而不知道任何购买的细节信息。一家金融机构知道我们的月终余额,但并不了解我们这个月的资金流动状况。从很多方面讲,电力公司面对的这类数据对于理解客户而言仍略显不足。它们也有简单的月终汇总数据,但这种月结数据往往是估计值而不是实际的耗电量。

大数据可以改变一个行业

有时候,大数据真的可以改变一个行业,可以把分析应用提升到一个全新的高度。电力行业使用的智能电网数据就是一个这样的例子。不再受每月一次抄表的限制,耗电信息会以秒钟或分钟为间隔被测量。遍布电网的精巧传感器,使数据的使用变得与以往完全不同。以此开展的数据分析会在费率套餐、用电管理等诸多方面产生很多创新。

有了智能电表数据,我们就可以进行全新的分析,使大众全都受益。消费者可以根据自己的使用模式定制费率套餐,就像车载信息服务支持个性化的汽车保险费率那样。高峰时段用电客户比非高峰时段用电客户的收费要高。面对这样的刺激政策,我们会改变自己的用电模式,可能我们会在下午晚些时候再使用洗碗机而不是吃完午饭就马上使用。

电力公司也会有更准确的需求预测,它们能更清晰地识别出需求来自于哪些地方。它们还能了解某一类客户在某个时间的用电需求。电力公司可以使用不同的方法来驱动各种行为,使需求更加平稳,并降低异常需求峰值出现的频率。所有这些都会使对昂贵的新发电设备的需求受到抑制。

每一个家庭、每一个行业都能感受到智能电表数据产生的威力,这些数据能够让我们更好地跟踪、更积极地管理用电情况。我们不仅能节约用电,也能使这个世界更加低碳,还可以帮助大家省钱。如果我们能清楚地知道自己的耗电量比预期要多,我们肯定就会根据需要做出适当的调整。如果只使用每月账单,我们将无法识别出这种机会。但是,智能电表数据将使这一切变得简单。

 

3.6 博彩业:筹码跟踪数据的价值

前面我们已经讨论了RFID技术是如何应用在零售业和制造业的。RFID技术的用途实际上更广泛,许多应用都会产生大数据。RFID标签的另外一种应用是贴在赌场用的筹码上面。每一个筹码,特别是高价值的筹码都有自己的内置标签,这样赌场就可以通过标签的串行编号实现唯一的识别。

赌场里用的老虎机已经被跟踪了许多年。一旦我们在老虎机上刷了经常使用的玩家卡或者信用卡,那我们每次搬动手柄按下按键的动作就会被跟踪。当然你的赌注和你赢的钱也会被跟踪。虽然老虎机模式的分析历史悠久,但赌场仍然没有从桌面游戏中捕捉到足够多的细节。现在这个过程正在发生变化,标签已经开始被植入游戏筹码。

以前赌场会用功能强大的安全摄像头网络跟踪筹码,地勤人员的工作是保证筹码上下左右的移动是合理的。赌台经理要寻找常客,估算他们的平均投注和玩的时间,并给这种常客奖励。虽然赌台经理精于此道,同时还能获得其他人员的帮助,但游戏奖励多多少少总会不够准确。如果被监视的玩家碰巧比平常投注多那么一点或少那么一点,就会发生这种不准确的情况。有些玩家如果认为他们自己正在被监视,他们会利用系统规则增加投注来牟利。

同类技术可以驱动多种大数据流

零售商和制造商都使用了RFID技术。博彩行业也是如此。它们使用RFID的方法有许多不同之处,但也有许多相似之处。最有趣的是,一种技术可以在不同的行业使用,形成各个行业独特的大数据源。

筹码跟踪是一种特殊的RFID应用,除了这个例子外,RFID还有很多其他的应用。这个例子说明了一些底层相同的技术可以支持不同的大数据流,这些大数据流本质相同,但范围和应用却完全不同。让我们兴奋的是,这种基础技术有着完全不同的用处,产生了多种行业里形式各异的大数据。

使用筹码跟踪数据

使用筹码标签的一个明显优点是可以准确地跟踪每位玩家下的赌注。标签可以保证玩家在经常性的玩家活动中赚到所有的积分,不会多也不会少。这就给玩家和赌场同时带来了好处。对于赌场而言,资源可以更准确地配置给正确的玩家,过度奖励错误的玩家和过少奖励正确的玩家都会导致有限营销资源的非最优分配,而玩家当然希望他们的积分永远准确无误。

有了玩家的赌注数据,赌场就可以更好地对玩家进行分类,以理解投注模式。谁会每次先下注5美元,但几乎每隔一段时间就把投注升到100美元呢?谁会每次下注 10 美元?可以根据这些模式对玩家进行分类。投注模式还能揭示 21 点博彩游戏中谁在算牌,因为如果玩家使用算牌技巧的话,某种赌注模式就会凸显出来。

赌场使用筹码跟踪技术,玩家想要主动欺骗赌场将会变得更困难,甚至连庄家想犯错都比较困难。因为筹码的投注和分红都可以被跟踪到,我们可以很容易地回过头来对比视频,检查21点某一次出牌或者分红的结果。即使胳膊和头挡住了我们的视线,看不清楚拿起来或者放下去的筹码,但RFID数据依然可以提供细节信息。赌场可以识别发生的错误或者欺诈。譬如说当庄家往另一个方向看的时候,玩家放下了一笔筹码。

时段分析可以识别出庄家或玩家犯下异常错误的数目。它可以帮助我们处理欺诈活动,或者对犯下大量简单错误的庄家进行额外培训。筹码计算错误也会因之而下降,统计大量各种面额的筹码是非常单调的工作,人们往往会在这个过程中犯错,RFID支持更快更准确的计算。

将前面这个例子讲得更深入一点儿,对小偷来说,跟踪每个筹码的举措具有相当强的威慑作用。如果一摞筹码被偷走了,那些筹码的标识就会被标记成“已被偷”。如果有人进来兑换这些筹码,甚至拿着这些筹码坐到桌子旁边,系统就会注意到,并拉响安全警报。如果小偷偷走或者更换了这些筹码,那标签就不能被读取。赌场清楚筹码的ID,它们希望所有的筹码都报告一个合法的ID。如果某个筹码没有报告ID,或者报告的ID不合法,那它们就会采取措施。

就像其他行业一样,赌场对欺诈行为阻止得越多,分红就会越合理,风险也就会越低。因为费用支出比较少,这样我们就有能力给玩家提供更好的服务和投注赔率。对于赌场和玩家而言,这是双赢。

 

3.7 工业发动机和设备:传感器数据的价值

世界各地安装了许多复杂的机器和发动机,例如,飞机、火车、军车、建筑设备、钻孔设备等。因为造价昂贵,保持这些设备的稳定运转是非常重要的。近些年来,从飞机发动机到坦克等各种机器上也开始使用嵌入式传感器,目标是以秒或毫秒为单位来监控设备的状态。

监测工作可以做得相当细,特别是在测试和开发过程中。例如,当新的发动机开发出来,就得依靠获取到的足够多的细节信息,来检查发动机是否可以按照预期设定的方式工作。一旦新发动机进入市场,再想更换有缺陷的部件的花费会相当高,因此我们需要事先详细地进行性能分析。监测是一项不断持续的活动。也许我们并不需要持续收集每一毫秒的细节信息,但如果能够收集到大量的细节信息,我们就可以评估该设备的生命周期,识别出重复出现的问题。

例如,发动机传感器可以收集到从温度到每分钟转数、燃料摄入率再到油压级别等信息,而数据可以根据预先设定的频率获取。当读数频率、读取指标数量和监控项目数量增加时,数据量会迅速增加。为什么我们要关心这一点?下面我们来看一些例子。

使用传感器数据

发动机的结构很复杂,有很多移动部件,必须在高温下运转,会经历各种各样的运转状况。因为它们的成本太高,所以期望寿命越长越好。因此,稳定的、可预测的性能就变得异常重要,因为机器的寿命依赖于此。例如,对故障飞机进行保养维修会花掉航空公司或者空军部队一笔不小的钱,但这种事情我们还必须做,因为我们要识别出飞机是否存在安全隐患。因此,飞机或者飞机发动机以及其他设备的停机时间一定要降到最低,航空公司或者空军部队对此都有非常迫切的需求。

停机时间最小化策略包括准备备件或后备发动机快速割接时需要维修的设备、从诊断结果中快速识别需要更换的部件、针对问题部件投资开发更可靠的新版本。要想有效实施这3种策略,必须得有数据。我们要用数据生成诊断算法,或者用数据作为输入来诊断某个特定的问题。工程部门可以使用传感器数据准确地定位问题的原因,设计新的措施支持更长、更可靠的操作。不管发动机是飞机的,还是船只的,或者是陆地设备的,这些考虑因素都适用。

通过提取和分析详细的发动机运转数据,我们可以精确地定位那些会导致立即失效的某些模式。然后我们就能识别出会降低发动机寿命的时间分段模式以及更加频繁的维修。多个变量的排列组合数目,特别是一段时间内的排列组合数目,使得这类数据分析活动变成了一项挑战。这个过程不仅会涉及大数据,就连随之开发出来的分析也会变得异常复杂和困难。以下是我们可以研究的一些问题。

压力骤然下降是否表示一定就会出问题?

温度在几小时内持续下降是否意味着还有其他问题?

振动水平异常是否意味着有问题?

发动机启动时的飞速转动是否让某些部件的性能严重受损,而且还会增加维修的次数?

几个月内油压一直比较低,是否会使发动机的某些部件受损?

结构化数据内缺少结构性

传感器数据给我们带来了一个非常艰巨的挑战。虽然我们收集到的数据是结构化的,独立的数据元素也很好理解,但元素之间的时间关系和模式却根本无法理解。延时和无法测量的外部因素增加了问题的复杂性。如果要考虑所有的信息,识别各种数据长期的作用效果,这个过程会异常复杂。拥有结构化数据并不一定能够保证分析方法就是高度结构化和标准化的。

在出现严重问题的时候,先回头去检查当时发生了什么,一直检查到问题自己露出马脚,这种做法会非常奏效。传感器的作用类似于依靠飞机黑匣子的帮助诊断失事原因。发动机传感器数据可以用于诊断活动和研究行为。从概念上讲,相对于先前我们讲到的汽车保险案例中的信息服务设备,我们这里讨论的传感器是一种更复杂的形式。传感器不断感知周围环境并获得数据信息,这是大数据世界中反复讨论的一个主题。虽然我们这里讨论的是发动机,但传感器还有数不清的各类用途,这里讨论的原则也同样适用。

如果大量传感器都长时间重复着传感器数据收集流程,那会产生大量丰富的分析数据。只要好好地分析这些数据,就能发现设备的缺陷,就有机会主动修复这些问题。我们还可以把设备中的弱点先行识别出来。随后,我们可以制定好流程,缓解这些发现带来的问题。这些措施带来的收益不只是安全级别的提升,还会让我们的成本下降。使用传感器数据,发动机和设备都会更加安全,能够提供服务的时间就会比较长,这样运营会比较平稳,成本也会比较低。这是一种通赢的做法。

 

3.8 视频游戏:遥测数据的价值

遥测数据是视频游戏产业的一个术语,用来描述捕捉游戏活动的状况。其概念与我们在第 2 章所讲的网络大数据无异,这是因为遥测数据收集的是玩家在游戏中的活动情况。遥测数据的收集对象多数情况是在线游戏而非掌上游戏。

在曲棍球比赛中,遥测数据收集的是运动员在击球进门时,何时进的球,用的哪种击球方法,球速多少。在战争游戏中,遥测数据收集的是用哪种枪械开的火,在哪里开的火,向哪个方向开的火,枪械对各种东西的破坏程度。从理论上讲,相关场景和活动的所有细节都能够被收集到。

视频游戏制造商从中不仅可以很容易地了解到有多少客户购买了游戏软件,还能知道游戏被玩了多少个小时。使用遥测数据,游戏制造商可以了解到客户的私人信息,他们实际的玩法,他们是如何与自己创建的游戏进行交互的。我们收集到的游戏数据可能会很大,但视频游戏行业已经开始积极地分析这些数据了。遥测数据对很多领域都产生了影响。从遥测数据的优势和用途来看,很容易发现它和网络数据之间的相似性。下面我们来看一些例子。

使用遥测数据

许多游戏都通过订阅模式挣钱,因此维持刷新率对这些游戏就会非常重要。通过挖掘玩家的游戏模式,我们就可以了解到哪些游戏行为是与刷新率相关的,哪些是无关的。例如,也许在体育游戏比赛时,使用某些辅助功能会大大提升刷新率。游戏制造商会采取措施来吸引玩家尝试比赛,以诱使他们使用以前不曾使用过的功能。

遥测数据只会越来越大

现在,遥测数据捕捉的对象大多是控制手柄或键盘行为。随着交互式游戏的发展,它们可以做到跟踪玩家的动作,而不是依赖于控制手柄,数据量也会因此激增。了解玩家在什么时间按下了什么按钮,这类数据量要比了解他身体上的某个部位在某个时刻的空间位置以及移动方向和速度小得多。

比较新的游戏往往喜欢让玩家花一点小钱在游戏过程中购买物品,这就是所谓的微交易(microtransaction)。例如,一种特殊的武器只卖10美分。我们可以对游戏进行分析,识别出在哪些地方这类微交易的成功率会比较高。也许游戏中的某个地点提供一种非常顺手的武器,这种武器会引起玩家的疯抢。我们可以使用屏幕的快速提示来告诉玩家现在有武器可以购买,这样许多玩家都会选择购买该武器装备。

与其他行业类似,在视频游戏产业中,客户满意度同样也是一个大问题。视频游戏的独特之处在于要设置一条非常非常精彩的行进路线。游戏要给玩家提供挑战机会,但挑战不能过度,过度的挑战会让玩家有挫败感进而放弃游戏。如果游戏过于简单或者过于复杂,玩家就会感到厌倦并转向其他游戏。

通过游戏分析,我们能够识别出游戏中哪些关卡每名玩家都能轻松过关,哪些关卡即使是最顶级的玩家也很难过关。我们可以增加或减少这些地方的敌人,尽量使难度等级比较平衡。平衡的游戏难度等级可以为玩家提供更加一致的体验,也会让他们更有满足感。这样会导致更高的刷新率和更多的购买行为。

通过遥测数据,玩家还可以根据游戏风格进行分类。使用这类信息既可以设计出更优秀的游戏,又能交叉销售现有的产品。其中某个玩家族群可以全身心地投入到游戏通关中,而另一个玩家族群可以负责在通关前收集所有的奖品,最后一个玩家族群则可以在收关前探索关卡中的所有角落。通过这种组合,每个玩家都可以在游戏中使用自己最喜欢的游戏方法进行训练。

遥测数据能够了解到玩家的认知层次,基于此可以改变整个游戏业。游戏业已经开始使用遥测数据,相信在不久的将来这个领域将会得到长足的发展。依据遥测数据分析的效果,游戏制作和推广的方式将会发生巨大的改变。

 

3.9 电信业与其他行业:社交网络数据的价值

与传统数据相比,社交网络数据本身就是一种大数据源,即使从很多方面来看,它更像是一种分析方法学。其中的原因在于,执行社交网络分析的过程需要处理已经无比庞大的数据集,此外,还要使用行之有效的方法将处理规模提升几个数量级。

有人会争辩说,移动运营商拿到的全部移动电话的话单或者短信记录本身就是大数据,且这种数据可以用于多种用途。但是,社交网络分析关注多个关系维度而非单个维度,从而可以做到更上一层楼。这也就是社交网络分析可以把传统的数据源变成大数据的原因。

对于现代电话公司,仅仅看通话量是不够的,电话公司还需要把通话作为独立实体进行分析。社交网络分析首先要看有哪些人参与了通话,然后再用更深入的视角进行分析。我们不仅要知道自己给谁打了电话,还要知道我致电的那个人还给谁打了电话,这些人接下来又打给了什么人,依此类推。要想得到社交网络的全景图,我们就得触及系统能够处理的上限。多层客户与客户之间的导航关联以及多层通话都会使得数据量倍增。此外,它还增加了分析的难度,尤其是使用传统工具时的分析难度。

同样的概念也适用于社交网络站点。通过分析社交网络中的某个成员,不难分析出这个成员有多少关联关系,她发短信的频率,她访问站点的频率,以及其他一些指标。但是,当成员与其朋友、与朋友的朋友、与朋友的朋友的朋友都有关联关系时,这时了解网络边界所需要的处理量就会大得多。

一千个成员或用户不难跟踪。但是,他们之间的直接关联关系会上升到百万级别,而再考虑到“朋友的朋友”则会升至十亿级别。这就是社交网络分析是一个大数据问题的原因所在。今天,已经有了大量的应用来分析这种关联关系。

使用社交网络数据

社交网络数据及分析有一些影响深远的应用,其中一种重要的应用正在改变着公司评价客户的行为。和以前只看个人的情况不同,现在参考的是他们的网络整体价值。我们这里谈的例子也同样适用于许多其他的行业,在这些行业里我们同样需要了解人与人或者群体与群体之间的关系,但现在我们关注的是手机用户,因为在这里这种方法的应用范围最广。

假定电信运营商有一个价值相对较低的用户。这名用户只有基本的通话需求,不会为运营商带来任何增值收入。事实也是,不能创造利润的客户就是没有价值的。运营商以往的做法是,只根据他或她的个人账户来对其进行评价。以前如果这名客户打电话投诉或者威胁要更换运营商,公司可能不会挽留他,因为它们认为这名客户并不值得挽留。

使用社交网络分析技术,虽然我们的客户通话账单看似价值不高,但我们可以识别出客户曾经和某些人通过电话,而这些人是有着广泛交际圈的重量级人物。换句话说,客户联系对运营商而言是非常有价值的信息。研究表明,一旦某位成员离开通话的圈子,其他成员很可能会跟着离开,更多的成员开始离开,就像传染病一样。很快,圈内成员开始雪崩般地离开,显然这是坏事一桩。

超越个人价值

社交网络数据非常吸引人的一个好处是,它能够识别出客户能影响的整体收入,而不仅仅是他或她自己提供的直接收入。不同的角度会大大影响投资某个客户的决策。能够产生高影响力的客户需要被细心照料,因为他们能产生本身直接价值以外的更大价值。如果要使其网络整体利益最大化,这种最大化的优先级要高于其个体利益的最大化。

使用社交网络分析,我们可以理解本例中客户对企业的总体价值而非只是其所产生的直接价值。这种处理客户的决策完全不同。电信运营商对客户过度投资的原因是要维护客户网络。我们可以准备好商业案例来维护更广的客户圈,而不只是保护客户个体的价值。

上面的这个例子非常棒,它解释了大数据分析是怎样在以往未曾出现过的新决策环境中产生重大价值的。如果没有大数据,客户会被批准更换运营商,当他的朋友们也随之而去,电信运营商将看到雪崩般的损失。现在目标已经从个体账户的利益最大化转向了客户社交网络利益的最大化。

识别有着广泛联系的客户也能帮助我们把注意力放到最能影响品牌形象的地方。我们可以给有广泛联系的客户自由试用的机会,并记录下他们的反馈。我们要做出努力,让客户主动地参与公司的社交网站站点,激励客户写评论和表达观点。有些公司积极地招募有影响力的客户,给他们奖励、提前试用的机会和其他好处。作为回报,那些有影响力的客户会持续地发挥他们的影响力,因为如果受到优待,他们的语气往往会更加积极主动。

LinkedIn或Facebook等社交网站正在利用社交网络分析技术来洞察哪些广告会对何种用户构成吸引。我们关心的并不仅仅是客户自己表达的兴趣,与此同等重要的是,我们还要了解他的朋友圈和同事圈对什么有兴趣。社交成员永远也不会在社交网站上表露自己的全部兴趣,我们也不可能了解到关于他的所有细节。但是,如果客户一大部分朋友都对骑单车感兴趣,我们就可以推导出这名客户也对单车有兴趣,即使他永远也没有直接表达过。

执法部门和反恐部门也可以从社交网络分析中受益。我们可以识别出哪些人和问题人群或者问题个人有联系,甚至有间接联系。我们通常把这类分析称为链接分析。有可能是某个个人或者群体、甚至是某个俱乐部或者餐馆跟坏人有联系。如果我们发现有人和许多坏人在多个地方出入,他或她就会被定位,我们会认为这些人值得更深入地监控分析。虽然这会涉及隐私问题,但实际上这种分析已经开始被使用。

对于在线视频游戏领域,这类分析也是有价值的。谁在和谁玩?游戏内部的模式是如何变化的?社交网络分析拓展了前面讲到的遥测数据的应用范围。我们可以识别出某位玩家在不同游戏中的首选伙伴。前面我们已经讨论过如何根据玩家个人的玩法对玩家进行分类。玩法相近的那些玩家已经在组队玩游戏了吗?玩家们需要的是不是混搭风格?了解这类信息就可以知道游戏制造商是不是想让玩家组队玩游戏(例如,对玩家提出建议,当玩家登录并开始玩游戏的时候,他应该优先选择加入哪个编组)。

关于组织之间联系的方式还有不少有趣的研究。这些研究最开始关注的是通过电子邮件、电话、短信建立起来的联系。公司各部门之间是不是按照期望的方式在联络?是不是有些员工通过典型渠道之外的方法在联系呢?谁在内部拥有广泛的影响力,且是参与研究如何更好地改善公司内部沟通机制的最佳人选?这类分析可以帮助公司更好地理解人与人之间的沟通方式。

社交网络分析的流行度和影响度一定会持续下去。因为社交网络分析流程本身会保持指数级的增长态势,因而数据源就会变得比初始构想的要大得多。也许最有效的功能是提供关于客户整体影响和价值的洞察,而这种洞察可以完全颠覆企业对客户的看法。

 

3.10 本章小结

以下是本章的主要内容。

虽然各行各业都有广泛的大数据源,但它们仍有一些共同的主题。虽然目的不同,但各行各业都使用了相同的底层技术,如RFID。

许多大数据源都有隐私问题,我们一定要始终慎重对待这个问题。

车载信息服务数据可以针对汽车保险政策提供更好的定价策略。但是,我们收集的车载数据也有可能会使交通管理和道路规划发生革命性的改变。

文本数据是最大的,也是应用最广泛的一类大数据源。一般来说,我们关心的是如何从文本中提取到重要的事实,然后如何使用这些事实作为其他分析流程的输入。

时间和位置数据的影响力越来越大。为了在某个时间和地点给客户提供针对性的信息,公司必须要利用更复杂的信息。

在零售业和制造业,RFID 数据开始支持新的分析应用,从库存分析到欺诈分析,再到员工绩效分析。

智能电网不但能使电力公司更好地管理电网,而且消费者也可以更好地控制自己的用电量。

使用RFID 标签跟踪筹码可以帮助赌场更准确地跟踪玩家的活动,同时降低付款错误和作弊的次数。

传感器数据可以提供关于发动机和设备性能的有力信息,还能用来更方便地诊断问题,更快地开发解决问题的程序。

视频游戏制造商可以使用遥测数据更好地定位微交易,改善游戏流程,通过游戏风格对玩家进行分群。

社交网络数据滋生出很多种新的客户评价方法。在电信业,社交网络分析已经把焦点从账户盈利分析转向了社交网络盈利分析。

注 释

[1].Merv Adrian,“BigData”,Teradata Magazine,1:11.

[2].Mckinsey Global Institute, Big Data:The Next Frontier for Innovation,Competition and Productivity,May 2011.

[3].Ibid.

[4].CEO Advisory:“Big Data”Equals Big Opportunity,Gartner,March 31,2011.

[5].本章内容基于我的同事Rebecca Bucnis 的会议演讲。我们也撰写了一篇论文,名称是Taking Your Analytics Up a Notch by Integrating Clickstream Data,发表在SAS Global Forum 2011。

第三部分 驾驭大数据:人和方法

第8章 如何成为优秀的分析专家

章开始之前,我们先来做个小测验。测验非常简单,不用紧张。现在坐好了,花几分钟时间想一想顶级分析专家的身上有哪些最重要的特质。被我们称为分析专家的这种人,能够成功地驾驭大数据,有能力完成第 7章里描述的那些复杂的分析工作。他们是掌握了高超技巧且受过专业训练的分析专家,他们能够建立预测模型,完成预测或者类似的工作,他们并不是只会做复杂电子表格或报表的那类人。列出你认为最重要的3~5项特质。好了吗?你的清单应当包含你认为最重要的那些特质,完成后请继续往下阅读。

大部分读者的答案都不会完全正确,都会有这样那样的错误。原因是当我们谈到什么是优秀的分析专家最重要的特质时,会根据一些常识来判断,而这些常识即便说不是完全错误的,也是不完整的。本章将对此进行探讨,讨论究竟是哪些特质让优秀的分析专家脱颖而出。首先,我们要清晰地界定分析专家的含义。

8.1 哪些人是分析专家

被冠以分析专家头衔的人会有很多不同的称呼。以往最常见的称呼是分析专家、数据挖掘工程师、预测建模工程师以及统计人员。最近,数据科学家这个称呼比较流行,尤其是指那些使用 MapReduce 工具并分析大数据的人。本书将上述所有人全都认为是分析专家。

事实上,上述分析专家虽然头衔多种多样,但是他们技能的相似程度会大于差异程度。这些分析人员的日常工作都是利用数据解决业务问题。不同类型的分析专家所使用的工具或算法可能会有所不同,但优秀的分析专家会根据需求在不同领域之间自由徜徉。如本章所述,优秀的分析专家之所以与众不同,绝不是因为他们使用了不同的工具、算法或数据。

需要特别指出的是,与传统意义的分析专家相比,数据科学家这个新的群体并没有什么特殊之处。就像以往分析专家关心的是找到新颖有效的方法利用数据解决业务问题一样,数据科学家也是如此。事实上,数据科学家喜欢使用不同的工具、编程语言和数据集,这种做法并没有让他们的目标和意图有所不同。他们使用的都是相同的技能,具备相同的竞争力。

唯一阻碍传统意义上的分析专家成为优秀数据科学家的是培训和学习,反之亦如此。有了一定的基础,任何优秀的分析专家学习一门新的语言、一种新的工具,都不会有什么问题。任何优秀的分析专家都会迫不及待地抓住机会,去了解新的数据源以及它们的使用方法。

凡是认为自己是分析专家的人,无论他们被称为数据科学家还是分析专家,都会认同本章的观点。跟这些分析专家进行交流的那些人肯定也会认同这些观点。分析专家能够理解他们彼此之间有很多共同之处,这一点对他们来说非常重要。这些特质和行为正是所有优秀分析专家的特征。

8.2 对分析专家常见的误解

列出分析专家最重要的特征时,大多数人都会加上学历这一点。通常,我们会认为优秀的分析专家应该是学统计学、数学、计算机科学、运筹学或者其他类似的专业。而且,我们经常还会认为他们得有个硕士学位或者博士学位什么的。我们经常关心的另一点是编程经验。我们认为优秀的分析专家应该可以使用多种语言编程进行分析。这种认识背后的逻辑是,普通分析人员所使用的工具,分析专家肯定用得更好。

人们普遍都会选择列出上述这两点,但这是不正确的。优秀的分析专家需要很强的数学和统计学背景知识。正经八百的学位,其实并非必需。在工作中边干边学,或者通过其他方式学习也是可以的。优秀的分析专家需要一定的编程能力,这是因为所有主流的分析工具都要有一定的编程知识才能用好。但是,具备这些编程能力也不能保证百分之百成功。

这就应了数学上的一句话:必要但非充分。要想成为优秀的分析专家,统计、数学、编程这些技能是绝对必要的,但并不充分。除了这些基础知识以外,分析专家还需要掌握更多的技能。具备数学方面的基础知识和编程能力是一个前提条件。虽然这些能力很重要,但它们并不是区分优秀分析专家和普通分析人员的分水岭,它们仅仅是起点而已。

如果招聘经理把注意力过多地放在技能知识以及学术背景上,结果是他们招到的员工也会把精力放到这些支离破碎的事情上面,而非关注全局。公司在招聘分析专家的时候还要在其他层面上设定一些评价标准。毕竟,我们需要的并不是那种“统计极客”,坐在角落里没日没夜地摆弄奇妙算法的人。招聘那些人并不会保证我们获得成功。

我们需要的是能够融入团队的分析专家。他们能够理解亟待解决的业务问题,理解如何才能有效地帮助业务部门解决他们的问题。如果没有这些顶级人才,我们就无法驾驭大数据浪潮。下面,我们将讨论怎样才能找到这些顶级人才。

8.3 每一位优秀的分析专家都是独特的

这些年最让我吃惊的是,我认识的每一位优秀的分析专家都是独特的,或多或少都会打破一些常规。我圈子里的一些人也有着同样的感觉。为什么优秀的分析专家往往会与众不同呢?列举我们认为优秀分析专家通常应该具备的基本特质,从清单上来看,会发现他们多少都会违背这些特质!在开始讨论更重要的特质之前,我们先来讨论为什么有些特质并非像看上去的那么重要。

8.3.1 教育

有一位多年前曾与我共事过的男士,他是我所认识的最优秀的分析专家之一。他的名字叫Bart,Bart早于我加入当时我在的那家公司,开始我并不了解他的教育背景。我很快注意到,这个人是真的行家。在我还是新人的时候,我会向他请教编程中遇到的问题,他既能帮助我处理统计方面的难题,还能帮助我掌握公司的业务。更重要的是,他甚至可以帮助我了解客户的业务。

过了一段时间,我才发现他“仅有”一个商科学位,还是本科,Bart根本没有什么高等学位。他仅仅是在商学院的时候学习了一些统计知识,他也没有接受过任何正规的编程训练,编程完全是他自学的。

Bart在工作中选修了一些课程,并向其他同事学习了工作所需的统计学基础知识。他还读了一些书,Bart的编程经验完全是靠实战获得的。最终,他变成了我所认识的最优秀的分析专家之一。但是在技术方面,他并没有受到过什么正规的学院派训练或者参加过什么技术培训。他就属于那种能够驾驭大数据的人。不要把注意力过多地放在正规教育背景上面。我们真正要关心的是分析专家是否拥有满足工作需要的实用分析技能。

8.3.2 行业经验

公司和招聘经理往往会非常关心分析专家或者其他人员的行业背景,这很常见。如果分析专家以前从事的是电信业,他们会认定这个人干不了银行业。如果分析专家以前从事的是银行业,他们会认定这人干不了制造业。如果以前是制造业的,他就干不了零售业。

这种看法是不公正的。假如说有两名合格的候选人,一个了解某行业而另一个不了解某行业,我们当然选择了解某行业的人了。但是,我们面临的选择往往不会这么简单。譬如说下面这样的两名候选人,一个是普通的分析专家,他了解本行业的方方面面,另一个是其他行业里卓越的分析专家,但他对目标行业没有任何了解。这时我们一定要选择后者,一名卓越的分析专家不分行业,他能很快地在新的行业里变得非常优秀。而平庸的分析专家很可能还驻留在原地踏步。此外,了解其他行业里的一些观点也是非常有益的。每一个行业都有自己特定的做事风格。优秀的团队可以从来自其他行业的分析专家身上学到很多新的知识。

放眼外部

招聘分析专家的时候,我们要不停地留意行业外部的情况。优秀的分析专家业务上手的速度会非常快。此外,他们还能带来自己行业里的新鲜思想和方法。从竞争对手那里招聘我们想要的人肯定错不了,但我们要给他们足够多的时间让他们能够更好地融入我们的团队。

下面我们来看一个真实的案例,主人公名叫 Mark。在这个案例里,对行业的要求几乎是不能妥协的。Mark 以前在银行业干了好多年。我们团队的人力资源非常紧张,我们需要新的人手来做一个零售业的客户。团队里面每个人都认为Mark 是非常非常优秀的分析专家,但以他的银行业背景,他能干好零售业的项目吗?

优秀的分析专家肯定会认同这样的观点,他们是能跨行业工作的。凡是谈到跨行业工作,肯定是要改变自己以往的思维方式,学习新的术语,计算不同的指标,但他们肯定可以搞定。在其他许多行业中,这种论断也是正确的。Mark 有机会在零售业项目中一展拳脚,他愿意投入额外的时间学习零售业的业务知识,也愿意与指定的零售行业专家紧密协作。第一个项目搞定数月后,当Mark再与其他零售业的客户见面时,客户甚至认为Mark已经在零售行业干了很多年。这是因为 Mark“掌握”了项目背后的业务知识,能够把自己以往在银行业中学习到的概念灵活运用到零售行业里。Mark 非常主动,有创造力,也很聪明,这才是关键所在。

8.3.3 当心“人力资源清单”

几年前,公司HR找到我说“我们制定了一些新规矩,你得帮忙更新空缺职位的必备条件和优选条件。从现在开始,任何纸面上写下来的必备条件都是百分百要遵守的绝对必要条件。”换句话说,如果职位描述说候选人要有学士学位,或者统计水平要比较优秀,那我们就不可能面试更不可能招聘不具备这些条件的人员。

考虑再三,我把修改后的清单发给了HR,上面列举了一长串的优先考虑条件。而必备条件只有一项:学士学位,不限行业。要有学士学位的唯一原因是要确保候选人接受过高等教育。坦白地讲,虽然只有一项必备条件,这份清单还是太过苛刻。

HR打电话给我,“Bill,你是不是搞错了?必备条件怎么什么也没写,你是不是漏掉了一些重要的必备条件?”我告诉了他我的想法,我说,“坦白地讲,如果列出我通常认为的必备条件,那团队现有的成员都多少不符合必备条件。如果将某项列成必备条件,就不可能有例外,你说我还敢列出来吗?我不能因为工作描述的限制而冒险错过优秀的候选人。我宁愿写一个模糊的工作描述,这样我才可以找到合适的人选。”

根据知识和技能招聘,而非勾选多选框

招聘行业分析专家,我们可以从列举经验要求和教育背景的详细清单开始。第一轮面试前先准备一些(但非全部)多选框作为选择是合理的。但这种做法并不充分,考核一个优秀的分析专家涉及很多方面,并非只涉及技术因素这么简单。事实上,使优秀的分析专家显得与众不同的更多原因是,我们接下来将要讨论的除了技术因素外的其他因素。

8.4 优秀分析专家身上经常被低估的特质

下面我们讨论优秀分析专家身上最关键的特质。这些特质对其他业务领域也是有价值的,我们这么说并不是要否定它们对于分析的重要性。下述的每种特质都比我们以前讨论过的更重要。维持既有的分析流程会容易一些,如若要寻求新的突破,建立新的分析流程,人才招聘和人才挽留就显得比较重要了。要想成功地驾驭大数据,完成支撑大数据所需要的具有创新性的新业务分析流程,我们需要跨过更高的标杆。

8.4.1 承诺

承诺是普惠每个行业的特质。总会有人愿意挥洒汗水让项目按时交付,使项目获得最终成功。当然也有人不愿意这么卖力地干活。在公司里,我们得弄清楚哪些人靠得住,哪些人靠不住。任何优秀的分析专家都会言出必行。幸运的是,我们在面试过程中通过候选人对自己以前工作和成果的描述,就可以看出这种特质。认真倾听,就能找出可以满足承诺这项要求的候选人。

关于承诺真的不需要讲那么多。我们都知道承诺对于各个领域的重要性,这其中当然也包括分析领域。

8.4.2 创造力

创造力并不是大多数人一想到的分析专家就会想到的特质。大多数人以为分析专家的工作就是处理那些一成不变的统计公式。他们只需要按书本上说的那样做就行了,并不需要创新。事实是这样的吗?

肯定不是。根本原因是我们遇到的每个业务问题都是不同的,而解决各种问题的数据往往都会很复杂且不完整。分析专家必须得想清楚要以怎样一种全新的方式,并利用手头上的数据解决新出现的业务问题,这就需要创造力了。没有哪本书或哪套规则能够说清楚我们要怎样做关于业务问题的大量决策,怎样以正确的方式把事情全部做好。

另外,每次分析专家都会遇到一些不可预见的问题。有时候遇到的只是小问题,有时候会遇到大麻烦。每次遇到“@#%$&*!!!”,分析专家就会意识到碰到大麻烦了。创造力就是解决这类问题的新方法。我们遇到的可能是数据问题,也可能是实际动手分析时才发现自己没有真正理解的业务问题。创造力的存在就是要解决这些困难,并得到最终结果,达成目标。

不要低估分析专家创造力的重要性。创造力在那些自称为分析专家的人身上并不常见。以创造力作为评判标准会筛选掉很多人。如果给你10个人,有两三个人能满足要求就不错了。有的公司会使用性格测试,有的会让候选人解决随机出现的问题来评判他们是否有创造力。我评判一个人是否有创造力的方法是,让他自己讲在遇到“@#%$&*!!!”这类分析问题时他是怎么做的。有创造力的人讲出来的故事往往很动听,而没有创造力的分析专家只会把自己解决问题的步骤简单地罗列出来。

1.干净的数据只存在于教科书中

干净的数据真的值得在本节中用单独的一部分讲解吗?我们在这里讲干净的数据是因为,分析专家的数据处理方式必须得有创造性。数据永远不会像我们想的和要求的那样干净,数据永远都会有缺陷、不完整和错误,数据还会违背分析方案中的一些假设条件。

我们在学校上学的时候,都认为数据应该是准确的、干净的、完整的。如果有的数据点不是这样,那我们就会弄清楚原因,然后调整数据。每一个在校生都拥有这个疯狂的想法,教科书的例子反映了他们以后将在商业世界中遇到的情况。但是,商业肯定不是按照教科书的方法在运转。数据永远不可能跟课堂案例一样简单。例如,性别编码除了“M”、“F”、“U”以外,还可能由于某些未知原因而变成“H”。同样,客户也许会在杂货商店购买 10 000 000 美元的商品。还有,虽然产品将被卖出,但其产品代码却并不存在。

这些情况会产生严重的问题。换句话说,当数据并不是我们想要的和我们所要求的,我们要怎么办?我们是不是应该忽视那些没有真正发生购买行为的消费者?我们是不是要把“H”变成“U”?产品代码能否被正确识别?弄清楚如何才能最有效地利用分析数据是任何分析工作中最困难的部分,这需要有一定的创造性。如果分析专家发现数据不完整,不能充分地解答我们期待的问题,就应该发挥创造力找到方法让不可能变成可能。在这个过程中,我们可能要弃用其中某部分数据,或者修正一部分数据。我们可以从快速解决问题并取得小小的胜利开始,然后在此基础上不断完善已有的成果。

追求完善,而非完美

解决业务问题时,我们追求的目标应该是不断完善,而非追求完美,理解这一点很重要。如果只要把数据弄得干净一点,就能获得一些工作成果和提升机会,这该有多好。优秀的分析专家关心的是如何完善工作成果,如何从不标准的数据中努力获得他们想要的结果。分析结果本身可能并不完美,但它们足以支撑决策,我们大可以此为基础不断地改进策略,这样就已经很好了。

会员卡分析就是这样一个领域,它的数据永远也会不完美。即使是最忠实的客户也不会记得每次都使用他们的会员卡,这就意味着每位客户的“整体”消费状况都是不完整的。然而,事情还可以补救。真正优质的客户大部分时间还是记得使用他们的会员卡的。对于理解客户消费,这些数据已经够用。事实上,缺少一些数据并不意味着分析就做不了。当然,有的客户可能会因为信息不完整而被略微低估,但我们根据这些数据其实已经足以做出决策了。优秀的分析专家肯定明白这一点。

2.足够干净的数据

优秀的分析专家都会关心的一个重要问题是,无论数据有多脏,或者多大程度上违背了假设条件,数据是否还足够干净。依靠这些数据我们能得到让人信服的结果吗?我们能通过这些尚可信赖的数据,得到可以使我们真正有所收益的结果吗?如果答案是肯定的,分析专家们肯定会奋力尝试。数据根本不需要过于完美,只要足以支撑我们进行决策就可以了。优秀的分析专家善于创造性地找到验证数据是否干净的方法。

作为一个广泛使用但错误很多的数据源,家庭人口统计已经有数十年历史了。一般来说,人口统计数据供应商都能获得准确的统计信息。但是,我们还是要假设在数据编辑过程中,会遇到家庭数据不准确的情况,但它们并不会妨碍数据的有效性。即使有些家庭的数据有问题,分析所得的粗粒度的模式和发展趋势也是可信的。即使数据不完美,使用这些数据对营销人员来说也是非常有用的。总是有创造性的办法来解决这些已经存在的偏差和问题。如果仅仅是因为数据错误而忽略数据,那许多有价值的分析都会不复存在。

优秀的分析专家会在企业环境中想方设法地让内部数据源产生商业价值。这取决于我们如何看待这件事情,我们可以认为瓶子里面装了半瓶水,也可以觉得瓶子里面空了半瓶水。正如第1章所述,这种观点对处理大数据也是适用的。大数据往往不够干净,经常会包含需要过滤掉的冗余信息。

8.4.3 商业头脑

优秀的分析专家既能理解他们使用的业务模型,也能理解如何才能有效地使用分析手段解决实际的业务问题。优秀的分析专家既能从业务角度看待重要的业务指标并分析产出,也能从技术角度看待这些指标,他们会花时间努力达到这样的认识高度。不管我们的商业头脑怎么样,我们都得有兴趣,并投入足够的关注和精力才能把分析工作做好。如果我们对理解业务本身根本没有任何兴趣和意愿,我们就不可能变成优秀的分析专家。

请注意,商业头脑和行业经验指的并不是同一件事。行业经验只是一组事实和知识的集合,商业头脑是一组软技能的集合。如果某个分析专家很有商业头脑,那么他在转行的时候一般不会有什么问题。就像前面Mark那样优秀的分析专家,他们可以把他们的商业头脑运用在其他场合和问题上。我们在面试分析专家的时候,要问清楚他们在以往的项目中是如何进行决策的。如果候选人有商业头脑,他们就会提到自己的一些真实的业务和技术思考。你们之间的讨论肯定会或多或少涉及对解决业务问题方面的考虑。没有商业头脑的分析专家会把精力主要放在技术需求和条件假设上面。

奇异的混合体

优秀的分析专家都是奇异的混合体。在工作中,他们有时会像IT人员那样做纯技术性的工作,而有时会像真正的商人那样动用商业头脑。跨界思考问题很困难,这也就是为什么成为一个优秀的分析专家会如此困难。

1.适当的粒度

我们所说的商业头脑,其中一方面内容指的是怎样把分析结果和决策粒度联系起来。什么意思呢?比方说,现在有一位商人要求一名分析专家来提升某次市场营销活动的效果,他规定只要构造出来的模型比目前的方法好2个百分点,就算成功。这就是给分析专家设定的要跨越的标杆。他们要对自己有信心,相信自己的方法的效果至少要比当前的方法好2个百分点。

他们会在演示结果时说自己的模型比基准效果好 5.32526 个百分点吗?应该不会。如果误差范围是加减2个百分点他们肯定不会这么说。如果误差范围是加减2 个百分点,还有谁会在乎点估计是5.325 26?这个时候百分位纯粹就是干扰位。我们要表达的关键点是,加减2个百分点,结果会在5个百分点上再提升一点;最坏情况也是3个百分点,这样模型才能肯定比2个百分点的基准效果要好。这就是所有商业人士关心的内容。优秀的分析专家不会让业务团队被更多的细节困扰,他们会采取能够让数据增值的做法。他们会用自己的商业头脑来判断需要提供哪些内容,以及如何定位分析结果。

另一个例子与需求预测有关。几年前,一家厂商曾宣称它的需求预测结果比竞争对手准确得多。这家厂商表示在一般情况下,使用者手头只需要额外预备3个单位,而竞争对手推荐需要预备4个单位。项目投资人听到这个当然很高兴,但问了一个问题后,他们就不再那么兴奋了。投资人问的是,他们的最小采购单位是6,现在该怎样来判断两家厂商预测的有效性呢?最小采购单位是6,任何粒度更细的措施都是徒劳的。如果分析专家有很好的商业头脑,并以正确的方式解决问题,就会提前把这些约束条件识别出来作为前期的铺垫。

2.关注重要的事情

实际数据往往会违背前期的假设条件。例如,很多模型都会假设分布是正态的。从理论出发,我们要考虑这些假设条件会在何时被破坏。但从实际出发,如果两个变量之间有很强的作用关系,不管使用何种方法,这种作用关系都会以某种形式显现出来。这是不是说明在先前的假设被严重违背时,虽然我们选择的建模方法不同,但参数估计和影响预测却仍然是相同的?当然不是。但这并不意味着即使违背了先前的假设条件,并使用了不同的方法,起重要作用的因素就会被发现其重要性。如果粒度本身不需要过细,那粗略的做法就很好。

是否存在这种场景,使用线性回归法证明两个变量之间没有任何关系,但使用 U 型曲线却可以完美地阐释变量之间的关系,从而违背了原先的线性假设条件?确实存在这种场景。关键在于这不是不可能的,变量关系在多数情况下还是能以某种方式识别出来的。如果分析项目的甲方要的是二值决策,数据和模型只需要能准确地给出这种二值决策就可以了。优秀的分析专家知道何时要按照需求上调或者下调结果的精度。图8-1就是这样的一个例子,图中有些数据很明显违背了线性关系的假设条件。但是,如果我们需要的是理解两个变量之间共同变化的趋势,那回归直线就能有效地反映出这种关系的本质。

图8-1 非线性关系的线性拟合

3.文化意识

使用发展中国家作为离岸人力资源是IT行业的大趋势之一。分析市场也多多少少受到了影响。我们现在并不是要从经济和道德的角度出发,进行离岸是好还是坏的政治意义上或哲学意义上的讨论。这些问题我们以后再讨论。在这里,我们想要讨论的是当下的离岸市场是否可以满足业务分析场景的全部需要。

编写本书之时,多数离岸人力外包公司关心的还是技术本身,以及怎样对团队进行技术培训。他们往往会重点强调,自己有25个会使用所有的统计软件包的统计学博士。只要你们提出问题,他们就能给出答案。我们已经讨论过,对于优秀的分析专家来说,技术只是基础。而且,如果分析专家没有见识过真正的业务环境,就很难培养出商业头脑。

如果分析问题本身清晰简明,离岸人力外包公司提供的候选人就能派上用场。但是,如果想要依靠离岸人力资源提供端到端的分析支持,这种想法肯定会碰壁。跨地域、跨时区、语言障碍这些情况都将成为问题。这些问题本身就很难处理。离岸人力外包公司与合作方之间存在着巨大的文化差异,更不用说离岸人力外包公司对合作方所在国家的思维和运作方式还缺乏经验和了解。

不管是谁来提供远程支持,都会有同样的风险存在。正如印度的分析专家如果没有见识过美国的业务环境就无法提供有意义的分析一样,如果美国人没见识过印度的业务环境,他们也很难提供有意义的业务分析。

一位同事曾经告诉过我一个很棒的故事,故事内容讲的是一家食品行业的公司招聘离岸团队为宠物食品进行分析。故事开始之前,请想象一下那种罐装狗粮和袋装狗粮,有些上面还印有幸福的小狗。拿到分析结果后,从分析文档啰唆的行文风格和分析专家的口头演讲中,可以清楚地看到,分析专家完全不理解什么是宠物食品。分析结果跟宠物食品根本毫无关系,讲的全是罐装狗肉!你想知道后续的情况吗?分析团队的结果是包装上印制的幸福小狗对罐头里的狗粮根本不会有任何兴趣。相反,幸福的小狗还被放到罐头里被当成了人们的晚餐!

角色互换会很容易出现类似的问题。如果完全不熟悉业务运营环境和文化,就很难拥有正确的商业头脑。我们是否可以依靠离岸的人力资源呢?如果使用得当,还是可以的。但我们不能只是简单地把业务分析问题丢出去,然后就等着纯技术背景的离岸团队自己设定分析策略,解释分析结果,然后填鸭式地告诉我们他们的分析成果。我们需要真正优秀的、有商业头脑的本地分析专家来指导整个分析流程,这样才能确保项目最终成功交付。

8.4.4 演讲能力与沟通技巧

演讲能力与沟通技巧对很多工作都是非常重要的,对分析专家来说也是如此。不管分析专家自己多么擅长分析,如果他们干的不是大学毕业生就能干的活儿,别人对他们的要求就会很高,他们既需要得出强有力的分析结果,又需要能把分析结果用吸引眼球的简洁故事讲出来。优秀的分析专家能够牢牢地吸引住不懂技术的人,用他们懂得的语言来描述分析结果,使他们对分析结果感到无比兴奋。优秀的分析专家会讲一个动听的故事,而不是简单地重复统计数字和事实。

分析专家不会面对业务听众大讲特讲共线性分析、模型统计数据汇总和其他一些深入的技术细节。他们会说,“这是我们所发现的,这是它们为什么很重要的原因,这是您应当以此作为结论的依据。”此外,分析专家还会与业务人员进行讨论,告诉他们采取何种措施可以获利。产品销售额会提升吗?利润空间会扩大吗?说到底,业务人员关心的还是分析结果能够怎样帮助到他们,而不是技术本身。

分析专家应该用一种简短的、一针见血的方式来沟通分析结果。不管他们采用的是幻灯片还是书面文档,都需要掌握大量书面交流的技巧。而无论是正式演讲,还是办公室中简单的临时讨论,分析专家都需要掌握很多口头沟通和演讲的技巧。

试驾

评判一名分析专家的演讲能力和沟通技巧最行之有效的方法是,让他们在面试阶段进行演讲。这样我们就能看清楚这个人,分辨他们有没有成为优秀分析专家的潜质。

并非每一位分析专家都能站在大庭广众下,或者站在执行委员会会议上还可以表现得泰然自若。至少他们在刚工作的时候做不到这一点。但是,每一位优秀的分析专家都需要能在办公室或会议室里,站在项目投资方和他们的老板面前,侃侃而谈。评判一名分析专家的演讲能力和沟通技巧最行之有效的方法是,让他们在面试阶段进行演讲。我们既可以给他们安排一个泛泛的题目,也可以让他们自主选择题目。这样就能看到他们的做法和在压力面前的承受能力。面试候选人的沟通技能将会在几分钟内一览无余。

1.结果并不是成功最重要的部分

你肯定对这句话感到吃惊。但是,判断一个分析项目是否成功的标准并不只取决于分析结果的质量。理想情况可能确实如此,但现实情况并非如此。首先,积极地将分析结果弄得更准确是很重要的。每一位分析专家确保每次的分析结果正确无误是非常重要的。但是,站在分析项目投资方的角度看,分析结果本身对于判断项目是否成功最多占了50%。那还有什么事儿同样重要呢?

剩余的 50%就体现在分析专家的演讲能力和将结果文档化的能力上。他们能有效地定位分析结果吗?分析专家能否用吸引听众的方式陈述结果,并让听众放心地采取行动?我认为这一点再怎么强调也不为过。无论分析方法本身有多么吸引人,优秀的分析专家也不应该只关心分析方法本身。他们应该留出时间来想如何才能正确地解释、定位结果,并将分析结果更好地兜售给分析的投资方。

傻瓜,这就是交付!

冗长复杂的分析结果需要提炼成可以消化吸收的观点。而分析专家想要具备这样的能力,需要不断实践、辛勤工作。分析专家经常会觉得自己把事情淡化了。虽然要有细节和对分析结果的辩护,但不应该一开始就陷入细节中。如果讨论过细,业务团队成员的眼神就会变得茫然,他们的注意力也会开始变得分散,这样,他们最终就不会采纳我们的分析结果。优秀的分析专家会让投资方一直充满兴趣。

业务团队才不会关心你已经辛苦了10个星期,也不会关心具体的技术细节,他们只关心结果。分析专家必须清晰有效地传达结果,否则结果就会被无视。好的结果是项目成功的必要条件,但却不是充分条件。优秀的分析专家会理解这一点,会适当地关注交付过程。

2.广告业给我们上的一堂课

分析专家总是喜欢不断地衡量来衡量去。他们喜欢以检验结果是否奏效的方式来进行工作。在直销市场中,这是正确的做法。分析专家还会运行一个模型,并生成一份人员名单,然后再发电子邮件,打电话,或者用其他方式进行联系。分析后台可以准确地告诉我们业务的提升度。如果方法奏效,我们就可以着手干更多类似的事情。如果方法无效,团队会停下来转投其他方向。

许多公司的预算大头都花在了电视、广播、报纸等大众传媒渠道上。这些媒体确实能产生影响。但是,要想非常准确地弄清楚这些媒体究竟能产生多大的影响基本上是不可能的,评估广告产生的影响是很不容易的。尝试评估电视、广播、印刷品营销能够产生多大市场提升度的方法学也是不靠谱的。更低层次采用的方法,例如店面级别的,也好不了多少。广告仍然无处不在,虽然也有一些选择是可以衡量效果的,但公司的预算还是没有转投那些地方,这是为什么?

其中一个原因是,直销市场在谈论使得更好的精准营销能够成为现实的业务分析,没有什么会比听到这些内容更让人兴奋了。直销分析可以用统计方法识别出哪些人最有可能会响应,然后企业就能找到他们,并卖出更多的产品。当然了,销售驱动使得顾客眼前一亮,但实际上没有什么激动人心的故事情节。

广告公司是怎样制订计划的?它们运用多媒体演示效果,和着动听的音乐和动感的视频,说着时下流行的广告语。它们会让听众对他们的计划满怀信心,立即签约。即使这种营销效果在后台不能清楚地计算出来也没有关系,因为听众已经被广告公司带入一场视觉享受的盛宴中了。

我们不能指责广告公司(发那些垃圾信件),相反,我们还要赞扬它们。广告并不像其他活动那样可以衡量效果,但是广告还是要消耗掉公司很大一笔开支。部分原因是因为广告行业有能力吸引投资方的注意力。广告公司能够完全地理解和利用沟通能力与演示技巧。如果想要成为优秀的分析专家,我们可以从广告公司的身上学到很多东西。试想一下,如果活动效果可以准确衡量,再配以有效的分析,以及广告活动在商业活动中注入的兴奋度,这样的项目该有多牛。

8.4.5 直觉

直觉是最难定义的特质了。如果看不到他们的行为,很难判断一个人的直觉怎么样。我们说的直觉,就是分析专家对下一步要做什么的感觉。遇到障碍时,分析专家会坐下来冷静地分析,他们会找出可以采取的A、B、C、D四种措施。他们的选择有多准确?他们是不是有很好的直觉,可以使这些方向逐步实现?他们的选择是不是大多情况下都成功了?在最后制订出计划前,他们是不是已经被各种选择搞得手忙脚乱?优秀的分析专家会用一种不可思议的能力选择一条好的道路。

我推荐你们读一读这本书,Daniel H. Pink(Riverhead Trade,2006)的《AWhole New Mind》。这本书总结了一些非常有趣的观点,从技术如何帮助人们在该领域获得成功,到我们之前所谈到的多种特质。Pink 的书从更广泛的角度讨论了我们刚才讨论过的一些主题。

从许多方面来讲,直觉都是一种与生俱来的技能。但直觉还是可以调整和培养的。最终,直觉融合了以往类似问题的解决方法与经验。直觉是以这些方法和经验作为基础的,保持足够明智的态度,弄清楚何时可以再次应用以往的经验,何时可以做适当的调整以适应新的情况。

好的直觉是成为优秀分析专家的决定性因素,但我们在面试的时候很难判断出一个人的直觉。一些我们认为可以使用的标准可能并不是人力资源的评判标准,因为这些标准太过于主观。经过一段时日,根据分析专家们的表现和处理问题的方法,我们自然就能看出来他们究竟是不是有好的直觉。

是艺术还是科学

本章要表达的一个主题是,分析不只是科学,还是一门艺术。优秀的分析是可靠的科学加上艺术的神来之笔。分析的艺术在于弄清楚如何处理非常规的问题,如何组织一场激动人心的演讲,如何用最好的方式来解释我们的分析成果。优秀的分析专家必须既有科学素养,又有艺术细胞,他们不但是科学家还是艺术家!

聚类分析是一种模型分群算法,下面我们来看一个聚类分析的例子。还没有哪种简单的并被大家广泛认可的度量方法,可以像聚类分析这样方便地找出正确的答案。分群建模方法真的是一门艺术。经常使用分群模型的分析专家都有自己的搜索原则。比如我使用这种模型的时候就有自己的操作流程。我知道自己要往哪儿去,我要找的是哪种模式。但是,我很难给别人讲清楚这一点。同样,其他人也无法向我解释清楚他们的方法。每个分析专家都有自己进行分群模型分析方法,这些方法对于他们来说就是艺术。

信任对于分析专家的工作至关重要,这个观点正在逐渐被人们所接受。面对需要很多艺术处理的分析数据,信任就变得更加重要了。如果没有什么指标可以清楚地告诉我们要做何选择,业务投资方就必须得相信分析专家的直觉,相信他们的艺术处理方法。获得这种程度的信任需要跨越相当大的一步,需要很长时间才能建立起这种信任关系。优秀的分析专家会花时间来建立这种信任,他们愿意成为业务伙伴可以信赖的顾问。

以艺术家身份出现的分析专家

不同的画家面对同一处风景,他们可以使用完全不同的技法但都画出了引人入胜的作品。不同的分析专家也可以使用完全不同的方法来做分析,这就是分析本身的艺术性。有些算法本身没有多少艺术处理的余地,但保持艺术的态度肯定可以更好地支撑决策、定义问题、设计分析方法,以及根据手头数据得到解决方案。优秀的分析专家既是艺术家又是科学家。

最近,分析圈子里面最火的话题是公司中数据科学家所扮演的角色。正如本章之前讲述的那样,数据科学家做的事情与高级分析专家做的事情本质上并没有太多不同。传统意义上的分析专家如果想要变成数据科学家,需要掌握类似MapReduce 的这类工具,但学习新工具对于分析专家来说并不算是新事物。数据科学家的工具箱里有新的工具吗?答案是肯定的。他们会有完全不同的分析意图吗?答案是否定的。

和数据科学家这个概念同样重要的是,我们要把分析专家看成是使用数据的艺术家。他们是要深入挖掘公司数据的人,他们也要用优雅的有吸引力的方法来创造性地利用数据解决问题。就像画家可以挥洒颜料作画来装饰墙面一样,数据艺术家们也可以把数据变成业务问题的解决方案。

优秀的分析专家既是艺术家又是科学家。同时拥有两种本领,当然比只拥护有一种技能要强。如果你怀疑这种说法,问问你认识的那些优秀的分析专家,他们的技能和兴趣是什么。你会惊讶地发现他们还有音乐、美术和其他需要创造力的领域的才能,而我们以前并不知道他们还有这些才能。

8.5 分析认证有意义吗,还是干扰视听的噪音

近来关于开发分析专家认证项目的讨论多了起来。这类认证从概念上讲和注册会计师认证(CPA)以及理财规划师认证(CFP)没有什么不同。分析专家这种职业有必要发起认证项目,好让用人单位可以评估哪些人满足了最低用人门槛吗?

我曾经读到过有一些组织想要开发这类认证项目,也参与讨论过一些很酷的想法。最大的挑战在于要确切地弄清楚需要测试的内容。如若想要识别优秀的分析专家,我们前面已经很细致地讲过,技术敏感度很容易测试,但单纯参考关于技术的评价就是一种赌注。判断一个人是否会写程序或者能够理解线性回归方法背后的假设,这些并不困难。但是,创造力要怎么测试?直觉要怎么测试?商业头脑要怎么测试?演讲能力和沟通技巧要怎么测试?分析场景下的这些特质要怎么测试?这些方面要困难得多。

让分析专家展示他们有能力也有意愿通过类似的考试,当然也不错。问题是任何从成本和有效性方面制订的认证都会主要侧重于对技术能力的考察。虽然这类考试会变成赌注筹码,但至少能证明一个人是否有技术能力,以及是否有足够的意愿去考取认证证书。但我们在这些技术能力的基础上,还得弄清楚他们是否还具备了我们所需要的其他能力,例如创造力。以这种方式来考虑问题,认证项目就是好事情。如果只是作为一种指标或者标准,认证项目将无法满足我们的需要。

分析圈子将会广泛采用认证项目吗?如果制订认证项目的各类机构都能给市场带来一些新鲜气息,久而久之肯定会有一两个赢家冒出来。但是,不管考试本身组织得有多好,用人单位也不应该单纯参考技术认证来进行招聘。根据我先前关于工作需求清单的讨论,用人单位甚至并不想用认证作为强制性要求。但只要认证考试运用得当,它们还是有价值的。

说到这里,谁是优秀的分析专家应该很明白了。他们“拥有”数据,他们知道如何使用这些数据,他们也知道如何组织这些数据,他们还能发现数据中的模式。优秀的分析专家能够“解决”业务问题,他们了解业务人员需求的重要性,也了解为什么需要解决这些问题,他们了解现实约束,了解如何解答业务人员提出的问题。优秀的分析专家“了解”如何正确地描述问题,收入重要,还是利润重要?问题真正的关键点在哪里,为什么要这么说?分析应该怎样设计?最后,优秀的分析专家“知道”不能只把自己当成科学家,业内最好的分析专家毫无疑问也是艺术家!

8.6 本章小结

以下是本章的重点内容。

我们在招聘分析专家时,要以技术和教育背景作为起点,而不是最终要评判标准。

我们要招聘不同行业背景的分析专家,要借鉴其他行业的游戏规则。

评判优秀的分析专家时,承诺、创造力、商业头脑、演讲能力与沟通技巧、直觉都是关键因素,但这些因素往往会被人们认为并不重要。

只有一小部分具备技术能力的人,能够具备前面描述的那些非技术要素。

优秀的分析专家关心的是如何完善业务,而非使之完美。知道分析结果何时已经足以支撑业务决策是非常重要的,然后着手解决下一个问题。

优秀的分析专家会把所需的数据准确度和决策粒度完美地结合起来。不完美的数据仍然可以有效地回答许多问题。

如今的离岸分析太过关注技术技能。我们要需要那些优秀的本地分析专家一起协同工作才行。

虽然说得到可靠的结果很重要,但项目成败至少有 50%的因素取决于分析专家的演讲,以及他们如何把分析结果传达给不懂技术的项目投资方。

很多机构都在开发分析认证项目。时间会告诉我们认证项目会不会被市场接受,认证只是评估候选人的起点。

最优秀的分析专家不仅是掌握数据的科学家还是数据处理的艺术家,这一点足以让很多人惊讶。不要低估艺术才华对于优秀分析专家的重要程度。

图书在版编目(CIP)数据

驾驭大数据/(美)弗兰克斯(Franks,B.)著;黄海等译.--北京:人民邮电出版社,2013.1

ISBN 978-7-115-30480-3

Ⅰ.①驾… Ⅱ.①弗…②黄… Ⅲ.①数据处理 Ⅳ.①TP274

中国版本图书馆CIP数据核字(2012)第298152

版权声明

Bill Franks.

Taming The Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics.

Copyright © 2012 by Wiley Publishing,Inc., Indianapolis, Indiana.

All right reserved. This translation published under license.

Authorized translation from the English language edition published by John Wiley & Sons, Inc.

本书中文简体字版由John Wiley & Sons公司授权人民邮电出版社出版,专有出版权属于人民邮电出版社。

驾驭大数据

♦著 [美] Bill Franks

译 黄海 车皓阳 王悦等

审校 张锦沧 张新宇 张琦

责任编辑 杨海玲

执行编辑 赵越

♦人民邮电出版社出版发行  北京市崇文区夕照寺街14号

邮编 100061  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

中国铁道出版社印刷厂印刷

♦开本:700×1000 1/16

印张:16.75  2013年1月第1版

字数:246千字  2013年1月北京第1次印刷

著作权合同登记号 图字:01-2012-7920号

ISBN 978-7-115-30480-3

定价:49.00元

读者服务热线:(010)67132692 印装质量热线:(010)67129223

反盗版热线:(010)67171154

广告经营许可证:京崇工商广字第0021号

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战
医疗大数据挖掘与可视化
医疗大数据挖掘与可视化

相关文章

相关课程