数据分析咖哥十话 从思维到实践促进运营增长

978-7-115-58389-5
作者: 黄佳
译者:
编辑: 王旭丹

图书目录:

详情

本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕“数据分析”与“运营增长”两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。 本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需求的人士阅读,也适合相关专业的师生阅读。

图书摘要

版权信息

书名:数据分析咖哥十话 从思维到实践促进运营增长

ISBN:978-7-115-58389-5

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    黄 佳

责任编辑 颜景燕

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内容提要

本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕“数据分析”与“运营增长”两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。

本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需求的人士阅读,也适合相关专业的师生阅读。

推荐语

市面上讲解数据分析和机器学习的书籍很多,但能结合业务又幽默风趣的书籍很少。黄佳老师这本书通过一个个业务场景中生动有趣的故事讲解了如何通过数据分析促进运营增长,是一本非常难得的落地实际业务又好学易上手的数据分析入门书。

——CSDN专栏作者、数据处理专家 小小明-代码实体

本书归纳出的各种数据分析项目,非常贴近我们企业实际面对的问题和业务模式,我在阅读过程中时有共鸣,真心为作者点赞。为此,我向需要通过大数据驱动业务增长的企业,强烈推荐这本书。

——K米CEO 林剑宇

在数据驱动增长的时代,精细化运营需求正在爆发。数据已然成为各产业中的重要生产要素。数字化转型为各领域企业实现了降本增效,提供了持续增长的动力。本书覆盖了数据分析的基础与进阶、精细化运营的理论与实战,对有数据运营实际需求与对数据领域感兴趣的朋友们一定能开卷有益。

——壹心理产品合伙人 徐广

我在数据科学的教学和科研实践中,经常有同学反映数据分析是“入门易,深入难”。究其本质,这是一个“理论如何联系实际”的问题。只有做到将程序设计知识、数据分析工具、数据科学理论与真实业务运营场景及具体实践相结合,才能够一通百通。这本书很好地解决了上述问题,对于迫切需要积累数据分析实战经验的同学来说,这是一本优秀的学习教材和参考书。

——北京交通大学 副教授 陈杰博士

在市场日益“内卷”的大背景下,衡量企业价值的标准,不仅仅是当前业务线有多赚钱,未来的可能增长空间有多大,更加重要的是企业如何善用现有的数据,做好精准化的运营评估和预测,提高对未来趋向判断的准确率。黄佳老师的这本书以增长黑客、精益数据分析和AARRR理论为指导,结合业务实际,为企业如何活用数据驱动运营增长指明了具体方向。

——数据分析和数据化运营资深从业者 哈佛在等我呢

有别于市面上一板一眼讲数据分析的图书,这本书用鲜活亲切的工作场景带出数据分析的各种应用思维与方法,让我们能以轻松的方式完成学习,特别值得一读。

——《这本书能帮你成功转行》《大话程序员》等图书作者 安晓辉

医学研究需要数据的支持,如何在众多数据中开展数据分析对医学的发展有重要意义,医工结合在大数据时代是未来发展的必然趋势。本书虽然聚焦于业务中的运营增长,但其中的算法和示例亦可为拟从事数据分析工作的医务人员和相关从业者提供帮助与启发,是一本值得学习的参考书。

——首都医科大学附属北京安贞医院 主任医师、副教授 林多茂博士

前  言

在出版了《零基础学机器学习》并开设了极客时间专栏课程“零基础实战机器学习”之后,我结识了不少做数据分析、数据运营的新朋友,也常和大家一起探讨数据科学的落地现状。

我发现大家对数据科学的学习和实践充满热情,但是,在投入大量的时间和精力学习新技能的同时,大家也存在着诸多疑惑。

讨论较多的问题有这么几个。

——我正在数据分析入门阶段,学了Python,学了数据分析工具,学了数据可视化。书中的代码都看得明白,程序也会写了。但是,数据来了,业务需求来了,我还是不知道怎样去做。怎么办?

——我想知道资深数据分析师的成长路径是什么样子的。有那么多工具要学,Excel、统计学和数学、Python/R语言、SQL、Tableau、Power BI这些都要掌握吗?要掌握到什么程度才算专家?

——作为数据分析师,我该如何学习机器学习,掌握到什么程度才算合适呢?机器学习的相关数学公式太多,资料太难,看不懂怎么办?好不容易弄懂了一些机器学习算法,却找不到场景使用。机器学习是不是传说中的“屠龙之技”啊?

带着这些问题,我开始了本书的写作。我的第一个小目标就是要写一本将技术联系实际、让工具全面落地的场景化实际操作指南。

我感觉仅学数据分析工具本身,如Python“三剑客”(Pandas、NumPy和Matplotlib)的语法(如数据挖掘和机器学习的各种算法),学习效果其实很一般,学习过程也味同嚼蜡。这是纯知识导向性学习的明显弊端。

那么,怎么学才能够了解数据的本质和内涵,才能够把学到的知识真正落地,才能够更有效地把工具应用到业务场景之中?带着这些疑问,我发现了数据分析的学习和实战过程中的一个大秘密:数据分析的学习一定要结合业务场景,要在场景中实战,这样才能够把工具的价值最大化,才能够真正理解知识、理解数据的内涵,然后学会举一反三。

没有真正做到工具、知识与应用的结合,似乎就是学习者们遇见诸多问题的原因,而在业务实战的具体场景中边做边学应该就是解决这些问题的方法。

那么,疑惑再度出现,对于一个新手,或者运营经验并不丰富的数据分析师来说,他们没有见过那么多的业务场景,也就不可能边做边学,这个问题又该怎么解决呢?

没关系,这也是我的痛点,我也力图将这一痛点完全解决掉。在这本书中,我会把一些真实的业务场景展示出来。我会从用户故事和具体问题出发,手把手地带着大家学习,从问题的出现到理论的分析,再到工具的介绍和使用,直至问题的解决,把知识扎实地落地。在这个过程中,强调理论、工具和实战场景的结合,我将用简单的语言和示例讲解高级又有用的技巧。

除了想奉献给读者一本实用、“硬核”的数据分析和数据运营的技术参考书之外,我还有第二个小目标,就是希望这是一本非常有趣的数据分析参考书。

王小波说过:“每一本书都应该有趣。”可是,现实世界的真实情况是大家在学习技术时感觉太枯燥了,读书也太累了。所以,我真心希望能够有一本书带着大家一起快乐地“玩”数据。

而且这个快乐学习的小目标与我的“在场景实战中学工具、学技术”理念完全不矛盾。只学编程语言和数据分析工具难免枯燥,但是结合了业务场景和用户故事,大家就能快乐地学习了。

为什么这么说呢?因为通过数据分析能够从数据中挖掘出价值,能够把这一价值用漂亮的图表呈现出来,能够看到自己的建议驱动了运营的增长,还能看到数据中隐含的“秘密”,从而给公司业务带来巨大的增量。

数据带来的好处实实在在,能看得见。

这本书中没有什么深奥的东西,全都是一些大家能够读懂的用户故事、实战案例和Python工具的使用方法。有了它们,数据不再是简单的数据,而是你的工具,怎么使用它,随你。

现在一起来看看,表面上普普通通的数据,在普普通通的运营场景中,我们可以“玩”出哪些“花样”。

在这里,我们用Python对用户进行简单画像,发现一张眼影盘促销海报错发给了不适合它的受众。

在这里,我们通过收集用户的行为信息,利用RFM分析判断用户的价值高低,并且预估一个用户会在该产品上花费多少钱。

在这里,我们把各个营销渠道排列组合、动态配置,看看是抖音、哔哩哔哩(B站)还是小红书更适合推广自己的产品。

在这里,我们使用漏斗模型聚焦转化率,看看哪一个环节才是用户决定使用我们产品的关键。

在这里,我们分析用户留存和流失的相关因子,让用户的留存曲线一目了然,通过该曲线可以发现会员卡中的哪些配套服务更能留住会员。

在这里,我们用内容分析探索产品的价值。

在这里,我们用推荐系统找到喜欢的好物。

在这里,我们用A/B测试发现助力促销的方法。

在这里,我们用增长实验寻觅更有效的裂变方案。

写着写着,我又发现书中的内容渐渐超越了数据分析本身。本书的内容逐渐形成了一种方法、一种思路、一个体系,希望读者通过对工具的使用养成一种从数据中发掘“蛛丝马迹”并提取其价值的思维习惯。数据科学的从业者、数据分析和运营人员需要养成这种思维习惯,培养自己透过数据的表象看清业务本质的能力,把数据转换成实实在在的价值。

在这里,我们对数据的推理已经超越了传统的数据分析,我把该推理方法称为“数据演绎法”。

在数据的世界里,你就是“福尔摩斯”。数据中隐藏着什么,由你去发现。

本书的使用方式

说了这么多,那么作为读者的你应该如何使用这本书,才能让它的价值最大化呢?

我的第一个建议就是动手实践。真正动手做出的东西才是属于自己的。

此外,我还有另外一个建议。在开展机器学习的相关课程后,我从众多的读者留言中收获了大量有价值的建议,也从中发现了交互式学习的重要性。“教学相长”是一件非常关键的事情。如果我和众多读者一起继续打磨书中的实战案例,一起优化细节,一起发掘书中业务场景的更多、更好的解决方案,那将是一件十分有意义的事情。

例如,读者“Shatu”为某些读者在使用Matplotlib作图的过程中无法显示中文字体的问题提供了基于他的运行环境的具体解决方案。

示例:某些读者使用Matplotlib绘图时无法显示中文字体

解决方案是在绘图代码前添加下面的代码。

In

plt.rcParams["font.family"]=['SimHei'] #用来设定字体样式
plt.rcParams['font.sans-serif']=['SimHei'] #用来设定无衬线字体样式
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

不过,因为不同系统环境的配置也不尽相同,如果读者遇到类似问题,也可以在互联网中搜索其他解决方案。例如先确认系统有没有中文字体,如果没有,先下载安装一个中文字体,然后再进行相应的设置。若觉得上述步骤麻烦,可选择的另外一个办法是把要绘制的相应文字内容转成英文再绘图。

又如,读者“在路上”就聚类算法的实际应用场景给出了与自己工作相关的建议,建议如下。

“我从事游戏行业,会根据玩家充值金额来定义大、中、小R值,充值金额区间的定义全凭经验,而用今天学的K-means算法定义充值金额区间就非常合适。我最近在学习大数据,想统计HDSF上文件大小的分布情况,也可以用K-means算法。”

这对于一起学习的读者将是十分宝贵的建议。而且有了这些建议,你在学习的路上也就不会感到孤单。正所谓:“独乐乐,与人乐乐,孰乐?”

因此,我建议读者通过下面3种方式来“集体学习”本书。

第一,我会把本书全部的数据集和代码发布到Github上面,链接为https://github.com/huangjia2019/datalogic。大家可以一起维护、优化代码。

第二,我会建立本书的读者微信群,具体的入群方式大家可以在异步图书网站本书的页面上找到。大家可以入群一起学习,交流想法。

第三,虽然目前疏于维护,但是我仍然会不定期地更新公众号“咖哥数据科学讲习所”中的内容,大家可以通过该公众号或者我的邮箱tohuangjia@gmail.com联系我。

我要感谢的人

写作是一件快乐但并不容易的事。在此我要感谢很多人。首先就是我的另一半,她在辛苦工作之余,还担负了经营家庭、教育儿女的重任,本书能够顺利完成,她的功劳很大。

感谢我的老板Janet、Mark、Desmond。感谢他们对我的全力支持和信任,让我能够自由地做我想做的事情。在这本书问世的时候,也许我已经离开埃森哲,开启新征程,但对你们我有着深深的不舍。

感谢我的同事和团队:Dennis、Ananth、Wai Hong、Zulaiha、Josef、Karsen、Sally、Lawrence、Swathi、Swasthi、Mart、Pei Juan、Swee Hai。和优秀的人一起工作,工作从来不是负担。

非常感谢Mustafa Bari Karaman、Morten Hegewald 在博客中对数据化运营进行的有见地的分享,他们为我写这本书提供了很多灵感和启发,感谢他们同意我引用他们作品中的部分数据集和代码。感谢海燕帮助我审阅了本书A/B测试部分的统计学知识。感谢其他数据分析行业的前辈允许我使用他们在网络、博客上发布的部分内容。

非常感谢明轩、忠仁哥家的好菜,利娟、侨发哥家的好酒,菁姐、杨哥的鼓励,朱大哥多年的陪伴,于教师的长期指导,言词伉俪、董力伉俪、阿良伉俪在中新成都会中的玩笑逗乐,感谢牛哥、贺老、老陈、小琚等老同学在本书创作期间经常用火锅款待我。

感谢颜景燕编辑,这本书能最终成形,颜编辑功不可没。同时也感谢一路走来给予我大力支持的人民邮电出版社的所有编辑。

感谢我的爸爸、妈妈一如既往地支持我、鼓励我。

开启新的旅程

最后,我也要感谢购买这本书的读者。

相逢即有缘,而我们之间的缘分从这本书开始。

如果你希望在数据之路上开始自己的探索,如果你想更深入地了解什么是“数据演绎法”,想知道新手小雪是怎样在一次次有趣的数据运营实战中成长起来的,那么就和咖哥一起,在一个个有趣的案例分析和编码实战中,开启一段好玩的数据分析之旅吧!

黄佳

2022年6月

资源与支持

本书由异步社区出品,社区(https://www.epubit.com/)为您提供相关资源和后续服务。

配套资源

本书提供如下资源:

实例配套资源代码;

实例数据集(部分)。

章节配套课件(PPT)

要获得以下配套资源,请在异步社区本书页面中点击,跳转到下载界面,按提示进行操作即可。注意:为保证购书读者的权益,该操作会给出相关提示,要求输入提取码进行验证。

如果您是教师,希望获得教学配套资源,请在社区本书页面中直接联系本书的责任编辑。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”,输入勘误信息,单击“提交”按钮即可。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

扫码关注本书

扫描下方二维码,您将会在异步社区微信服务号中看到本书信息及相关的服务提示。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区投稿(直接访问www.epubit.com/contribute即可)。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社近30年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、AI、测试、前端、网络技术等。

      

  异步社区                    微信服务号

引子 小雪求职记

一场小雪,把冬季的北京装点得分外清丽。雪后的天空蓝蓝的,空气又凉又爽;街上玉树琼花,交相辉映。

小雪走进坐落于北京五环外的一栋写字楼,乘电梯来到一间名为“咖哥数据科学讲习所”的公司门外。等待着她的是一场面试。

小雪,曾经是一家互联网公司的运营人员,她在业余时间自学了Python,梦想着有朝一日成为互联网大厂里的资深数据分析师。好巧,听说她在找数据分析相关的工作之后,表姐小冰给她转发了一份有点“另类”的招聘广告(见下图)。

咖哥数据科学讲习所的招聘启事

表姐说,她的一位朋友刚从互联网大厂出来,自己创业开公司,通过研究运营数据,为各种各样的公司提供实际业务问题的解决方案,据说公司的生意很不错。此人人称“咖哥”,是个挺有意思的人。

这家公司没有前台,工作环境类似于老式教学楼中的办公室,进门后就是很多办公桌,一个看不出具体年龄的男生正在白板前写写画画。

听到有人进门,他转过身来,这人戴着无框的圆眼镜,看上去有点滑稽。

“你是来应聘的小雪吗?”

“是的,您就是咖哥吧。”小雪怯生生地回答,“面试是9点,我就9点整到的。”

“嗯,你很准时,小雪。”这位被称为“咖哥”的人点点头,而他接着说的话让小雪大吃一惊。

“你昨天睡得很晚,今天起得早啊。你是搭857路公交车来的,那车8点36分就到站了,从车站走到这里,大概只要7分钟,而你为了准点到这里,走得很慢,用了20多分钟才走完这几分钟的路。”

趁着小雪还没反应过来,咖哥又补充了一句:“你走得虽然慢,但是倒不像我这儿那些‘机不离手’的年轻人,你走路时是不看手机的。”

小雪忽然觉得自己从下车到上楼这一路都被监视了。

——不对,她顺着公司的窗户望出去——这不是她走过来的那条路啊,按理说咖哥不可能在屋子里看到她。

“哈哈,我吓着你了?” 咖哥笑了,“我不是‘神仙’,也没有千里眼。我刚才做出的所有判断都是通过数据+演绎的方法得到的。”

“数据?”小雪更加困惑,“数据在哪儿?”

“先卖个关子,等我们今天的面试结束,其实也不算是面试,我想了解下你已经掌握的知识,就算是咱们进行一次关于数据的交流吧。之后,我再来解开你心中的这些疑团。”

本篇中会对数据分析师需要掌握的基本工具和思维方法进行全局性的介绍,并展示数据分析的知识图谱。本篇并不对每个工具和方法做详细的说明,更深入的探讨将在实践篇中完成。

一、欲善其事先利器:数据分析技能进阶图谱

题解 标题化自《论语·卫灵公》——子贡问为仁,子曰:“工欲善其事,必先利其器。居是邦也,事其大夫之贤者,友其士之仁者。”意思是工匠开始工作之前,要先磨快工具;住在一个国家,要先与这个国家的贤人、仁者交朋友。这说的是准备工作的重要性。好的工具能起到事半功倍的作用,数据分析亦然。

“数据分析师的成长之旅并不简单,很多人都曾问我,从新手到高阶数据分析师要走过怎样一条路。”二人坐定后,咖哥抛出第一个问题:“小雪,能否谈谈你的看法,数据分析师需要掌握哪些基础、实战和进阶技能。”

小雪显然是有备而来,她快速地画出了下图所示的数据分析师技能进阶图谱。

数据分析师技能进阶图谱

“我认为,Excel、统计学和数学基础、Python/R语言、SQL、Tableau、Power BI等是工具;此外也需要了解业务分析模型和具体业务场景;而增长黑客理论、精益数据分析模型可以说是理论或思维方法。工具、业务场景和思维方法要整合起来,形成体系才有价值。”

咖哥点头:“看来你是有备而来。提醒一点,数据分析的工具和方法很多,并不是越难就越好,要在深入理解业务场景的前提下灵活选择。另外,背景不同的数据分析师掌握各个技能的顺序也会有所不同,技术型数据分析师可能有比较好的程序设计功底,在进阶之路上就要多了解业务知识;而业务型数据分析师可能对企业的运营流程比较熟悉,那么他们需要重点学习的就是Python或者其他编程知识。”

说着,咖哥又画了一张图(见下图):“这是上述工具和方法的另一种展示形式。”

理论、方法与工具

二、深入业务寻价值:价值源于深度理解场景

题解 数据本身无价值,其价值存在于数据的应用场景中。从业务场景出发,找到对运营有指导作用的内容,这是我们做数据分析的基本原则。

说完了技能进阶图谱,咖哥转向下一个问题:“单纯地对着一大堆数字分析来分析去意义不大。企业的数据分析部门要为具体的业务问题量身定制解决方案。我这里准备了一些业务场景卡片(请看下面5个挑战卡片),你能针对这些场景说说数据分析师应如何进行数据分析吗?”

挑战1 数据分析师要帮助销售部门选择合适的渠道

挑战2 数据分析师要根据已有数据进行用户画像

挑战3 数据分析师将搜集并分析用户对每种商品的评价,搭建合理的推荐系统

挑战4 数据分析师将利用机器学习方法进行建模,预测销售趋势

挑战5 数据分析师将参与搭建高效的业务数据平台

小雪逐个翻看卡片,面露紧张的表情:“其实,这正是我一直困惑的问题,工具我都学了,Excel、Python培训班上了四五个,数据思维的相关文章也读了很多,但面对数据时,我还是感觉下不去手……”

咖哥看出了小雪的不安,安慰道:“不急,不急。这其实是初阶数据分析师和高阶数据分析师的关键区别——有经验的高阶数据分析师更能深入了解业务需求、根据业务需求做数据分析,从实际出发,有的放矢。我们暂不谈工具的使用,先好好说说数据与运营、增长之间的关系。这有助于你了解数据分析师如何真正创造价值这个‘最后一公里’问题。”

1 驱动运营增长的AARRR模型

首先,我们要知道在实践中,数据分析应深入契合业务场景的每一个角落,在各个支点发力,对业务做出支[1]

[1] 此处是咖哥讲述的内容。全书有大量类似的咖哥发言,考虑到全部加双引号可能会影响读者的阅读体验,所以在没有对话的地方,本书换了一种形式,即不加双引号。

如何满足上述要求?关键在于对各个运营场景(环节)进行分解,并在分解场景的同时明确当前所需的数据指标。

如何分解运营场景?增长黑客理论[2]中的海盗指标能给出答案。

[2] 对于增长黑客理论体系更详细的介绍参见本书第十话。

海盗指标这一术语由风险投资人戴夫·麦克卢尔创造。他将诸多关键数据指标归并至创业、创新和运营过程中的五大阶段,分别为获取用户(Acquisition)、提高活跃度(Activation)、提高留存率(Retention)、获取营收(Revenue)及良性的自传播循环(Referral),即AARRR[3](见下图)。众多互联网公司在实际运营中将这五大阶段简化为获客、激活、留存、变现和自传播

[3] AARRR指标,有时候会多增加一个A(Awareness),用来强调在获取用户之前要先做好心理建设工作。

这五大阶段也可视为驱动增长的五大核心引擎。

创业、创新和运营过程中的五大阶段

上述的5个阶段并没有严格的先后顺序,各阶段之间也没有明显的界限。例如,获客和留存是相辅相成的,在这两个阶段中也常会采用相同的数据分析方法。又如,具体到某个用户来说,他可能先推荐某个产品给朋友,然后自己才购买。这样自传播阶段就先于获客、激活阶段出现。如何分清界限并不重要,我们只需要明白这5个阶段实际上是为了帮助创业者、公司运营人员及数据分析人员思考如何用数据构建驱动增长的框架[4]

[4] 其实就是本书的写作框架。

那么,各阶段具体的关键数据指标有哪些?

(1)不同的商业模式所关注的关键数据指标是不同的。除了共同关注的流量指标之外,淘宝等电商平台更关心购买转化率;而知乎等UGC(User Generated Content,用户生成内容)平台更关心用户活跃度、内容输出的频率和质量。

(2)公司在不同创业阶段所关心的关键数据指标也不同。公司在每一个阶段都有自己的北极星指标,即当前的第一关键数据指标。例如在公司早期阶段,获取用户是重中之重,公司要不遗余力地让更多的用户了解并使用自己的产品,此时的北极星指标是用户数;而当积累了一定的用户数量并且保持一定的活跃度后,公司要关注的就是营收指标,此时的北极星指标可能是销售额[5]

[5] 此处引自《精益数据分析》第5章“数据分析框架”。

AARRR每一个阶段的任务和关键数据指标如表1所示。

表1 AARRR每一个阶段的任务和关键数据指标

阶段

任务

关键数据指标

获取用户

通过各种手段提高产品曝光率,从而提高产品知
名度

流量、提及量、搜索结果排名、用户获取成本(CAC,Customer Acquisition Cost)、点击率

提高活跃度

将获取的过客式访客转化为真正的参与者

注册人数、注册量、新手教程完成量、至少用过一次产品的人数、订阅量

提高留存率

让用户反复使用产品并表现出黏性行为

用户参与度、距上次登录的时间、日/月活跃使用量,流失率和留存率

获取营收

商业活动的收益(如购买量、广告点击量、内容产生量、订阅量等)

用户终身价值、转化率、购物车大小、广告点击营收

良性的自传播循环

已有用户对潜在用户的“病毒”式传播及口碑传播

邀请发送量、转发率、裂变数、“病毒”传播周期

通过这些可量化的关键数据指标,数据分析师可以在每一个阶段对运营的具体效果给出客观的反馈,从而驱动下一步的决策。

2 精益数据分析的业务方法论

有了AARRR 模型及各阶段的关键数据指标之后,还要找到一个实证有效的方法论,以指导业务的数据分析流程。下面介绍阿利斯泰尔·克罗尔提出的精益数据分析,它能让数据分析师在面对业务需求时不再感到困惑。

精益数据分析把业务拆解和数据分析划分为下图中的4个步骤。

拆解业务问题,进行分析、决策

上页图中4个步骤的具体介绍如下。

第一步:结合当前的业务模式和业务阶段,选择一个希望改进的KPI(关键绩效指标),并为该KPI确定一个基准值。

第二步:确定数据指标,将其进行细化,并找出提升KPI的方法。

第三步:为数据指标制定方案并进行增长实验,搜集数据后进行分析。

第四步:根据数据的测试和分析结果做出决策。

上述步骤的第一个关键点是定位自己的业务模式和所关注的业务阶段,也就是确定问题。问题本身决定了我们需要关注的数据指标和KPI。之后要为KPI设置基准值,用来衡量是否达到预期结果。基准值可以自主设定也可以参考行业基准值。

第二个要强调的关键点是在数据分析的实现过程中,往往需要制定方案,进行实验,检测新方案是否能达到预期的结果或验证最初的假设。例如要想提高注册页面的转化率,方案是调整注册按钮的文字;如何知道是“注册新用户”转化率高还是“点这里试试”的转化率高?这时可能就要用到A/B测试了。再例如,在获客时想知道选哪个渠道做推广效果会更理想,那就需要在多个渠道同时投放广告,然后搜集数据进行对比分析。

也就是说,我们推出的每一个新功能、做出的每一个新决策是否符合用户预期,是否受用户欢迎,都需要通过数据来回答

三、积跬步以察千里:数据的采集与治理

题解 本节标题化用《荀子·劝学》中的“不积跬步,无以至千里;不积小流,无以成江海[6]”。数据的采集是一个长期的积累工作,包括数据埋点、收集、清洗等多个环节,不可能一蹴而就。把原句的“至”替换为“察”,意在提醒大家数据的采集是洞察价值的起点。

[6] 含义类似的古代名句还有《道德经》中的“合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下”。

咖哥继续说:“没有足够数量和质量的数据,数据分析就是无源之水、无本之木。数据从何而来?小雪,你来说说数据采集的步骤。提示一下,你可以先思考我们为什么要采集数据。”

小雪回答:“我明白了,咖哥,你这个提示的意思是要我先明确目标,再采集数据。不过,对于具体的数据采集步骤,我没有实际经验,还是想听听咖哥你的专业看法。”

咖哥听了这话后继续开讲。

1 采集数据之前先明确目标

目标决定数据的来源和采集方法。如果我们采集数据的目的是学习数据分析方法和数据挖掘算法,那么有很多公开的数据集可以下载。例如,知名的数据科学网站Kaggle中就有很多有价值的数据集,阿里云的天池网站中也提供了很多数据集。

如果数据是为运营服务的,则要从业务本身出发,多角度采集数据。Avinash Kaushik在《Web Analytics》一书中将数据的来源分为4个部分:点击流数据(clickstream data)、运营数据(outcomes data)、调研/定性数据(research/qualitative data)和竞争对手数据(competitive data)。点击流数据指用户浏览网站时留下的行为数据,如点击率,跳出率等;运营数据指用户使用服务或者产品(如网站或者移动端App)时被记录下来的数据,如日活跃、月活跃用户数等;调研数据是通过用户调研手段(线上、线下问卷,线下调研或用户访谈等)获取的定性数据;竞争对手数据包括与自家产品有业务关系、竞争关系或存在某种利益关系的其他数据。

数据的采集并不容易。现代企业的IT系统多而复杂,从用户点击流数据、产品数据、营销数据、社交平台数据,到ERP系统和CRM系统数据,都由不同的系统进行管理和存储,这样数据也就被割裂分布在众多系统中,形成了数据孤岛。具有多元业务的企业的各部门也常常自建系统,这些系统满足了单一的业务场景,却使得企业数据难以被全局规划、定义和管理。想象一下,如果没有分析团队和市场营销团队都能够理解的统一标记和跟踪策略,将点击流数据和市场营销数据集成在一起的工作就会很有挑战性,做数据分析的难度也会很大。

2 数据中台解决了什么问题

数据中台能帮助企业解决数据难找、难用、割裂等问题。现代企业的目标是以用户为中心,迅速响应用户的需求。直接面对用户的业务过程就是企业的“前台”,而传统的数据库和各种IT系统就是企业的“后台”。

企业从满足用户需求这一目标出发,需要提高自己的数据整合和治理能力,通过统一而高效的数据平台为“前台”业务赋能,用数据平台的确定性来应对用户需求的不确定性。

这就是数据中台的核心价值。数据中台是数据平台的下一站,它为业务赋能。建设数据中台的过程是数据平台不断进行自身治理、打破技术边界、拥抱业务、容纳业务、加强业务属性的过程[7]

[7] 此处说法引自王健的极客时间专栏“说透中台”。

3 做好数据埋点,搜集有价值的信息

听到这里,小雪问咖哥:“常听人说做好埋点,这个过程是不是指数据采集和数据中台的建设过程?”

咖哥回答:“它们有一定的关联。”

埋点(event tracking)是指对用户行为或事件进行捕获、处理和发送的过程[8]

[8] 此处说法引自赵小洛《人人都是产品经理》文章中的“数据埋点采集”。

数据分析师、产品经理和运营人员通过埋点对用户行为的发生位置进行开发、布置;通过工具捕捉埋点事件的关联数据,将数据记录汇总后进行分析,从而优化产品、指导运营。埋点的质量将直接影响数据、产品、运营等部门的业务质量。

埋点是数据平台和数据中台建设过程中的重要环节,通过埋点获取的数据则是数据分析师所需的资料。埋点源于业务需求,服务于业务需求,能对产品和服务进行全方位追踪;而在埋点实施的过程中要用到数据采集、处理和发送等相关技术。

4 加强数据治理,提高数据质量

小雪不禁又问:“埋点重要,那么数据清洗是不是也很重要?”

咖哥说:“当然重要。数据分析师拿到的数据往往很‘脏’,很少能直接使用。不过要谈数据清洗,先说数据治理。一般人解决问题的思路是见招拆招。但那只是被动地解决问题,我们应该从源头解决问题,尽可能避免‘脏’数据出现。这就是数据治理的核心思想。”

数据分析师们总结了数据治理的原则,即约束输入,规范结构,单一来源,规范输出

什么是约束输入?例如,数据库中城市名称会出现“北京”“Beijing”“beijing”这类多值同义的情况。为解决该类问题,在设计系统时,应该通过下拉菜单约束用户只能选择其中的某个选项,从而避免让用户手动输入文本。只有选项很难满足需求时,才让用户手动输入。手动输入数据时,也要做好格式和逻辑的检查,如必填字段、时间日期的格式、数据正确的范围等。

规范结构的一个例子是在设计输入表单和数据表时进行原子化,原子是不可分割的最小独立单元。例如,地址数据最好细分成省、市、区、街道、门牌号等,分得越细越不容易出错。此外,数据表中的字段要合乎逻辑、结构清晰,主键的选择要精简且合理。

数据的来源应单一,对应的英文为single source of truth(唯一的真实来源)。同一个数据字段,这个表里有,那个表里也有,此时就应该把这两个表相互关联,用外键约束该字段。否则,如果数据出现冲突,就不知道哪个表更可信,且溯源的过程十分复杂。

此外,企业内部也要进行数据指标的规范化。例如像“留存率”“月活数”这类的指标,如果各个部门的计算方法不同,向上级汇报的难度就会变大。因此,公司应该有专职人员负责制定规范,创建一个全公司通用的“数据字典”,统一各指标的意义及计算方法。

数据治理说起来虽然简单,但执行起来并不容易。因为很多公司在成长期追求发展速度,顾不上数据治理。然而,当出现一大堆又“脏”又乱的数据之后,再进行数据治理就会很麻烦。

四、沥尽狂沙方见金:数据的清洗与可视化

题解 用刘禹锡《浪淘沙》中的两句诗来形容数据清洗再恰当不过了——“千淘万漉虽辛苦,吹尽狂沙始到金[9]”。数据清洗是提高数据质量、使数据变得可用的过程,数据清洗会提升数据分析的准确率。

[9] 《浪淘沙九首》之八。全诗:“莫道谗言如浪深,莫言迁客似沙沉。千淘万漉虽辛苦,吹尽狂沙始到金。” 这首诗告诉我们:辛苦、委屈和磨砺都是达到目标、实现价值的过程中必须经历的。

咖哥问小雪:“谈一谈你对数据清洗的看法吧。”

小雪答:“我认识一位在银行做数据分析师的学长。我曾问他每天都在做什么项目,是不是要分析给什么样的用户发什么卡,判断什么样的用户风险高。学长很实在,告诉我其实他日常工作的大部分内容是把数据整理成能用的格式。所以我想数据清洗是数据分析师工作中很繁重的一部分吧。”

咖哥点点头:“的确是这样的。”

1 “脏”数据的清洗

很多人都说做饭时油下锅开始炒菜是最爽的环节,但一般炒菜时间只占做饭时间的20%,剩下的时间都是在准备食材,如买菜、择菜、洗菜。数据清洗就是在开始“炒菜”(数据分析)之前的准备工作(见下页图)。准备工作做得越好,数据越干净,数据分析结果就会越准确。

数据清洗占数据分析师的大部分工作时间

看看下面这个从数据库中直接提取出来的Excel表,你就会发现,“脏”数据的种类很多。

“脏”数据的示例

数据清洗过程中主要处理下面这4种数据。

(1)缺失的数据。

这里有两种可能的情况:一种是缺少数据记录;另一种是有数据记录,但是不完整。

对于缺少整条数据记录的情况,要分析埋点过程中哪里存在流程或技术上的问题。对于重要数据因误操作丢失的情况,如果备份系统里面还有该数据,可以重新载入:如果备份系统里面没有该数据,试一试是否能通过原始文件手动补录。

对于有数据记录但是含有缺失值的情况,有以下两种处理方法。

如果含有缺失值的数据记录不影响数据分析结果,可以将其删除,但这样做会减少样本的数量。

如果不希望删除含有缺失值的数据记录,则可以通过一些方法补充缺失值,如取其他数据记录的平均值、随机值或者0值来补充缺失值,这称为数据修复。

Python的Pandas中有工具(API[10])可以用来完成上述的删除和补充缺失值工作。

[10] Pandas等Python包中提供的方法、属性和函数统称为API,即用于实现某种功能的程序接口。

(2)重复的数据。

完全相同的重复数据处理起来比较简单,用数据处理工具删除冗余数据即可。Excel和Python的Pandas中都有相应工具或API。

但是如果同一个主键出现两行不同的数据,例如同一个身份证号出现两行不同的地址数据,此时要看看有没有其他辅助信息可以帮助判断(如时戳)哪一行数据是正确的。若无法判断,只好删除其中一行,或者全部保留。

(3)错误的数据。

数据中可能有各种逻辑错误。例如,商品的销售量、销售金额出现负值,此时就需要将其删除或者转成有意义的正值。又如表示百分比或概率的字段的值大于1,这也属于逻辑错误数据。

(4)不可用的数据。

还有一些数据不能算是错误数据,但是需要转换格式后才能够正确使用,如价格字段,有些以人民币为单位,有些以美元为单位,如果直接对这些数据进行求和,得到的结果就是错误的。另一些常见例子是把“是”“否”分别转换成“1”“0”再输入机器学习模型,或者把多分类字段转换成模型能够识别的多个二分类字段。

通过数据治理将上述所有情况从源头处理好,其效果远远好过事后补救。

“脏”数据清洗的工作完成之后,数据分析师的下一步工作通常是把数据可视化。

2 数据的可视化

“小雪,看一下咱们数据科学讲习所的年利润率增幅图(见下图)。”

给投资人看的利润率增幅图

小雪说:“好大的增幅啊。”

咖哥说:“很大是吗?那你再看看下面这张图(见下图)。”

咖哥自己看的利润率增幅图

小雪定睛细看,喃喃自语:“怎么回事,一样的数据,现在又不觉得有多大的增幅。这是用了什么障眼法?”

咖哥笑道:“这就是数据可视化过程中的一个小技巧。”

用同样的数据制作的图,第一张图适合给投资人看;而第二张图适合给自己人看,以提醒大家不要对小小的增长过于沾沾自喜。第二张图中的视觉增长和我们营收的实际增速一致,都约为25%;而第一张图在并没有修改数据的前提下把25%的营收增速在视觉上放大至近300%。

因此,数据还是那些数据,如何展现它们,其中的学问可就太大了。

有很多种工具可以实现数据的可视化。

我们常接触的Excel中可视化工具不少,基于数据透视表的透视图就是其中之一。

专业的数据分析工具,如Power BI、Tableau等,它们也提供了强大的数据可视化功能。

各种商用数据分析平台,如Google Analytics、百度统计、GrowingIO、诸葛IO、神策数据、西瓜数据,都可以实现数据的可视化。

Python、R语言、MATLAB语言中都有数据可视化包,如Python中常用的Matplotlib,R语言中的ggplot2。

“数据可视化与用户体验直接相关,那么谁是数据可视化的用户?”咖哥问。

小雪说:“数据分析师本人?”

“当然,还有其他部门的同事,更重要的是数据可视化后的结果往往要呈现给老板或者客户。因此用户体验至关重要。”

在后续的实践篇中会讲解数据可视化的大量细节,这里只说一些用户体验要素,可作为数据可视化的指导思想。

(1)永远要记得你的用户。数据可视化的结果是数据分析师的产品,而产品是给用户看的,要让用户看得懂,看得清楚。

(2)少即多,简单就是美。尽量简化数据可视化的结果的配色与排版。一般情况下,一张图片中的颜色不要超过3种,字体不要超过3种,能不用的背景色就不用,不需要的网格线全部删除。

(3)注意对比。单独一行数据包含的信息有限,把两行或两行以上的数据放在一起展示更易于发现其中的问题。

(4)强调一致性。一系列的数据可视化的结果要基于相同的标准,最好让它们使用同样的模板。因为人的思维有惯性,要避免易引起混淆的跳跃。如果有两张业务增长图,其中部门A的y轴从0开始,部门B的y轴从50%开始,这两张图在同一份报告中出现就很不合适。

类似的指导原则还有很多。它们是我们在一开始就应领悟的“道”。虽然“道”和“术”都很重要,但我想反复强调“道”。因为对“道”的深入理解能够让我们走得更稳,走得更远。

五、营运之道无定法:数据分析的核心方法

题解 在实践过程中,数据分析师们总结出了许多具体的数据分析方法,了解这些方法的精髓,可将它们灵活应用于运营流程的各个阶段。

咖哥的下一个面试问题有关数据分析的方法:“小雪,你都用过或者听说过哪些具体的数据分析方法?”

小雪回答:“很多,如用户画像、A/B测试、漏斗分析、RFM分析……”

“对极了,用户画像、A/B测试可是数据分析师、运营人员和产品经理都务必要掌握的,下面咱们先对这些分析方法中的精髓给出概述,以后再使用这些方法进行案例实战。”咖哥再次忘记了这是一场面试,又滔滔不绝地讲起来。

1 用户画像:多维拆解用户信息

用户画像的本质是用户信息的标签化,它把每一个用户都描述成各类数据的变量集合。这个变量集合被运营和数据分析师使用,他们将对其进行多维度的拆解。

用户画像可以有多个维度。它不仅包括基本的年龄、性别、地域、兴趣等用户信息,还包含用户的消费特征、行为方式等维度。

从多个维度了解用户之后,可以对用户进行精细化的分组,给产品开发、运营过程以精准的指导。

2 RFM分析:确定用户的核心价值

RFM(Recency、Frequency、Monetary )分析其实是用户画像的“衍生品”。它通过用户最近一次消费、消费频率及消费金额3个指标将用户划分为不同的类别或集群,以描述用户的价值,如下图所示。

在RFM分析中,R表示最近一次消费,F表示消费频率,M表示消费金额

为什么要构建R、F、M这3个指标?因为用户的行为本身并不能直接用于数据分析,但是如果把用户的行为转化为像R、F和M这样的具体数值之后,我们就能对用户有更直观的认识,并将这些指标运用于数据分析、精准投放广告、制作产品推荐系统等多个运营场景。

3 波士顿矩阵:协助企业分配资源

波士顿矩阵(BCG Matrix)又称四象限分析法、产品结构管理法等,常用于协助企业分析其业务和产品序列的表现,从而更妥善地分配、开发和使用资源。

波士顿矩阵是一个2×2的矩阵,其横轴是市场占有率,纵轴是销售增长率,如下页图所示。

波士顿矩阵

数据分析人员要搜集业务资料,确定业务或产品的表现,并将其标在图中的适当位置,得到4种分布情况。

问号(question mark)也称为野猫(wild cat),它是指销售增长率高但市场占有率低的业务。这类业务需要投入大量的资源,但尚未为公司带来可观的收入,其可能转化为明星业务,也可能坠入瘦狗区。因此,在向这类业务投放资源前应谨慎分析。

瘦狗(dog)是指市场占有率低及销售增长率低的业务。这类业务通常只能维持收支平衡,但实际上降低了公司的资产回报率。这类业务应该被售出或停止。

金牛(cash cow)是指市场占有率高及销售增长率低的业务。这类业务通常都为公司带来较高的现金收入,业务稳定但是沉闷。为这类业务增加投资并不会大量增加收入,所以公司只会维持这类业务基本的开支。

明星(star)是指销售增长率和市场占有率都高的业务。这类业务需要投入较多的资源以维持其市场领导者的地位,是公司重点关注的对象。

波士顿矩阵为产品或服务强与弱的判断提供了一幅有用的“地图”,能确定每种产品或服务的价值。它提供了一个优秀的二维拆分思路,利用这个思路,不仅可以进行产品分析,还可以将其他数据维度或用户标签两两组合并进行数据可视化,从而找出有潜力的业务。

4 SWOT分析:扬长补短,实现目标

一个与波士顿矩阵非常类似的分析工具SWOT[Strengths(优势)、Weakness(弱点)、Opportunities(机遇)、Threats(挑战)]是以四象限的可视化方式评估公司经营状况或者产品所面临的挑战的。其中每个象限都代表一个能给我们带来启发的问题,如下图所示。

SWOT分析

其实无论是波士顿矩阵、SWOT分析,还是5W2H分析,它们都不只是数据分析工具,更是良好的通用思维工具,可以把它们应用于工作和生活中,从而帮我们解决实际问题。

5 5W2H分析:从多角度提问,发散思维

5W2H分析是一种从多角度提问的分析方法,包括下述问题。

WHAT——是什么?有什么目的?要解决什么问题?

WHY——为什么要做?可不可以不做?有没有代替方案?

WHO——由谁来做?

WHEN——什么时间做?什么时机做最适合?

WHERE——在哪里做?什么地方出了问题?

HOW ——如何实施?如何提高效率?

HOW MUCH——做到什么程度?成本如何?产出如何?

通过不断提问,逐步接近事实真相,看清全局,从而得到启发或找到答案。

6 KANO模型:对用户需求进行分类排序

KANO模型是狩野纪昭(Noriaki Kano)发明的对用户需求进行分类和优先级排序的实用工具。它是一个定性分析模型,以分析用户需求对用户满意度的影响为基础,对产品功能进行分级,从而确定产品实现过程中的优先级。

根据需求和用户满意度之间的关系,该模型把用户需求分为5类,分别是基本(必备)型需求、期望(意愿)型需求、兴奋(魅力)型需求、无差异需求、反向型需求(见下图)。

KANO模型

其中,基本型需求最为关键,例如在线教育网站中的网速够不够快,课程能不能访问,视频能不能看,这些就是基本的需求。若不满足这些需求,用户根本就不会使用你的产品。但是基本需求一旦满足之后,用户的满意度就会停滞,不再继续提高。

此时要继续关注期望型需求和兴奋型需求,例如在线教育网站的课程质量就是期望型需求,它远远比网站页面设计重要。而兴奋型需求满足得好也会大大提高用户的满意度,这也是拉开竞争差距的关键。仍以在线教育网站为例,如果课程质量好,课程的交互界面设计得也不错,课程目录结构清晰,学生的学习体验好,那这个产品就更吸引人了。

无差异需求指的是可有可无的因素,它不会大幅提高用户的满意度,在做产品设计时,加入这类元素只会白费力气。而反向型需求指的是可能给用户满意度带来负面影响的因素,在设计产品时,这类需求需要坚决避开。

7 漏斗分析:显示关键转化节点

漏斗分析反映用户(或潜在用户)在使用产品和服务的过程中,从起点到终点各阶段的转化率情况。这一分析方法简明易懂,在用户行为分析、App及网站流量监控、产品转化等日常数据运营与数据分析过程中的应用很广。

漏斗分析

从上图可以看出,漏斗分析中直截了当地显示出了关键节点和“啊哈”时刻。它帮助用户分析出产品转化过程中关键节点的转化率,以此判断整个流程的设计是否合理、各步骤的优劣和是否存在可优化的空间。漏斗分析不应该超过6步,一方面避免分析过程过于烦琐,另一方面更能凸显关键节点。

8 A/B 测试:对比不同方案

A/B测试不难理解,它将两个不同的设计或者方案(即A和B)进行比较,用来研究某一变量所带来的差异。一般情况下,A和B两个方案中只有一个变量不同,而其他变量保持一致,然后再观察用户对A和B方案的反应差异,由此判断出A和B方案中哪一个更佳。

电商网站中的产品推广页面就很适合做A/B测试,因为一个按钮的位置、文字,推广文案,海报的颜色都能够对转化率产生影响;而转化率的微小提升可能大幅提升销售利润(见下图)。有时候虽然仅微调了按钮文字,却对转化率产生了明显的正面影响,对利润率的正面影响就更大了。这便是“四两拨千斤”。因此A/B测试不仅非常有趣,还非常有用。

A/B测试

A/B测试过程中会运用统计学上的假设检验,这就需要作为测试设计者的数据分析师对统计学原理也有所了解。

六、增长践行成于思:数据分析的关键思维

题解 王阳明说“知是行之始,行是知之成”。它的意思是在知行关系上,认知是行为的开始,行为代表认知的完成,应用思维来指导行动。《大学》首篇《经:大学之道》中有云“物有本末,事有终始,知所先后,则近道矣”。正确思维体系的形成就是成事之本,成功之始,成材之道。

咖哥的面试问题越来越抽象:“小雪,我们有了AARRR模型,精益数据分析模型,各种数据分析、采集、治理、可视化方法。那么在具体行动之前,如何用正确的思维指导实战,让数据真正开始‘说话’?”

小雪回答:“我觉得最重要的是要建立起一个完善的、能解决问题的逻辑思维体系……”

“逻辑思维体系很多人都听说过,但很少有人能够说清楚怎么建立起这个体系并用它来完善我们的认知过程。让我来和你说说。”咖哥再次成功抢过了话语权。

1 逻辑思维:演绎与归纳

什么是思维?什么是逻辑思维?

思维是人接受信息、存储信息、加工信息及输出信息的活动过程,是概括反映客观现实的过程。逻辑则是推论和证明的思考过程。逻辑思维是采用科学的方法反映客观现实的理性认识过程。借助逻辑思维,我们能够找到正确的思考方向,减少思考过程中的谬误及分析中的误差。逻辑思维能力就是指正确、合理思考的能力,是在认识事物的过程中,进行观察、比较、分析、综合、抽象、概括、判断、推理的能力。

数据分析基本遵循提出问题➟分析问题➟提出假设➟验证假设➟输出结论这一过程,这个过程本身就需要多种逻辑思维方法的参与。因此,良好的逻辑思维能力对数据分析的作用不言而喻。

逻辑思维的两种基本方法是归纳法和演绎法。

先说归纳法,它是从特殊到一般的推理过程,是通过个别经验归纳出普遍规律的方法,是从部分样本推知全体样本的过程,如下图所示。

归纳法

归纳法是基于经验的方法,其推理方式不够严谨。除非我们搜集了全部年轻女性的促销赠品信息,否则我们不能得出图中的结论。一只黑天鹅的出现,就能够推翻“天鹅是白的”这个基于经验得出的结论。

演绎法则是从一般到特殊的推理过程,它从一般原理出发,经过逻辑推理,解释具体事件或者现象,或推导出个别性的结论。其常见的表现形式是从大前提到小前提,再到结论的逻辑三段论,如下图所示。

演绎法

在演绎过程中,推论前提与结论之间存在联系是必然的,演绎法是一种确实性推理。

然而在现实情况下,一般原理也只能来源于经验。因此,我们不得不先使用归纳法得出原理,然后再用演绎法做出推断、判断或预测。“绝大多数男性都选择这款剃须刀作为赠品,针对男性用户推广该产品是可行的,向咖哥这样的用户推送该款剃须刀很合适。”—这句话中就包含了演绎法和归纳法两种逻辑思维方法[11]

[11] 逻辑思维方法是现代科学的起点。在数据分析过程中,再三强调它亦不为过。遵循逻辑思维方法(演绎法和归纳法),会让我们得出科学的结论。

2 发散思维与收敛思维

发散思维与收敛思维也是数据分析过程中常用的思维方法。

发散思维也叫放射思维或求异思维,其特点是视野广阔,多角度,多维度,呈现出发散状,追求“一题多解”。收敛思维也叫聚合思维或者求同思维,其特点是使思维始终集中于同一方向,使思维条理化、简明化、逻辑化、规律化。

将发散思维和收敛思维结合使用,可以帮助分析人员得到更有创造性的解决方案。具体步骤可以是先发散,再收敛。针对一个特定的问题,可以先展开“头脑风暴”,大家畅所欲言(发散),先不做任何限定和评判,得到尽可能多的答案和解决方案;然后把所有的方案集中在一起,按照相似性进行分类,此时可以淘汰一些不相关或者无法实施的方案;最后再进行排序与选择,确定一个或多个较好的解决方案(收敛)。

下面举一个电商运营环节中通过发散思维和收敛思维来解决问题的例子。

某知名电商以发货速度极快著称,然而也同时出现了用户大量退货的问题,有数据表明退货单占据总送货单的8%。问题是如何在控制退货造成的损失的同时提升用户体验

第一步是展开“头脑风暴”。无前提地提出尽可能多的解决方案,不考虑方案的可行性,如下图所示。

步骤一 展开“头脑风暴”

第二步是分类并减少方案。把上述所有方案进行分类与整合,减少重复方案,同时移除不可行的方案,如下页图所示。

步骤二 分类并减少方案

其中方案9是通过提高商品质量减少退货,这个方案过于宏大,涉及进货流程,需要单独立项探讨,暂时删除此方案。

第三步是排序和选择,确定最终方案。 

经过反复论证,公司认为其核心竞争力在于在减少退货的同时提升用户体验。因此最终确定下述方案(见下图)。

步骤三 排序和选择,确定最终方案

这样,VIP会员的会费成了公司新的收入来源,也可以用于建立自营物流公司以减少退货的成本。这样的做法也提高了公司的服务水准,进一步提升了公司的竞争能力,使得其他电商公司很难与其比肩。

3 从相关思维到因果思维

在现今的数据分析中,机器学习和统计学习方法[12]非常盛行。无论是机器学习,还是统计学习方法,都非常注重事物之间的相关性。而相关性需要通过对大量数据进行分析来发现。

[12] 二者无清晰界限。

举个例子,有数据表明,某海滨度假城市冰淇淋的销量和溺水人数呈现出很强的相关性。一旦冰淇淋卖得多,溺水人数就会增加,因此我们也可以将冰淇淋的销量作为一个指标,用来指导海滨救援人员的工作安排。

然而,冰淇淋卖得多和溺水人数增加只具有相关关系,不具有因果关系。冰淇淋销量增加是因为气温上升,气温上升使游泳人数增加,从而导致溺水人数增加。游泳人数增加和溺水人数增加才具有因果关系。

因此,通过数据分析和机器学习就能够发现看似风马牛不相及的两个事物之间的联系,这很了不起;然而,机器目前还无法给出相关性背后的因果逻辑推理过程。此时,数据分析师要使用逻辑思维中的归纳法、演绎法,在推理过程中贯穿从因到果的辩证,找到相关性背后的真正驱动因素。目前的AI机器无法取代人类完成这项工作,这也更体现出数据分析师的价值。

因果关系有下图所示的类型。

因果关系的类型

演绎法和归纳法都是由因及果的推理过程。

举一个因果思维的应用示例:由于监管不当,近期互联网保险行业的营销活动无法使用现金及优惠券等来促进保险交易的成交,这在一定程度上减少了活动的数量,因此交易量减少。那么,如何解决这一问题[13]

[13] 这个例子引自Wise的知乎文章《数据分析应学习逻辑思维及分析方法》。

先试着拆解出可能的因果关系,如下页图所示。

对示例问题的简单因果推理(不完善)

然后,进行因果辩证,提出一些假设性问题。

(1)原因是否真实?

(2)结果是否真实?

(3)这个原因一定会引出这个结果吗?是否有其他的原因?

如果假设的原因和结果都为真,对这3个问题可以做如下启发式的提问。

(1)使用现金及优惠券奖品,一定会使成交效果更好吗,是否有其他的方式?

(2)不使用这两种奖品,活动就一定不能做吗,是否有其他的奖品?

(3)活动没法做,一定不能促进保险交易的成交吗,是否有其他的方式?

此时,我们会发现一些表面上的原因只是结果的必要不充分条件。应先对结论提出假设,并设计实验或采取其他的手段来验证假设,最终验证结果才是真正的结论。

4 批判性思维:保持怀疑

上述的因果分析过程中也应用了批判性思维工具。

批判性思维一般包括理性的、保持怀疑的和无偏见的分析,以及对事实证据的评估等。思考者通过熟练地分析、评估和重构来提高其思维的品质。批判性思维是自我指导、自我约束、自我监督和自我纠正的思维。批判性思维着重研究如何系统地构建清晰的思路,以及研究不清晰思路的特征。

对于数据分析师来说,时时运用批判性思维的习惯能让他们透过现象看清问题的本质,并做到去伪存真。

5 结构化思维:形成系统

另一个有用的逻辑思维工具是把事物结构化。结构化思维是从整体思考到局部思考,先对事物进行分解,然后归类分组,最后总结概括。这是一种层级分明的思考模式,运用它可以把零散的信息整理成结构清晰的系统。

大家可能听说过麦肯锡咨询公司第一位女顾问芭芭拉·明托所著的《金字塔原理》。她总结出分为3个步骤的金字塔式结构化思维方法。

(1)归类分组,将思想组织为“金字塔”。

(2)自上而下表达,结论先行。

(3)自下而上思考,总结概括。

这种方法看似简单,实际上用处极大,运用它可以将碎片化的信息进行系统化的思考和处理,把复杂的事物分了层次,辅助我们更全面地思考,如下图所示。

结构化思维的好处

没有结构化的思维是零散混乱、无条理的想法集合,而结构化思维是一种有条理、有层次,脉络清晰的思考模式。

在结构化思维的分组过程中,要先发散,后总结,而且要遵循MECE原则。MECE是4个英文单词Mutually、Exclusive、Collective、Exhaustive首字母的组合,意思是各个部分之间相互独立,没有重叠;所有部分完全穷尽,没有遗漏

前面提到的SWOT矩阵、KANO模型,以及5W2H方法,其实都是从结构化思维衍生出来的分析工具。

在做数据分析的过程中,培养结构化思维十分重要,平时要刻意运用这种思维方法找逻辑结构,锻炼自己系统思考的能力。

6 图解思维:一图胜千言

俗话说,一图胜千言。另一个非常有用的思维工具是图形,用图形而非文字去引导思维往往效果更好。

法国数学家阿兰·孔涅曾说,数学当中的几何对应于大脑的视觉区域,并且是一种瞬时的、即刻的直觉。在这里,我们看到了一种几何图像,嘣!就是它,这就是一切,甚至不需要我们去解释,我们不想去解释。作家采铜在其著作《精进》中也提到,一张图表,能够直接激发直觉思考。这种直觉思考能引发顿悟,帮助人突破思考的瓶颈。

为什么会这样?

一是作为一种直观的表达,图片比语言文字更有优势,它可以让复杂的关系更好地展现,因此图形、图表比在纸面上占据同样空间的文字传达的信息量更大。

二是用图片展示信息,分担了人脑中工作记忆的负荷——一般认为大脑同时只能处理(7±2)个元素,突破了内存瓶颈后,工作记忆将有更大的活动空间,它可以参与更深、更广的思考。

咖哥在数据大屏幕前介绍图形与图表的重要性

因此,数据分析师都强调数据的可视化。这不仅是因为老板喜欢看图,还源于上述理论的潜意识支配——我们每个人都更愿意从图中获取信息。而一张精美的数据可视化图表不仅能展示大量的信息,还常常能够把数据间的隐藏关系直观地展现出来。

7 指标思维:北极星指标

指标的重要性不言而喻,在指标思维这个部分,我将介绍北极星指标、虚荣指标和魔法数字这些概念,然后给出优秀数据指标的一些特点,最后介绍互联网行业数据的指标体系的演进过程。

《精益数据分析》一书中提醒创业者在一段时间内只专注于某一个引擎。例如,先专注于让你的产品对核心用户产生黏性,接着把主要精力放在使其呈“病毒”式增长,最后再全力利用增长后取得的用户基数来增加营收,这就是专注。在数据分析的世界里,这意味着仅挑选一个指标,该指标对你当前所处的创业阶段无比重要。

这个指标就是北极星指标(North Star Metric),也叫第一关键指标(One Metric That Matters)。它是指在产品的当前阶段与业务、战略相关的绝对核心指标,它就像北极星一样,指引整个团队向同一个方向迈进(提升这一指标)。它是一个在当前阶段高于一切、需要集中全部注意力的指标。

目前的数据管理系统和数据分析工具很多,各种数据指标也很多,让人眼花缭乱,切记不要因能跟踪的数据太多而分散了注意力。我们可以捕捉所有的数据,但只应关注其中的那些重要数据。

而聚焦于最重要的业务场景,意味着我们要选择关键指标,摒弃虚荣指标。什么是虚荣指标?例如在营收不足、现金流陷入危机的情况下仍然只注重流量、增速,那么流量和增速就是虚荣指标。

表2中粗略分析了一些知名产品和商业模式,并给出了它们可能对应的北极星指标。

表2 知名产品和商业模式所对应的北极星指标

产品

商业模式

核心价值

北极星指标

淘宝

网上购物平台(门店)

链接商家和客户

商品交易总额

京东

网上购物平台(自营)

提供一站式购物服务

总交易额-总成本

抖音

短视频、直播

供大众浏览和创作

月活跃用户数

知乎

用户平台

知识分享

高质量作品产量

微信

即时通信

让沟通变得容易

用户日使用频率

……

……

……

……

除北极星指标外,肖恩·埃利斯 (Sean Ellis)的《增长黑客》中还经常提到魔法数字,这也是一个关键指标。如果说北极星指标是长远目标,魔法数字则是当前行动指南。例如,通过数据分析,某公司发现了高黏性用户的“秘密”之一:在80% 的情况下,高黏性用户会在第一次购物后的30天内完成第二次购物;LinkedIn 用户在一周内添加5个社交好友,Facebook 用户在10 天内添加7个好友,这样就能够保证较高的留存率。这些例子中的“30天”“5个”“7个”就是《增长黑客》中的魔法数字。

优秀的数据指标有如下特点[14]

[14]  原说法来自《精益数据分析》第2章“创业的记分牌”,本书根据笔者的实践经验做了一些提炼与扩展。

优秀数据指标的特点

上图中对各特点的说明很简短,但是含义深刻。例如,两个指标“年销售额增量”和“日新获客数”,哪个更好?对于CEO来说,可能需要的是年销售额的突破;但是对于完成日常业务的运营人员来说,也许更应该聚焦于每天的新获客人数,通过“日新获客数”他才知道近期的方案是否有效。这就说明优秀的数据指标能够引领行动。因此,不同指标在不同的场合发挥的效用有差异。在运营人员调整短期获客方案的场景中,“日新获客数”指标就好过“年销售额增量”指标。

从互联网产品的发展历史来看,随着技术的创新和业务模式的进化,常用的指标体系从最早的聚焦于流量监控的PULSE指标体系,到衡量用户体验的HEART指标体系。 现在互联网产品间的差异越来越小,公司之间的竞争阵地从产品切换到运营,于是近几年开始流行基于AARRR的指标体系[15]。这个指标体系的演进过程如表3所示。

[15] “三元方差”公众号的文章《数据分析指标思维》和李启方的知乎文章《数据指标体系的演进》等文章中都提及了数据指标体系从PULSE到HEART再到AARRR的演进,大家可以了解一下。

表3 近几年开始流行的基于AARRR的指标体系的演进过程

也有人提出了从AARRR进一步过渡到RARRA的想法,即AARRR中5个阶段的次序变为留存(Retention)→激活(Activation)→自传播循环(Referral)→变现(Revenue)→获客(Acquisition)。在这个模型中,指标本身没有发生变化,但运营思路变了,AARRR以获客(A)为起点,而RARRA则以用户留存(R)为起点,也就是一切动作都以用户的留存为核心,同时也更强调现有用户在推荐和获客中的作用。

其实,AARRR也好,RARRA也罢,这些指标之间原本就不存在固定的顺序和明确的界限。当移动互联网运营进入“下半场”,竞争日趋白热化,每一个“大厂”都已经存储了足够的“流量池”后,那么重心当然应该从获客转移到留存上来,持续提高产品和服务的口碑,以老带新,这是基业长青之根基。

8 细分思维:分组与分类

细分思维也是结构化思维的“衍生品”。这里对其进行强调是因为这种思维工具在数据分析过程中太有用,值得为其单独命名。细分思维就是对产品、用户、运营策略及各种数据做单一维度或多维度的拆解、分组,再进一步细分,比较各组之间的差异。用户画像、波士顿矩阵、RFM模型、漏斗分析等,都是细分思维的应用。

在数据分析工作中,细分的维度非常多,如时间、地区、渠道、产品、员工、用户、行为、消费状况等[16]

[16] 此处“细分思维”的说法参考了“三元方差”公众号的文章 《数据分析细分思维》。

9 对比思维:找到变化点

刚才在学习优秀的数据指标时,我们知道了优秀的数据指标具有比较性质。在数据分析过程中,对比思维是非常实用的工具。通过对比数据,我们才能够看出变化,计算增速,或者找到问题。

对比通常有两个方向,一个是纵向,它是指不同时间的对比,如将去年同期的获客数和今年同期的获客数进行对比;另一个是横向,它是指与同类产品相比,如将QQ的日活跃数和微信的日活跃数进行对比。

对比思维和细分思维经常结合起来使用,先分组,再对比。它们的特点是简单,人人都能理解,但又非常实用。这说明越简单的工具,往往越有大用,越有妙用

10 用户思维:初心不可忘

数据分析与运营都是为了获客、激活、留存和增长。而这一切的最终目的是什么呢?就是为了给用户提供他们所需要的服务。现在各个公司都把做用户画像、了解用户、研究用户的心理放在比较高的优先级,就是因为他们知晓了这个道理。

前面讲过的KANO模型就是用户思维的体现,它通过对用户核心的需求进行优先级排序,确保产品和服务能解决用户的痛点问题。而从AARRR到RARRA的演进,更是突出了用户在持续增长过程中的关键作用。

无论是做产品、做运营、做市场,还是做数据分析,心里都要有为用户服务的精神,这样事情才能做得更好,路才能走得更长远,这也就是不忘初心,方得始终

11 真实思维:以事实为真

真实思维是以尊重事实为导向的思维,这看似与数据分析完全无关,但是又非常值得一提。

彼得·德鲁克有句名言:一切无法用指标来衡量的东西都无法被管理(If you can't measure it, you can't manage it)。主观的认知总会有偏差,但是数据是不会说谎的。

粥左罗在《学会成长》中提到了开面馆的例子,如果以盈利为目的,商家就要根据真实的反馈信息不断优化口味、提升服务品质、提高质量。但如果开面馆是为了做慈善,免费给大家吃面,大家不花钱也就不提意见。该面馆收不到真实的反馈信息,产品和服务品质就有可能弱于以营利为目的的面馆。

对于处在创业、发展和守业各个阶段的互联网公司来说,真实思维就意味着认真地分析现状,正确认识自身发展的实际情况,确定合理的目标,不虚荣地追逐数据,不弄虚作假,不急功近利,不追求纸面上的急速增长。否则,公司有再优秀的数据而没有根基,它也可能只是昙花一现。

今天我的分享就以真实思维结束吧。我希望有一天,你发现精心准备的数据分析报告并不是总能与你所期待的结果相匹配,请不要强行用数据解释结果,或者刻意忽略掉某些本不应该忽略的因素。而应该从始至终尊重事实,从事实出发,寻根究底,发现不足。要有接受数据分析不是“万能灵丹”的勇气,也要敢于找出数据背后隐藏的事实真相

尊重数据,更要尊重数据背后的真相,这才是一个数据分析师应该具有的最大勇气。

“等等,我还有问题!”小雪看咖哥手臂一挥,定格在那里,心想这冗长的演讲终于进入了尾声,赶紧发问:“第一,你到底是怎么知道我昨晚到今天早上的行踪的?第二,我这面试到底过没过?”

咖哥笑着说:“先回答你的第一个问题。刚才在“逻辑思维:演绎与归纳”的部分,我提到了演绎推理—从一般性原理出发, 经过逻辑推理,从“已知”推知“未知”,以解释具体事件或者现象。而我正是用类似的方法通过数据对你的行踪进行了演绎推理,我把它称为‘数据演绎法’。”

咖哥顿了顿,开始详细解释:“昨天,我把公司的招聘海报发给了几个朋友。很快,你姐姐就打电话给我,说了说你的情况。她说你是名校毕业,觉得自己在之前的公司学不到太多东西,对这边的工作环境很有兴趣。昨天下午4点25分,我在后台数据系统看到用户名为“小雪”的ID关注了“咖哥数据科学讲习所”公众号,然后,我们这个‘小芝麻’公众号各篇文章的浏览量就开始+1、+1、+1了,一直到深夜还有人在访问。”

小雪轻轻地点了点头,心想:“难怪了,我昨天看咖哥的文章的确看到很晚。”

“看得出来你对我们公司挺有兴趣的,所以小雪,我相信你是一个很认真的面试者,而且现在你对我们的工作风格可能也有点了解了。你给我们公众号的最后一次点赞发生在今天早晨8点36分。我刚才看了眼实时数据,之后我们的公众号就再没有任何其他的访问信息了。这说明,你大概在8点36分下了公交车。而且我想,你可能有一个走路不看手机的好习惯。”

“从地铁站到我们公司,一共就那么几路公交车,哪路车大概什么时间到站,我当然是了如指掌。根据8点36分这个时间细节,推测出857路公交车对我来说不是难事,哈哈。”

“也许你觉得我在故弄玄虚,其实我卖这个关子想表达的是:既然数据无处不在,对数据的分析就是无处不在的。这种‘福尔摩斯’式的数据思维能带来很多意外惊喜。不过,我这里运用的‘数据演绎法’和我们常用的因果推理法不太一样,它有点像贝叶斯的后验概率模型,是由果到因的逆向推理,而且其中不仅应用了演绎法,还整合了归纳法和其他思维方法……好啦,说多了,你今天的面试就过关了吧。明天来公司,先实习,我们一起做项目,之后你就更加清楚我所说的‘数据思维’和‘数据演绎法’是什么了!”

相关图书

精通Excel数据统计与分析
精通Excel数据统计与分析
精通 Power Query
精通 Power Query
机器学习与数据挖掘
机器学习与数据挖掘
科学知识图谱:工具、方法与应用
科学知识图谱:工具、方法与应用
数以达理:量化研发管理指南
数以达理:量化研发管理指南
Power BI 零售数据分析实战
Power BI 零售数据分析实战

相关文章

相关课程