目录
第0章 数据思维 ——— 001
0.1|数据洞察万物规律 ——— 002
0.2|数据背后的规律是算法 ——— 003
0.3|对数据最重要的是分析和表达 ——— 004
小结 ——— 005
思考 ——— 005
第1章 了解数据背后的真相 ——— 006
1.1|平均值:不要被平均值骗了,它不能
代表整体水平 ——— 007
1.1.1 平均值在什么情况下才有价值 ——— 007
1.1.2 分组结论和整体平均值不是
一回事 ——— 009
1.1.3 辛普森悖论的启示 ——— 010
小结 ——— 012
思考 ——— 012
1.2|大数定律与小数陷阱:生活是随机的
还是有定数的 ——— 013
1.2.1 什么是大数定律 ——— 013
1.2.2 什么是小数陷阱 ——— 015
1.2.3 大数定律和小数陷阱给我们的
启示 ——— 016
小结 ——— 017
思考 ——— 018
1.3|数据的期望值:为什么你坐的飞机总是
晚点 ——— 018
1.3.1 墨菲的一个玩笑 ——— 018
1.3.2 背后的数学原理 ——— 019
1.3.3 解释墨菲定律. ——— 020
1.3.4 如何规避墨菲定律 ——— 022
小结 ——— 023
思考 ——— 023
1.4|随机对照试验:章鱼保罗真的是
“预言帝”吗 ——— 024
1.4.1 你认为的随机其实都是“伪随机” ——— 024
1.4.2 随机对照试验帮助你去伪存真 ——— 025
1.4.3 幸存者偏差并不是随机对照试验 ——— 027
小结 ——— 029
思考 ——— 030
1.5|指数和KPI:智商是怎么计算出来的 ——— 030
1.5.1 简单的指数:上证指数 ——— 031
1.5.2 较复杂的指数:用户忠诚度指数 ——— 032
1.5.3 复杂的指数:智商 ——— 033
小结 ——— 036
思考 ——— 036
1.6|因果陷阱:星座真的可以判定你的
性格吗 ——— 037
1.6.1 因果倒置——鸡叫导致天明 ——— 037
1.6.2 相关性而非因果关系——吸烟真的
致癌吗 ——— 038
1.6.3 遗漏X变量——找到背后真实
原因 ——— 040
1.6.4 以偏概全——伯克森悖论 ——— 041
1.6.5 控制数据范围——神枪手谬误 ——— 042
1.6.6 时间长度不足——替代终点问题 ——— 043
小结 ——— 043
思考 ——— 044
第2章 从数据中快速发现规律 ——— 045
2.1|直方图与幂律分布:为什么全世界1%的人
掌握着50%的财富 ——— 046
2.1.1 直方图与柱状图 ——— 047
2.1.2 神奇的直方图 ——— 048
2.1.3 幂律分布与帕累托法则 ——— 050
小结 ——— 053
思考 ——— 053
2.2|数据分布:房子应该买贵的还是
买便宜的 ——— 054
2.2.1 正态分布 ——— 054
2.2.2 拉普拉斯分布 ——— 057
小结 ——— 059
思考 ——— 060
2.3|散点图和相关性:如何从大量事实中
快速发现规律 ——— 060
2.3.1 散点图的历史 ——— 060
2.3.2 散点图的制作原则 ——— 061
2.3.3 通过散点图寻找规律 ——— 063
2.3.4 散点图的易错点 ——— 065
小结 ——— 068
思考 ——— 069
2.4|标准差:“靠不靠谱”其实看标准差 ——— 069
2.4.1 标准差 ——— 070
2.4.2 标准差的具体使用 ——— 071
2.4.3 标准误差 ——— 073
2.4.4 标准误差的具体使用 ——— 073
小结 ——— 075
思考 ——— 076
2.5|数据抽样:大数据来了还需要抽样吗 ——— 076
2.5.1 小数据抽样 ——— 076
2.5.2 大数据时代是否还要抽样 ——— 079
2.5.3 大数据环境下的抽样算法 ——— 080
小结 ——— 082
思考 ——— 083
2.6|卡方检验和P值:不吃晚餐可不可以
减肥 ——— 083
2.6.1 什么是卡方检验 ——— 084
2.6.2 如何进行卡方检验 ——— 084
2.6.3 最常见的卡方检验套路 ——— 086
2.6.4 卡方检验不适用的场景 ——— 088
小结 ——— 089
2.7|精确率与置信区间:两种预测,究竟应该相信
哪一个 ——— 089
2.7.1 准确率、精确率和召回率 ——— 090
2.7.2 置信区间 ——— 092
2.7.3 取舍的艺术 ——— 093
小结 ——— 094
思考 ——— 094
第3章 深入浅出大数据算法 ——— 095
3.1|趋势分析与回归:怎样才能培育出天才的
下一代 ——— 096
3.1.1 回归的种类与使用 ——— 096
3.1.2 均值回归 ——— 100
小结 ——— 102
思考 ——— 103
3.2|初识聚类算法:物以类聚,让复杂事物
简单化 ——— 103
3.2.1 聚类问题与场景 ——— 104
3.2.2 聚类算法初探 ——— 105
3.2.3 应用场景的展望 ——— 107
小结 ——— 109
思考 ——— 109
3.3|初识分类算法:分而治之,不断进化 ——— 110
3.3.1 分类算法的定义与使用场景 ——— 110
3.3.2 分类算法初探 ——— 111
3.3.3 应用场景的展望 ——— 114
小结 ——— 116
思考 ——— 117
3.4|关联规则:为什么啤酒和尿布要放在
一起卖 ——— 117
3.4.1 关联规则的定义和使用场景 ——— 117
3.4.2 关联规则算法初探 ——— 118
3.4.3 应用场景的展望 ——— 121
小结 ——— 123
思考 ——— 124
3.5|蒙特卡洛算法与拉斯维加斯算法:有限时间内
如何获得最优解 ——— 124
3.5.1 算法定义和使用场景 ——— 124
3.5.2 蒙特卡洛算法与拉斯维加斯算法
举例 ——— 126
3.5.3 应用场景的展望 ——— 129
小结 ——— 130
思考 ——— 131
3.6|马尔可夫链:你的未来只取决于你当下
做了什么 ——— 131
3.6.1 算法定义与使用场景 ——— 131
3.6.2 马尔可夫链举例 ——— 132
3.6.3 应用场景的展望 ——— 135
小结 ——— 136
思考 ——— 137
3.7|协同过滤:你看到的短视频都是集体智慧的
结晶 ——— 137
3.7.1 算法定义与使用场景 ——— 137
3.7.2 协同过滤算法初探 ——— 139
3.7.3 协同过滤算法的应用与缺陷 ——— 143
小结 ——— 145
思考 ——— 146
3.8|人工智能算法初探:阿尔法狗是怎样的
一只“狗” ——— 146
3.8.1 人工智能算法历史与深度学习
算法 ——— 146
3.8.2 CNN和RNN ——— 149
3.8.3 深度学习算法使用举例——
AlphaGo ——— 151
3.8.4 深度学习算法最新案例与未来 ——— 153
小结 ——— 155
思考 ——— 155
第4章 有效地用数据说话 ——— 156
4.1|确定问题:与利益无关的问题都不值得做
数据分析 ——— 157
4.1.1 如何确保数据分析有价值 ——— 157
4.1.2 具体场景 ——— 160
小结 ——— 163
思考 ——— 164
4.2|采集数据:用好一手数据和二手数据 ——— 164
4.2.1 一手数据和二手数据 ——— 164
4.2.2 数据探索 ——— 166
4.2.3 具体示例 ——— 168
小结 ——— 171
思考 ——— 171
4.3|写好故事线:你能利用数字推翻众人的
理解吗 ——— 172
4.3.1 回顾之前的发现 ——— 172
4.3.2 设计故事线 ——— 174
4.3.3 一图解千愁 ——— 177
小结 ——— 178
思考 ——— 179
4.4|实践你的理论:数据驱动最终就是用结果
说话 ——— 179
4.4.1 何为精益的方法 ——— 180
4.4.2 创新扩散模型 ——— 180
4.4.3 实战练习 ——— 183
小结 ——— 185
思考 ——— 186
4.5|数据分析:15种数据思维图(上) ——— 186
4.5.1 VRIO分析 ——— 186
4.5.2 五力分析 ——— 188
4.5.3 SWOT分析 ——— 189
4.5.4 同理心地图 ——— 190
4.5.5 4P竞争分析 ——— 191
4.5.6 奥斯本检验表 ——— 192
4.5.7 SUCCESs ——— 193
4.5.8 产品组合矩阵 ——— 194
小结 ——— 195
思考 ——— 196
4.6|数据分析:15种数据思维图(下) ——— 196
4.6.1 商业模式画布 ——— 196
4.6.2 AIDMA ——— 197
4.6.3 AARRR ——— 198
4.6.4 SMART ——— 199
4.6.5 PDCA ——— 200
4.6.6 RACI ——— 201
4.6.7 Will, Can, Must ——— 202
小结 ——— 203
思考 ——— 203
第5章 如何利用大模型进行数据分析 ——— 204
5.1|大模型的威力 ——— 205
5.1.1 什么是大模型 ——— 205
5.1.2 大模型能帮我们做什么 ——— 206
小结 ——— 212
思考 ——— 212
5.2|使用大模型做数据分析 ——— 212
5.2.1 如何让大模型的回答更专业和
有效 ——— 212
5.2.2 如何使用大模型探查分析数据 ——— 215
小结 ——— 228
思考 ——— 228
5.3|利用大模型生成专业的数据分析报告 ——— 228
5.3.1 确定问题 ——— 229
5.3.2 辅助数据探索 ——— 234
5.3.3 辅助总结讨论 ——— 235
小结 ——— 239
思考 ——— 239
5.4|数据分析工具展望 ——— 240
5.4.1 数据存储与分析引擎——
ClickHouse ——— 240
5.4.2 数据同步工具——
Apache SeaTunnel ——— 243
5.4.3 数据处理与调度平台——
Apache DolphinScheduler ——— 244
5.4.4 数据展示工具——
Apache.ECharts ——— 246
小结 ——— 247
思考 ——— 248
附录A A/B测试需要多少个样本才有效果 ——— 249
附录B 哈勃定律 ——— 251
附录C 标准差和标准误差公式 ——— 252
附录D 蓄水池算法明细 ——— 253
附录E 置信区间的计算过程 ——— 254
附录F 用多边形推导圆周率 ——— 255
附录G 文科生也可以看懂的AlphaGo算法 ——— 256
附录H 数据分析行业个人职业发展方向 ——— 261
附录I 常用的一些网站和信息渠道 ——— 262
后记 ——— 264