大数据技术实训教程:预处理、离线分析和实时计算

978-7-115-59657-4
作者: 卢正才曹小平郑子伟
译者:
编辑: 牟桂玲

图书目录:

第 1章 Web服务器日志分析项目 001

1.1 任务一:需求分析 002

1.2 任务二:技术方案设计 004

1.3 任务三:使用Flume采集日志数据 006

1.4 任务四:使用MapReduce清洗数据 008

1.5 任务五:使用Hive分析数据 012

1.6 任务六:使用Sqoop迁移数据 016

1.7 任务七:Java+ECharts数据可视化 018

1.8 答疑解惑 039

1.9 拓展练习 041

第 2章 招聘网站数据分析项目 043

2.1 大赛简介 044

2.2 任务一:需求分析 048

2.3 任务二:项目流程 050

2.4 任务三:使用Python“爬取”招聘网站数据 051

2.5 任务四:使用MapReduce预处理数据 056

2.6 任务五:使用Hive分析数据 062

2.7 任务六:使用Sqoop导出数据 065

2.8 任务七:Flask+ECharts数据可视化 067

2.9 任务八:编写分析报告 079

2.10 答疑解惑 080

2.11 拓展练习 084

第3章 电商网站实时数据分析项目 086

3.1 任务一:需求分析 087

3.2 任务二:项目方案设计 088

3.3 任务三:使用Flume+Kafka实时收集数据 089

3.4 任务四:使用Spark实时计算数据 091

3.5 任务五:Java+ECharts数据可视化 101

3.6 答疑解惑 113

3.7 拓展练习 114

第4章 金融大数据分析项目 116

4.1 大赛简介 117

4.2 任务一:需求分析 119

4.3 任务二:项目流程 121

4.4 任务三:使用Spark抽取离线数据 123

4.5 任务四:使用Spark统计离线数据 125

4.6 任务五:使用Flume+Kafka实时采集数据 128

4.7 任务六:使用Flink实时计算数据 130

4.8 任务七:Vue.js+Java+ECharts数据可视化 136

4.9 任务八:使用Spark ML数据挖掘 156

4.10 任务九:编写分析报告 160

4.11 答疑解惑 162

4.12 拓展练习 163

附录 165

附录1 Hadoop安装部署和配置 165

附录2 掌握HDFS Shell操作 175

附录3 通过WordCount熟悉MapReduce 182

附录4 深入理解MapReduce 186

附录5 Flume安装部署和配置 199

附录6 Hive安装部署和配置 200

附录7 Sqoop安装部署和配置 201

附录8 Hadoop高可用集群环境安装部署和配置 203

附录9 Hadoop集群节点动态管理 212

附录10 Kafka安装部署和配置 214

附录11 Spark安装部署和配置 217

附录12 Spark RDD算子 220

附录13 通过WordCount熟悉Spark RDD 230

附录14 Flink安装部署和配置 231

详情

《大数据技术实训教程:预处理、离线分析和实时计算》是职业院校大数据相关专业的实训配套教材,也是“1+X”大数据应用开发(Java)职业技能等级证书考试辅助教材。全书共4章,包括Web服务器日志分析项目、招聘网站数据分析项目、电商网站实时数据分析项目、金融大数据分析项目。本书内容涵盖了大数据技术的完整流程,包括数据采集、数据预处理、数据分析、数据挖掘、数据存储、数据可视化等,既有离线处理,又有实时处理。同时涉及4个不同业务背景的29个项目任务,包括17个职业院校技能大赛项目任务,可帮助读者切实掌握大数据预处理、离线分析和实时计算的实践技能。 《大数据技术实训教程:预处理、离线分析和实时计算》可作为职业院校、应用型本科院校计算机应用技术、软件技术、软件工程、网络工程和大数据技术等计算机相关专业的教材,还可供从事计算机相关工作的技术人员学习参考。

图书摘要

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战
医疗大数据挖掘与可视化
医疗大数据挖掘与可视化

相关文章

相关课程