免费阅读

Hadoop与大数据挖掘（第2版）

王哲，张良均；李国辉，卢军，梁晓阳

书号：978-7-111-70947-3

本书结构采用“基础篇+实战篇”的编写结构，深入浅出地介绍了大数据相关技术的原理、知识点及具体应用，适合教师教学使用和零基础自学者使用。基础篇从大数据概念、特点、应用及大数据平台出发，较为全面地介绍了大数据相关的技术框架，包括Hadoop、HBase、Hive、Spark、Flume、Kafka等框架，内容讲解由浅入深。实战篇介绍了多个综合实战案例，描述了企业在实际业务中遇到的真实场景问题。

本书配套资源(PPT、教案、教学大纲、实训数据等）可登陆泰迪云教材账号，到资源下载处下载。

热度：

订购咨询

简介

资源下载

视频

上课体验

反馈

图书介绍

本书结构采用“基础篇+实战篇”的编写结构，深入浅出地介绍了大数据相关技术的原理、知识点及具体应用，适合教师教学使用和零基础自学者使用。本书的基础篇（第1~8章）从大数据概念、特点、应用及大数据平台出发，较为全面地介绍了大数据相关的技术框架，包括Hadoop、HBase、Hive、Spark、Flume、Kafka等框架，内容讲解由浅入深。此外，基础篇的第2~8章在讲解了相关技术的知识点后，还通过一个相对独立的场景应用实例，帮助读者使用大数据技术对业务数据进行分析。通过基础篇的学习，读者可以学习大数据相关技术的原理并掌握大数据技术的相关操作，为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。

本书的实战篇（第9~11章）介绍了多个综合实战案例，描述了企业在实际业务中遇到的真实场景问题，通过对整个案例流程进行详细分析，并综合运用大数据技术完成了数据的采集、预处理、分析挖掘等操作，最终实现了案例的目标。实战篇的内容对读者有一定的实践指导作用，也能够提高读者使用大数据相关技术进行数据挖掘的基本能力。对于学生或技术人员而言，他们通过实战篇进行实践的同时，也可以学习案例的分析方法，培养良好的案例分析能力及思考能力。

本书的大部分章节都配有课后习题，可以帮助读者巩固大数据技术的知识点，更加深刻地理解书中所介绍的大数据技术的基本内容。

图书目录

基础篇
第1章浅谈大数据

1.1   大数据产生的背景
1.1.1   信息化浪潮
1.1.2   信息技术变革
1.1.3   数据生产方式变革
1.1.4   大数据的发展历程
1.1.5   大数据时代的挑战
1.1.6   大数据时代面临的机遇
1.2   大数据概述
1.2.1   大数据的概念
1.2.2   大数据的特征
1.2.3   大数据的影响
1.2.4   大数据与互联网、云计算的关系
1.3   大数据挖掘概述
1.3.1   数据挖掘的概念
1.3.2   大数据环境下的数据挖掘
1.3.3   数据挖掘的过程
1.3.4   数据挖掘常用工具
1.4   大数据平台
小结
课后习题

第2章大数据基础架构Hadoop——实现大数据分布式存储与计算

2.1   Hadoop简介及应用场景介绍
2.1.1   Hadoop的发展历史
2.1.2   Hadoop的特点
2.1.3   Hadoop存储框架——HDFS
2.1.4   Hadoop计算引擎——MapReduce
2.1.5   Hadoop资源管理器——YARN
2.1.6   Hadoop应用场景
2.2   Hadoop生态系统
2.3   Hadoop安装配置
2.3.1   创建Linux虚拟机
2.3.2   设置固定IP
2.3.3   远程连接虚拟机
2.3.4   配置本地yum源及安装常用软件
2.3.5   在Linux下安装Java
2.3.6   修改配置文件
2.3.7   克隆虚拟机
2.3.8   配置SSH免密登录
2.3.9   配置时间同步服务
2.3.10   启动关闭集群
2.4   Hadoop HDFS文件操作命令
2.4.1   创建目录
2.4.2   上传和下载文件
2.4.3   查看文件内容
2.4.4   删除文件或目录
2.5   Hadoop MapReduce编程开发
2.5.1   在IDEA搭建MapReduce开发环境
2.5.2   通过词频统计了解MapReduce执行流程
2.5.3   通过源码认识MapReduce编程
2.6   场景应用：电影网站用户影评分析
2.6.1   了解数据字段并分析需求
2.6.2   多维度分析用户影评
小结
课后习题

第3章数据仓库Hive——实现大数据查询与处理

3.1   Hive技术简介及应用场景介绍
3.1.1   认识Hive
3.1.2   了解Hive的架构
3.2   Hive安装配置
3.2.1   配置MySQL数据库
3.2.2   配置Hive数据仓库
3.3   HiveQL查询语句
3.3.1   了解Hive基础数据类型
3.3.2   创建与管理数据库
3.3.3   创建与管理数据表
3.3.4   Hive表的数据装载
3.3.5   掌握select查询
3.3.6   了解运算符的使用
3.3.7   掌握Hive内置函数
3.4   Hive自定义函数使用
3.4.1   了解Hive自定义函数
3.4.2   自定义UDF
3.4.3   自定义UDAF
3.4.4   自定义UDTF
3.5   场景应用：基站掉话率Top20统计
3.5.1   创建基站数据表并导入数据
3.5.2   统计基站掉话率Top20
小结
课后习题

第4章分布式协调框架ZooKeeper——实现应用程序分布式协调服务

4.1   Zookeeper技术简介及应用场景介绍
4.1.1   ZooKeeper简介
4.1.2   ZooKeeper应用场景
4.2   ZooKeeper分布式安装配置
4.3   ZooKeeper客户端常用命令
4.3.1   创建znode
4.3.2   获取znode数据
4.3.3   监视znode
4.3.4   删除znode
4.3.5   设置znode权限
4.4   ZooKeeper Java API操作
4.4.1   创建IDEA工程并连接ZooKeeper
4.4.2   获取和修改znode数据
4.4.3   删除znode
4.5   场景应用：服务器上下线动态监控
小结
课后习题

第5章分布式数据库HBase——实现大数据存储与快速查询

5.1   HBase技术简介及应用场景介绍
5.1.1   HBase的发展历程
5.1.2   HBase的特点
5.1.3   HBase核心功能模块
5.1.4   HBase的数据模型
5.1.5   设计表结构的原则
5.1.6   HBase应用场景
5.2   HBase安装配置
5.3   HBase Shell操作
5.3.1   创建与删除表
5.3.2   插入数据
5.3.3   查询数据
5.3.4   删除数据
5.3.5   扫描全表
5.3.6   按时间版本查询记录
5.4   HBase高级应用
5.4.1   IDEA开发环境搭建
5.4.2   HBase Java API使用
5.4.3   HBase与MapReduce交互
5.5   场景应用：用户通话记录数据存储设计及查询
5.5.1   设计通话数据结构
5.5.2   查询用户通话记录
小结
课后习题

第6章分布式计算框架Spark——实现大数据分析与挖掘

6.1   Spark技术简介及应用场景介绍
6.1.1   Spark的发展历史
6.1.2   Spark的特点
6.1.3   Spark生态圈
6.1.4   Spark的应用场景
6.2   Spark集群安装配置
6.3   Spark Core底层基础框架
6.3.1   Spark集群架构
6.3.2   Spark作业运行模式
6.3.3   弹性分布式数据集RDD
6.3.4   RDD算子基础操作
6.3.5   场景应用：房屋销售数据分析
6.4   Spark SQL查询引擎框架
6.4.1   Spark SQL概述
6.4.2   DataFrame基础操作
6.4.3   场景应用：广告流量作弊识别探索分析
6.5   Spark MLlib机器学习库
6.5.1   Spark MLlib概述
6.5.2   MLlib数据类型
6.5.3   MLlib算法库常用算法包
6.5.4   场景应用：超市客户聚类分析
6.6   Spark Streaming流计算框架
6.6.1   Spark Streaming概述
6.6.2   Spark Streaming运行原理
6.6.3   DStream编程模型
6.6.4   DStream基础操作
6.6.5   场景应用：热门博文实时推荐
小结
课后习题

第7章大数据采集框架Flume——实现日志数据实时采集

7.1   Flume技术简介及应用场景介绍
7.1.1   Flume发展历程
7.1.2   Flume基本思想与特性
7.1.3   Flume基本架构
7.1.4   Flume的核心概念
7.1.5   Flume Agent的核心组件
7.1.6   Flume应用场景
7.2   Flume安装与配置
7.2.1   Flume的安装
7.2.2   Flume运行测试
7.3   Flume核心组件的常见类型及参数配置
7.4   Flume采集方案设计与实践
7.4.1   采集端口数据至控制台显示（内存缓存）
7.4.2   采集端口数据至控制台显示（磁盘缓存）
7.4.3   采集监控目录的数据至控制台显示
7.4.4   采集端口数据至HDFS
7.4.5   采集本地文件数据存储至HDFS
7.4.6   时间戳拦截器
7.4.7   正则过滤拦截器
7.4.8   Channel选择器
7.5   场景应用：广告日志数据采集系统
7.5.1   广告系统日志数据采集
7.5.2   广告曝光日志数据采集
小结
课后习题

第8章消息订阅系统Kafka——实现大数据实时传输

8.1   Kafka技术简介及应用场景介绍
8.1.1   Kafka的概念
8.1.2   Kafka基本框架
8.1.3   Kafka的优势
8.1.4   Kafka的应用场景
8.2   Kafka安装集群
8.3   Kafka基础操作
8.3.1   Kafka操作的基本参数
8.3.2   Kafka单代理操作
8.3.3   Kafka多代理操作
8.4   Kafka Java API的使用
8.4.1   Kafka Producer API
8.4.2   Kafka Consumer API
8.4.3   Kafka Producer & Consumer整合使用
8.5   场景应用：广告日志数据实时传输
8.5.1   创建脚本文件
8.5.2   创建Kafka主题
8.5.3   Flume采集日志
小结
课后习题

实战篇
第9章书籍热度实时分析系统

9.1   背景与目标
9.2   创建IDEA项目并添加依赖
9.3   书籍数据采集
9.3.1   准备数据并启动组件
9.3.2   创建topic并启动Consumer
9.3.3   替换与添加库依赖
9.3.4   编写Flume配置文件
9.3.5   编写脚本定时采集数据
9.3.6   运行Flume配置文件
9.3.7   编写Spark Streaming代码
9.4   书籍热度指标构建
9.4.1   计算用户评分次数及平均评分
9.4.2   计算书籍被评分次数及平均评分
9.5   书籍热度实时计算并推送书籍
9.6   书籍热度实时分析过程完整实现
小结

第10章 O2O优惠券个性化投放

10.1   背景与目标
10.1.1   案例背景
10.1.2   数据说明及存储
10.1.3   案例目标
10.2   数据探索及预处理
10.2.1   数据探索
10.2.2   数据预处理
10.3   多维度指标构建
10.4   模型构建
10.4.1   决策树分类模型
10.4.2   梯度提升分类模型
10.4.3   XGBoost分类模型
10.5   模型评价
10.6   O2O平台营销手段和策略分析
10.6.1   用户分级
10.6.2   优惠券分级
10.6.3   商户分级
小结

第11章消费者人群画像—信用智能评分

11.1   背景与目标
11.2   数据探索
11.2.1   数据集说明
11.2.2   字段分析
11.3   数据预处理
11.3.1   用户年龄处理
11.3.2   用户话费敏感度处理
11.3.3   应用使用次数偏差值剔除
11.4   消费者信用特征关联
11.4.1   Pearson相关系数
11.4.2   构建关联特征
11.5   模型构建
11.5.1   随机森林及梯度提升树简介
11.5.2   模型构建与评估
11.6   模型加载应用
小结

资源列表

文件名	文件大小	上传时间	操作
《Hadoop与大数据挖掘（第2版）》课后习题答案	3.71MB	2022-07-05	下载
《Hadoop与大数据挖掘（第2版）》正文数据和代码	422.60MB	2022-07-05	下载
《Hadoop与大数据挖掘（第2版）》PPT	23.83MB	2023-02-17	下载

视频列表

内容筹备中，敬请期待！

我们正在全力以赴不断完善本教材的上课体验，但在此期间，您可以优先体验其他教材。感谢您的支持！

Hadoop与大数据挖掘（第2版）

图书介绍

图书目录

资源列表

视频列表

师资培训

以赛促学

内推就业

教育部1+X

工作室

实验室建设