联合写书
我要写书
联系客服
联系客服
返回顶部
我要写书
关注微信号联系客服,编写您的教材 我要写书

修改密码

Hadoop大数据开发基础(第3版)(微课版)

张军,张良均;刘晶晶,刘斌,周小玲
书号:978-7-115-66617-8
本书是“十四五”职业教育国家规划教材,是大数据应用开发“1+X”职业技能等级证书配套系列教材,也是“以纸质教材为核心、以互联网+为载体”的新形态教材,配套43个微课视频(二维码随扫随学)。本书聚焦Hadoop大数据开发,以企业实际项目案例为载体,将岗位核心技能、职业竞赛技术要点、X证书能力标准融入教材内容体系,凸显“岗课赛证融通”理念。
本书配套资源(PPT、教案、教学大纲、实训数据等)可登陆泰迪云教材账号,到资源下载处下载。
热度:
  • 简介
  • 资源下载
  • 视频
  • 上课体验
  • 反馈

图书介绍

1、本书是“十四五”职业教育国家规划教材服务国家“大数据”战略人才培养需要,围绕高职大数据培养定位“大数据应用开发”岗位的核心课程《Hadoop大数据技术》教学目标,主要内容包含Hadoop框架、核心组件及生态等知识,Hadoop集群搭建及配置,Hadoop操作、MapReduce编程、数据仓库、分布式数据库,企业真实项目等技术与案例。2、本书对标“三教”改革要求,贯彻任务导向的理实一体化教学理念和实践特点。注重学生实践能力培养,以解决实际问题为内在驱动,以实战案例贯穿为学习手段。依据“学习目标-任务背景-任务描述-任务实现-实训任务-课后练习”的逻辑主线组织教学内容,融入全国职业院校大数据技术赛项、“泰迪杯”数据分析技能赛等竞赛技术标准,及“1+X”《大数据应用开发(Python)职业技能等级证书》要求,“必须、够用”的知识贯穿其中,“做、中、学”中掌握技能、提升素养,充分体现“岗课赛证”融通特色。3、本书联合X证书标准牵头企业,坚持校企“双元”合作开发,编写成员既有熟悉高职教育教学的职教专家,又有项目经验丰富的资深企业高工。2018年首次出版,2025年对教学知识点、配套资源等进行升级改版,受到广大师生好评发行量突破5万册。4、本书适合作为高校大数据技术相关专业教学用书,及大数据技术开发人员、“1+X”证书培训或自学用书。

本书保留原书特色的基础上,对教材进行了内容与代码的全面升级。第3版修订的主要内容如下:1、 项目1删减了“Hadoop的发展历史”一节内容,更新了Hadoop的应用场景介绍;修改了虚拟机的安装及配置过程,将虚拟机软件VMware Workstation版本由VMware Workstation 15 Pro更换为VMware Workstation 17 Pro,将虚拟机安装语言环境换为“中文”,并将远程连接虚拟机工具由Xme5升级至Xshell 7和Xftp 7;修改了Hadoop集群的搭建过程介绍,将使用的Hadoop版本由Hadoop 3.1.4升级至Hadoop 3.3.6。 2、项目3修改了MapReduce开发环境的搭建过程介绍,将MapReduce程序的开发工具IDEA版本由IDEA 2018.3.6(社区版)升级至IDEA 2023.2.2(社区版);删减了“统计网站每日的访问次数”一节内容,并将所使用的例子数据由竞赛网站用户访问日志数据更换为社交网站用户访问日志数据。 3、第4章和第5章所使用例子数据由社交网站用户访问日志数据更换为竞赛网站用户访问日志数据,并修改了章节中任务实现的内容。 第4章修改了4.1小节MapReduce开发环境的搭建过程介绍,将MapReduce程序的开发环境由Eclipse更换为IDEA,使用的版本为IDEA 2018.3.6(社区版)。4、项目5修改了Hive的访问方式介绍,将使用的Hive版本由Hive 3.1.2升级至Hive 3.1.3,将使用的MySQL版本由MySQL 5.7.19升级至MySQL 8.0.21,将使用的MySQL驱动包版本由MySQL Connector/J 5.1.32升级至MySQL Connector/J 8.0.21;删减了“掉话率Top20基站统计”一节内容。5、项目6修改了HBase集群的安装及配置过程介绍,将使用的ZooKeeper版本由ZooKeeper 3.5.6升级至ZooKeeper 3.8.3,将使用的HBase版本由HBase 2.2.2升级至HBase 2.5.7;删减了“查询分析通话记录数据”一节内容。6、全书补充了“素养目标”和“思维导图”。7、项目3~6各补充了一个实训。8、项目2~6补充了一道技能题。

图书目录

项目1 分析电影网站用户影评需求及环境搭建

【学习目标】
【项目背景】
【思维导图】
【知识准备】
1.1 Hadoop简介
       1.1.1 什么是Hadoop
       1.1.2 了解Hadoop的特点
       1.1.3 了解Hadoop核心组件
       1.1.4 了解Hadoop生态系统
       1.1.5 了解Hadoop应用场景
1.2 安装及配置虚拟机
       1.2.1 创建Linux虚拟机
       1.2.2 设置固定IP地址
       1.2.3 远程连接虚拟机
       1.2.4  配置本地YUM源及安装常用软件
1.3 搭建Hadoop完全分布式集群
       1.3.1 在Linux下安装Java
       1.3.2 修改配置文件
       1.3.3 克隆虚拟机
       1.3.4 配置SSH免密码登录
       1.3.5 配置时间同步服务
       1.3.6 启动和关闭Hadoop集群
       1.3.7 监控Hadoop集群
【项目实践】
任务1 了解数据字段
任务2 分析影评统计需求
【项目总结】
【实训】
实训1  修改master虚拟机的IP地址
实训2  编写Shell脚本同步集群时间
【习题】

项目2 存储电影网站用户影评分析数据

【学习目标】
【项目背景】
【思维导图】
【知识准备】
2.1 认识Hadoop安全模式
       2.1.1 了解Hadoop安全模式
       2.1.2 查看、解除和开启Hadoop安全模式
2.2 查看Hadoop集群的基本信息
       2.2.1 查询集群的存储系统信息
       2.2.2 查询集群的计算资源信息
2.3 上传文件到HDFS目录
       2.3.1 了解HDFS
       2.3.2 HDFS的基本操作
2.4 运行首个MapReduce任务
       2.4.1 了解Hadoop官方的示例程序包
       2.4.2 提交MapReduce任务给集群运行
2.5 管理多个MapReduce任务
       2.5.1 查询MapReduce任务
       2.5.2 中断MapReduce任务
【项目实践】
任务3 上传用户影评数据至HDFS
【项目总结】
【实训】
实训1  统计文件中所有单词长度的标准差
实训2  查询与中断MapReduce任务
【习题】

项目3 电影网站用户影评数据

【学习目标】
【项目背景】
【思维导图】
【知识准备】
3.1 在IntelliJ IDEA中搭建MapReduce开发环境
       3.1.1 在Windows下安装Java
       3.1.2 下载与安装IntelliJ IDEA
       3.1.3 创建MapReduce工程
       3.1.4 配置MapReduce环境
3.2 通过源码初识MapReduce编程
       3.2.1 了解MapReduce工作原理及核心组成
       3.2.2 了解MapReduce实现词频统计的执行流程
       3.2.3 读懂官方提供的WordCount源码
3.3 将网站用户登录次数根据登录次数进行升序排序
       3.3.1 分析思路与处理逻辑
       3.3.2 编写核心模块代码
       3.3.3 打包程序并提交MapReduce任务给集群运行
【项目实践】
任务4 创建并配置工程项目
任务5 统计所有电影的评分次数
任务6 统计不同性别对电影的评分
【项目总结】
【实训】
实训1  使用MapReduce编程统计某超市1月商品被购买的次数
实训2  使用MapReduce编程统计各科目的平均成绩
实训3  使用MapReduce编程统计网站每日访问次数
【习题】

项目4 多维度分析电影网站用户影评

【学习目标】
【项目背景】
【思维导图】
【知识准备】
4.1 设置MapReduce输入输出格式
       4.1.1 设置MapReduce输入格式
       4.1.2 设置MapReduce输出格式
       4.1.3 筛选日志文件并生成序列化文件
4.2 使用Hadoop Java API实现文件操作
       4.2.1 使用FileSystem API管理文件夹
       4.2.2 使用FileSystem API操作文件
       4.2.3 使用FileSystem API读/写数据
       4.2.4 使用Hadoop Java API读取序列化文件
4.3 优化MapReduce统计程序
       4.3.1 自定义键值类型
       4.3.2 初步探索Combiner
       4.3.3 浅析Partitioner
       4.3.4 自定义计数器
4.4 在IntelliJ IDEA中打包并提交MapReduce程序
       4.4.1 传递参数
       4.4.2 使用Hadoop辅助类ToolRunner
       4.4.3 自动打包并提交MapReduce任务
【项目实践】
任务7 计算评分次数最多的10部电影并分析
任务8 计算不同性别评分最高的10部电影并分析
任务9 计算指定电影各年龄段的平均影评并分析
任务10 计算影评库中各种类型电影中评分最高的5部电影并分析
【项目总结】
【实训】
实训1  使用MapReduce编程统计各科目成绩最高的学生
实训2  使用MapReduce编程筛选出指定出版年份的图书
实训3  使用MapReduce编程统计水稻品种数量
【习题】

项目5 基于Hive实现电影网站用户影评分析

【学习目标】
【项目背景】
【思维导图】
【知识准备】
5.1 认识Hive数据仓库
       5.1.1 什么是Hive
       5.1.2 了解Hive与传统数据库的对比
       5.1.3 了解Hive系统架构
       5.1.4 了解Hive数据模型
       5.1.5 了解Hive执行流程
5.2 访问Hive的3种方式
       5.2.1 设置内嵌模式
       5.2.2 设置直连数据库模式
       5.2.3 设置远程模式
5.3 实现Hive表的创建与修改
       5.3.1 了解Hive数据定义语言的基本语法
       5.3.2 创建表基本操作
       5.3.3 修改表基本操作
5.4 实现Hive表中数据的增删查改
       5.4.1 了解Hive数据操作语言的基本语法
       5.4.2 向数据表中装载文件
       5.4.3 查询数据
       5.4.4 插入数据
       5.4.5 删除表中数据
【项目实践】
任务11 创建电影用户影评数据表
任务12 分析电影用户影评数据表
【项目总结】
【实训】
实训1  查询图书馆图书的被借阅次数及读者借阅图书的次数
实训2  Hive实现表的连接及信息查询处理
实训3  查询电商货品订单数据
【习题】

项目6 基于HBase实现存储电影网站用户影评分析结果

【学习目标】
【项目背景】
【思维导图】
【知识准备】
6.1 认识HBase分布式数据库
       6.1.1 什么是HBase
       6.1.2 了解HBase系统架构
       6.1.3 了解HBase数据模型
       6.1.4 了解HBase读/写流程
6.2 安装部署HBase集群
       6.2.1 了解并安装ZooKeeper
       6.2.2 安装及配置HBase集群
6.3 掌握HBase常用的Shell命令
       6.3.1 修改与删除表
       6.3.2 查询表数据
6.4 使用HBase Java API实现表设计
       6.4.1 创建Java项目
       6.4.2 实现表的创建
       6.4.3 向表中插入数据
【项目实践】
任务12 存储评分次数最多的10部电影数据
任务13 存储不同性别评分最高的10部电影数据
任务14 存储电影ID为2858各年龄段的平均影评数据
任务15 存储影评库中各种类型电影中评分最高的5部电影数据
【项目总结】
【实训】
实训1  使用HBase Shell命令创建学生表并插入数据
实训2  使用HBase Java API对HBase数据库的表进行操作
实训3  使用HBase Java API对查询分析通话记录数据
【习题】


资源列表

内容筹备中,敬请期待!

视频列表

内容筹备中,敬请期待!

我们正在全力以赴不断完善本教材的上课体验,但在此期间,您可以优先体验其他教材。 感谢您的支持!
申请样书
关注公众号,填写信息,即可申请样书!