联合写书
我要写书
联系客服
联系客服
返回顶部
我要写书
关注微信号联系客服,编写您的教材 我要写书

修改密码

Hive大数据存储与处理

何煌,张良均;孙一铭,胡健,陈翠松
书号:978-7-115-63796-3
本书以Hive数据存储与处理的常用技术与真实案例相结合的方式,较为全面地介绍了Hive大数据存储与处理的相关知识。全书共8章,内容包括广电大数据案例的需求分析、Hive的安装部署、用户基本信息的简单查询、用户账单与订单数据的查询进阶、用户收视行为数据的查询优化、广电用户数据的数据清洗与导出、Hive编程开发应用。本书大部分章节包含了实训和课后习题,通过练习和操作实践,帮助读者巩固所学的内容。
本书配套资源(PPT、教案、教学大纲、实训数据等)可登陆泰迪云教材账号,到资源下载处下载。
热度:
  • 简介
  • 资源下载
  • 视频
  • 上课体验
  • 反馈

图书介绍

本书以项目任务式为导向,实现启发式教学:教材设计注重特色与创新,全书项目的内容结构紧扣项目需求展开并拆分成多个任务,任务由任务描述、任务要求、相关知识介绍构成,根据任务的需求讲解知识点,不堆积知识点,着重于思路的启发与解决方案的实施,让读者对实际项目的流程有一个初步的认识,内容讲解由浅入深,让读者能明确如何利用所学知识解决问题,实现海量数据集的存储和分析。

图书目录

第1章 广电大数据用户画像需求分析

任务1.1 分析需求与架构
       1.1.1 业务需求分析
       1.1.2 大数据存储技术
       1.1.3 常见的数据分析工具和开发语言
任务1.2 认识Hive工具
       1.2.1 Hive简介
       1.2.2 Hive原理架构
       1.2.3 Hive设计特性
小结
课后习题

第2章 Hive安装部署

任务2.1 安装搭建Hadoop集群
       2.1.1 VMware虚拟机安装和网络设置
       2.1.2 部署CentOS版本的Linux系统
       2.1.3 Hadoop集群部署前准备
       2.1.4 Hadoop集群部署
任务2.2 安装部署Hive
       2.2.1 安装配置MySQL
       2.2.2 安装配置Hive
任务2.3 Hive CLI命令行使用
       2.3.1 执行Hive CLI命令
       2.3.2 执行Bash Shell命令
小结
课后习题

第3章 广电用户数据存储

任务3.1 创建广电数据库
       3.1.1 Hive数据库的创建与管理
       3.1.2 任务实现
任务3.2 创建业务信息表
       3.2.1 数据字段说明
       3.2.2 Hive数据类型
       3.2.3 HiveQL数据定义语言
       3.2.4 任务实现
任务3.3 将数据导入至Hive表中
       3.3.1 原始CSV数据上传
       3.3.2 数据初步处理
       3.3.3 从原始CSV文件导入到Hive表
       3.3.4 任务实现
小结

实训 Hive CLI数据操作
课后习题

第4章 广电用户基本信息简单查询

任务4.1 查询广电用户的用户编号及开户时间
       4.1.1 入门SELECT语句
       4.1.2 任务实现
任务4.2 查询指定用户状态的用户基本信息
       4.2.1 使用WHERE关键字添加查询条件
       4.2.2 介绍WHERE关键字常见条件查询使用方式
       4.2.3 任务实现
任务4.3 统计用户基本信息表中品牌名称的种类个数
       4.3.1 使用DISTINCT去重查询
       4.3.2 使用聚合函数
       4.3.3 任务实现
任务4.4 统计不同客户等级名称的数据记录数
       4.4.1 设置列别名
       4.4.2 任务实现
任务4.5 统计不同用户状态的数据记录数
       4.5.1 使用GROUP BY关键字分组查询
       4.5.2 任务实现
任务4.6 统计指定用户数量范围的客户等级
       4.6.1 使用HAVING对分组结果进行筛选
       4.6.2 任务实现
任务4.7 统计用户人数最多的3种用户状态
       4.7.1 使用LIMIT关键字设置查询结果展示
       4.7.2 使用排序关键字对查询结果排序
       4.7.3 任务实现
任务4.8 查询客户发生状态变更的时间及开户时间
       4.8.1 使用正则表达式查询数据
       4.8.2 任务实现
小结

实训 查询电商货品订单信息
课后习题

第5章 广电用户账单与订单数据查询进阶

任务5.1 统计订单的消费类型
       5.1.1 介绍Hive内置函数
       5.1.2 使用条件函数
       5.1.3 使用类型转换函数
       5.1.4 任务实现
任务5.2 统计用户每年消费应付总额
       5.2.1 使用字符函数
       5.2.2 任务实现
任务5.3 统计用户每月消费应付金额
       5.3.1 使用日期函数
       5.3.2 任务实现
任务5.4 统计用户每月实际账单金额
       5.4.1 使用数学函数
       5.4.2 任务实现
任务5.5 查询用户宽带订单的地址情况
       5.5.1 使用JOIN语句
       5.5.2 介绍UNION ALL关键字
       5.5.3 任务实现
任务5.6 抽样统计用户订购产品情况
       5.6.1 使用桶表抽样查询
       5.6.2 任务实现
小结

实训
       实训1 查询员工信息
       实训2 查询学生信息
课后习题

第6章 广电用户收视行为数据查询优化

任务6.1 使用视图统计不同媒体节目类型的用户观看人数
       6.1.1 创建视图
       6.1.2 查看与删除视图
       6.1.3 任务实现
任务6.2 优化统计直播频道数
       6.2.1 配置Fetch抓取
       6.2.2 合理设置map和reduce任务数
       6.2.3 配置并行执行
       6.2.4 任务实现
任务6.3 使用子查询统计媒体节目类型为直播的频道热度Top10
       6.3.1 使用子查询优化查询语句
       6.3.2 优化配置GROUP BY语句
       6.3.3 使用GROUP BY代替COUNT(DISTINCT)去重统计
       6.3.4 优化配置LIMIT语句
       6.3.5 任务实现
小结

实训
       实训1 统计某城市各线路公交车的刷卡次数
       实训2 统计某百货商场会员总消费金额Top10
课后习题

第7章 广电用户数据清洗及数据导出

任务7.1 删除无效用户信息
       7.1.1 探索无效用户信息
       7.1.2 任务实现
任务7.2 删除无效收视行为数据
       7.2.1 探索无效收视行为数据
       7.2.2 任务实现
任务7.3 删除无效账单和订单数据
       7.3.1 探索无效账单数据
       7.3.2 探索无效订单数据
       7.3.3 任务实现
任务7.4 保存处理结果至Linux本地和HDFS
       7.4.1 使用INSERT OVERWRITE语句将数据导出至文件系统
       7.4.2 总结数据处理结果
       7.4.3 任务实现
小结

实训
       实训1 删除无效房价数据
       实训2 删除恶意好评手机数据并保存结果至Linux本地
课后习题

第8章 Hive编程开发应用

任务8.1 配置Hive远程服务
       8.1.1 配置并启动Hadoop集群服务
       8.1.2 配置并启动Hive远程服务
任务8.2 搭建Hive远程连接环境
       8.2.1 搭建IntelliJ IDEA开发环境
       8.2.2 创建IDEA项目
       8.2.3 添加依赖
       8.2.4 手动加载MySQL驱动
       8.2.5 JDBC及其主要接口
       8.2.6 创建连接测试程序
任务8.3 程序实现广电数据的存储
       8.3.1 创建项目
       8.3.2 创建HiveHelper类和JDBC连接
       8.3.3 创建测试类
       8.3.4 创建Hive数据库
       8.3.5 创建Hive表
       8.3.6 装载数据
       8.3.7 程序运行与调试
任务8.4 程序实现广电数据的查询与处理
       8.4.1 查询数据
       8.4.2 清理无效数据
       8.4.3 删除无效收视行为数据
       8.4.4 删除无效账单和订单数据
小结

实训
       实训1 通过程序方式删除无效房价数据
       实训2 通过程序方式删除恶意好评手机数据
课后习题

资源列表

文件名 文件大小 上传时间 操作
《Hive大数据存储与处理》PPT 181.52MB 2024-04-01 下载
《Hive大数据存储与处理》正文数据和代码 94.40MB 2024-04-09 下载
《Hive大数据存储与处理》习题数据和答案 4.52MB 2024-04-23 下载
《Hive大数据存储与处理》实训数据 36.31MB 2024-04-23 下载

视频列表

内容筹备中,敬请期待!

我们正在全力以赴不断完善本教材的上课体验,但在此期间,您可以优先体验其他教材。 感谢您的支持!
申请样书
关注公众号,填写信息,即可申请样书!