免费阅读

Spark大数据分析实务

郑浩森，张荣；张良均，杨树例，陈国珍

书号：978-7-115-64140-3

本书以Spark大数据分析的常用技术与真实项目相结合的方式，深入浅出介绍Spark大数据分析的重要内容，内容包括广告流量检测违规识别需求分析、Spark大数据环境安装搭建、广告流量检测数据存储、广告流量检测数据探索分析、广告流量检测数据预处理、广告流量检测违规识别模型构建与评估、广告流量检测违规识别，以及基于TipDM大数据挖掘建模平台实现广告流量检测违规识别。

本书配套资源(PPT、教案、教学大纲、实训数据等）可登陆泰迪云教材账号，到资源下载处下载。

热度：

申请样书

关注公众号，填写信息，
即可申请样书！

订购咨询

简介

资源下载

视频

上课体验

反馈

图书介绍

本书特色：1、贯彻立德树人。本书每个项目都融入素质目标，教导学生要遵纪守法，养成敬业、精益、专注、创新的工匠精神，树立正确的职业观念。2、企业真实项目贯穿。本书由一个企业真实项目贯穿，按照大数据分析的流程详细地讲解了需求分析、数据存储、探索分析、数据预处理、模型构建与评估、以及模型应用。3、以项目为导向。本书项目均由项目背景、项目目标、目标分析、知识准备、项目实施、项目总结构成，让读者对实际项目的流程有一个初步的认识。4、将拓展与巩固结合。本书每个项目（项目1、8除外）均包含技能拓展，用于讲解项目中没有涉及的知识点，以丰富读者的知识。并在每个项目（项目1、8除外）的最后添加了知识测试和技能训练，以帮助读者巩固所学知识，实现真正理解并应用所学知识。

本书内容：本书以Spark大数据分析的常用技术与真实项目相结合的方式，深入浅出介绍Spark大数据分析的重要内容。全书共8个项目，内容包括广告流量检测违规识别需求分析、Spark大数据环境安装搭建、基于Hive实现广告流量检测数据存储、基于Spark SQL实现广告流量检测数据探索分析、基于Spark SQL实现广告流量检测数据预处理、基于Spark MLlib实现广告流量检测违规识别模型构建与评估、基于Spark开发环境实现广告流量检测违规识别，以及基于TipDM大数据挖掘建模平台实现广告流量检测违规识别。

图书目录

项目1 广告流量检测违规识别需求分析

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、认识大数据
（一）大数据的概念
（二）大数据的特征
二、认识大数据分析
（一）大数据分析的概念
（二）大数据分析的流程
（三）大数据分析的工具
【项目实施】
任务一了解正常的广告投放流程
任务二了解广告流量违规现状
任务三了解广告流量常见违规方式
任务四了解识别虚假流量的常见维度
（一）基本属性
（二）产品参与度
任务五广告流量检测违规识别流程分析
【项目总结】

项目2 Spark大数据环境安装搭建

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、Hadoop大数据框架
（一） Hadoop简介
（二） Hadoop的发展历程
（三） Hadoop的特点
（四） Hadoop生态系统
（五） Hadoop的应用场景
二、Hive数据仓库工具
（一） Hive简介
（二） Hive的特点
（三） Hive的应用场景
（四） Hive与关系型数据库的区别
三、Spark分布式计算框架
（一） Spark简介
（二） Spark的发展历程
（三） Spark的特点
（四） Spark生态系统
（五） Spark的应用场景
【项目实施】
任务一安装搭建Hadoop集群
（一）创建Linux虚拟机
（二）设置固定IP
（三）远程连接虚拟机
（四）配置本地yum源及安装常用软件
（五）在Linux系统下安装Java
（六）修改配置文件
（七）克隆虚拟机
（八）配置SSH免密登录
（九）配置时间同步服务
（十）添加地址映射
（十一）启动关闭集群
任务二安装搭建Hive
（一）安装MySQL
（二）下载和安装Hive
（三）修改Hive配置文件
（四）设置环境变量
（五）初始化元数据库与启动Hive
任务三安装搭建Spark集群
（一）解压并配置Spark
（二）启动Spark集群
（三）查看Spark监控服务
【项目总结】
【技能拓展】
【知识测试】
【技能测试】
测试修改master虚拟机的IP地址

项目3 基于Hive实现广告流量检测数据存储

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、了解Hive中的数据类型
二、创建与管理数据库
（一）创建数据库语法格式
（二）删除数据库语法格式
（三）更改数据库语法格式
（四）使用数据库语法格式
三、创建表
（一）创建内部表
（二）创建外部表
（三）创建分区表
（四）创建桶表
四、修改表
五、导入数据至Hive表
（一）从文件系统中导入数据至Hive表
（二）通过查询语句向表中插入数据
六、导出Hive数据
（一）将Hive数据导出至本地文件系统
（二）将Hive数据导出至HDFS
【项目实施】
任务一创建数据表
（一）数据字段说明
（二）创建Hive表
任务二导入数据至Hive表
【项目总结】
【技能拓展】
【知识测试】
【技能测试】
测试某连锁咖啡店经营情况数据存储

项目4 基于Spark SQL实现广告流量检测数据探索分析

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、认识Spark SQL框架
（一） Spark SQL简介
（二）配置Spark SQL CLI
（三） Spark SQL与Shell交互
二、创建DataFrame对象
（一）结构化数据源创建DataFrame
（二）外部数据库创建DataFrame
（三） RDD创建DataFrame
（四） Hive中的表创建DataFrame
三、查看DataFrame数据
（一） printSchema()：打印数据模式
（二） show()：查看数据
（三） first()/head()/take()/takeAsList()：获取若干行记录
四、掌握DataFrame行列表查询操作
（一）条件查询
（二）查询指定字段的数据信息
（三）查询指定行数的数据
（四）排序查询
（五）分组查询
【项目实施】
任务一读取数据创建DataFrame对象
任务二简单查询DataFrame数据
（一）查询数据记录数
（二）查询数据缺失值
任务三分组查询日流量特征
任务四排序查询IP地址的访问次数特征
任务五探索违规流量数据特征
【项目总结】
【技能拓展】
【知识测试】
【技能测试】
测试使用DataFrame查询操作分析员工基本信息
测试使用DataFrame查询操作分析图书信息

项目5 基于Spark SQL实现广告流量检测数据预处理

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、掌握DataFrame行列表增、删操作
（一）新增数据列
（二）删除数据列
二、创建与使用用户自定义函数
三、掌握DataFrame表联合操作
（一） join()五大重载函数说明
（二）根据特定字段进行表联合操作
（三）指定类型进行表联合操作
（四）使用Column类型进行表联合操作
四、掌握DataFrame行列表输出操作
（一）保存为文件
（二）保存为持久化的表
【项目实施】
任务一使用drop语句删除数据
任务二自定义函数构建关键特征
（一）划分时间区间
（二）构建关键特征并保存至Hive表中
任务三保存DataFrame数据至Hive表
【项目总结】
【技能拓展】
【知识测试】
【技能测试】
测试基于Hive的人力资源系统数据处理

项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、认识Spark MLlib算法库
（一）了解机器学习算法
（二） Spark MLlib简介
二、掌握Spark MLlib中的算法与算法包
（一）数据类型
（二）基本统计
（三）管道
（四）特征提取
（五）特征处理
（六）回归
（七）分类
（八）聚类
（九）关联规则
（十）智能推荐
三、掌握Spark.MLlib的评估器与模型评估
【项目实施】
任务一数据归一化
任务二构建建模样本
任务三使用spark.ml.classification模块构建分类模型
（一）使用逻辑回归算法实现广告流量检测违规识别
（二）使用随机森林算法实现广告流量检测违规识别
任务四使用评估器实现模型评估
（一）模型评估
（二）模型评估结果对比
【项目总结】
【技能拓展】
【知识测试】
【技能测试】
测试基于Spark MLlib实现新闻分类

项目7 基于Spark开发环境实现广告流量检测违规识别

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、搭建Java开发环境
（一）安装JDK
（二）设置环境变量
二、搭建Spark开发环境
（一）下载与安装IntelliJ IDEA
（二） Scala插件安装与使用
（三）在IDEA中配置Spark运行环境
（四）运行Spark程序
【项目实施】
任务一开发环境下实现流量数据违规识别
（一）集群连接参数设置
（二）封装代码
（三）运行Spark程序
任务二模型应用
【项目总结】
【技能拓展】
【知识测试】
【技能测试】
测试农产品销售分析

项目8 基于TipDM大数据挖掘建模平台实现广告流量检测违规识别

【教学目标】
【思维导图】
【项目背景】
【项目目标】
【目标分析】
【知识准备】
一、平台简介
（一）共享库
（二）数据连接
（三）数据集
（四）我的工程
（五）个人组件
【项目实施】
任务一快速构建广告流量检测违规识别工程
（一）数据源配置
（二）数据处理
（三）模型构建与评估
【项目总结】

资源列表

文件名	文件大小	上传时间	操作
《Spark大数据分析实务》正文数据和代码	103.80MB	2024-06-28	下载
《Spark大数据分析实务》技能拓展数据和代码	274.09MB	2024-06-28	下载
《Spark大数据分析实务》PPT	449.80MB	2024-06-28	下载
《Spark大数据分析实务》知识测试答案	0KB	2024-06-28	下载
《Spark大数据分析实务》技能测试数据	18.83MB	2024-06-28	下载
《Spark大数据分析实务》教学进度表	118KB	2024-07-18	下载
《Spark大数据分析实务》教学大纲	124KB	2024-07-18	下载
《Spark大数据分析实务》教案	809KB	2024-07-18	下载

视频列表

内容筹备中，敬请期待！

我们正在全力以赴不断完善本教材的上课体验，但在此期间，您可以优先体验其他教材。感谢您的支持！

Spark大数据分析实务

图书介绍

图书目录

资源列表

视频列表

师资培训

以赛促学

内推就业

教育部1+X

工作室

实验室建设