联合写书
我要写书
联系客服
联系客服
返回顶部
我要写书
关注微信号联系客服,编写您的教材 我要写书

修改密码

Python大数据分析与挖掘实战(微课版 第2版)

黄恒秋,莫洁安;谢东津,柳雪飞,张良均
书号:978-7-115-66574-4
本书以应用为导向,将理论与实践相结合,深入浅出地介绍了利用Python进行大数据分析与挖掘的基本知识,以及如何将其应用到具体领域的方法。
本书配套资源(PPT、教案、教学大纲、实训数据等)可登陆泰迪云教材账号,到资源下载处下载。
热度:
  • 简介
  • 资源下载
  • 视频
  • 上课体验
  • 反馈

图书介绍

本书以应用为导向,将理论与实践相结合,深入浅出地介绍了利用Python进行大数据分析与挖掘的基本知识,以及如何将其应用到具体领域的方法。 本书分为基础篇、案例篇和附录三个部分。基础篇(第1章~第8章)主要介绍Python基础知识及应用于科学计算、数据处理、数据可视化、特征工程、机器学习、集成学习、深度学习等方面的基础知识;案例篇(第9章~第14章)主要介绍利用Python进行金融、地理信息、交通、文本分析、图像识别等领域大数据分析与挖掘的案例,以及基于大语言模型的应用开发案例;附录介绍了线上如何开展实验教学的使用方法及应用举例,以帮助读者提高实践应用能力和提升教师实践教学质量。

第2版较前一版的区别,主要有以下3个方面:1)增加了数据预处理与特征工程、集成学习与实现、大模型技术与应用案例三个章节;2)程序代码做了兼容性处理,以Anaconda3-2023.09-0-Windows-x86_64.exe(python3.11.5)为基础,尽量兼容其他版本;3)增加了大量标准化、可线上自动测评的实验,不仅有在线实验教学平台支持,也可线下开展便捷实验教学,较好的解决了实践教学不足的问题。

图书目录

第1章  Python基础

1.1 Python概述
1.2 Python安装及启动
       1.2.1 Python安装
       1.2.2 Python启动及界面认识
       1.2.3 Python安装扩展包
1.3 Python基本数据类型
       1.3.1 数值的定义
       1.3.2 字符串的定义
       1.3.3 列表的定义
       1.3.4 元组的定义
       1.3.5 集合的定义
       1.3.6 字典的定义
       1.3.7 列表、元组、集合与字典之间的比较
1.4 Python相关的公有方法
       1.4.1 索引
       1.4.2 切片
       1.4.3 求长度
       1.4.4 统计
       1.4.5 成员身份确认
       1.4.6 变量删除
1.5 列表、元组与字符串方法
       1.5.1 列表方法
       1.5.2 元组方法
       1.5.3 字符串方法
1.6 字典方法
       1.6.1 创建字典:dict()
       1.6.2 获取字典值:get()
       1.6.3 字典赋值:setdefault()
1.7 条件语句
       1.7.1 if…语句
       1.7.2 if…else…语句
       1.7.3 if…elif…else…语句
1.8 循环语句
       1.8.1 while语句
       1.8.2 for循环
1.9 函数
       1.9.1 无返回值函数的定义与调用
       1.9.2 有返回值函数的定义与调用
       1.9.3 有多个返回值函数的定义与调用
本章小结
本章练习

第2章  科学计算包NumPy

2.1 NumPy简介
2.2 创建数组
       2.2.1 利用array()函数创建数组
       2.2.2 利用内置函数创建数组
2.3 数组尺寸
2.4 数组运算
2.5 数组切片
       2.5.1 常见的数组切片方法
       2.5.2 利用ix_()函数进行数组切片
2.6 数组连接
2.7 数据存取
2.8 数组形态变换
2.9 数组排序与搜索
2.10 矩阵与线性代数运算
       2.10.1 创建NumPy矩阵
       2.10.2 矩阵的属性和基本运算
       2.10.3 线性代数运算
本章小结
本章练习

第3章  数据处理包Pandas

3.1 Pandas简介
3.2 序列
       3.2.1 序列创建及访问
       3.2.2 序列属性
       3.2.3 序列方法
       3.2.4 序列切片
       3.2.5 序列聚合运算
3.3 数据框
       3.3.1 数据框创建
       3.3.2 数据框属性
       3.3.3 数据框方法
       3.3.4 数据框切片
3.4 外部文件读取
       3.4.1 Excel文件读取
       3.4.2 TXT文件读取
       3.4.3 CSV文件读取
本章小结
本章练习

第4章  数据可视化包Matplotlib

4.1 Matplotlib绘图基础
       4.1.1 Matplotlib图像构成
       4.1.2 Matplotlib绘图基本流程
       4.1.3 中文字符显示
       4.1.4 坐标轴字符刻度标注
4.2 Matplotlib常用图形绘制
       4.2.1 散点图
       4.2.2 线性图
       4.2.3 柱状图
       4.2.4 直方图
       4.2.5 饼图
       4.2.6 箱线图
       4.2.7 子图
本章小结
本章练习

第5章  数据预处理与特征工程

5.1 重复数据处理
5.2 数据的合并与关联
       5.2.1 基于数据框的合并
       5.2.2 基于数据框的关联
5.3 时间格式处理与日期元素提取
       5.3.1 时间处理函数
       5.3.2 时间元素提取
5.4 映射与离散化
5.5 滚动计算与分组统计计算
       5.5.1 滚动计算
       5.5.2 分组统计计算
5.6 样本均衡处理
       5.6.1 过抽样
       5.6.2 欠抽样
5.7 缺失值处理
       5.7.1 单变量插值填充
       5.7.2 多变量插值填充
       5.7.3 K最近邻插值填充
5.8 数据规范化
       5.8.1 均值-方差规范化
       5.8.2 极差规范化
5.9 特征组合与特征选择
       5.9.1 基于主成分分析的特征组合
       5.9.2 特征选择
本章小结
本章练习

第6章  机器学习与实现

6.1 线性回归
       6.1.1 一元线性回归
       6.1.2 多元线性回归
       6.1.3 Python线性回归应用举例
6.2 逻辑回归
       6.2.1 逻辑回归模型
       6.2.2 Python逻辑回归模型应用举例
6.3 神经网络
       6.3.1 神经网络模拟思想
       6.3.2 神经网络结构及数学模型
       6.3.3 Python神经网络分类应用举例
       6.3.4 Python神经网络回归应用举例
6.4 支持向量机
       6.4.1 支持向量机原理
       6.4.2 Python支持向量机应用举例
6.5 K-均值聚类
       6.5.1 K-均值聚类的基本原理
       6.5.2 Python K-均值聚类算法应用举例
6.6 关联规则
       6.6.1 关联规则概念
       6.6.2 布尔关联规则挖掘
       6.6.3 一对一关联规则挖掘及Python实现
本章小结
本章练习

第7章  集成学习与实现

7.1 集成学习的概念
       7.1.1 集成学习的基本原理
       7.1.2 个体学习器对集成学习模型性能的影响
       7.1.3 集成学习的结合策略
       7.1.4 集成学习的类型
7.2 Bagging算法
       7.2.1 Bagging算法的基本原理
       7.2.2 Bagging算法的Sklearn实现
       7.2.3 Bagging算法的应用举例
7.3 随机森林算法
       7.3.1 随机森林算法的基本原理
       7.3.2 随机森林算法的Sklearn实现
       7.3.3 Python随机森林算法的应用举例
7.4 Boosting算法
7.5 AdaBoost算法
       7.5.1 AdaBoost算法的基本原理
       7.5.2 AdaBoost算法的Sklearn实现
       7.5.3 AdaBoost算法的应用举例
7.6 GBDT算法
       7.6.1 GBDT算法的基本原理
       7.6.2 GBDT算法的Sklearn实现
       7.6.3 GBDT算法的应用举例
7.7 XGBoost算法
       7.7.1 XGBoost算法的基本原理
       7.7.2 XGBoost算法的Sklearn实现
       7.7.3 XGBoost算法的应用举例
本章小结
本章练习

第8章  深度学习与实现

8.1 深度学习
8.2 深度学习框架
       8.2.1 PyTorch框架
       8.2.2 PaddlePaddle框架
       8.2.3 TensorFlow框架
8.3 TensorFlow基础
       8.3.1 TensorFlow安装
       8.3.2 TensorFlow命令简介
       8.3.3 TensorFlow案例
8.4 多层神经网络
       8.4.1 多层神经网络结构及数学模型
       8.4.2 多层神经网络分类问题应用举例
       8.4.3 多层神经网络回归问题应用举例
8.5 卷积神经网络
       8.5.1 卷积层计算
       8.5.2 池化层计算
       8.5.3 全连接层计算
       8.5.4 CNN应用案例
8.6 循环神经网络
       8.6.1 RNN结构及数学模型
       8.6.2 长短期记忆网络
       8.6.3 RNN应用案例
本章小结
本章练习

第9章  基于财务与交易数据的量化投资分析

9.1 案例背景
9.2 案例目标及实现思路
9.3 基于总体规模与投资效率指标的上市公司综合评价
       9.3.1 指标选择
       9.3.2 数据获取
       9.3.3 数据处理
       9.3.4 主成分分析
       9.3.5 综合排名
9.4 技术分析指标选择与计算
       9.4.1 移动平均线指标
       9.4.2 指数平滑异同平均线指标
       9.4.3 随机指标
       9.4.4 相对强弱指标
       9.4.5 乖离率指标
       9.4.6 能量潮指标
       9.4.7 涨跌趋势指标
       9.4.8 计算举例
9.5 量化投资模型与策略实现
       9.5.1 投资组合构建
       9.5.2 基于逻辑回归的量化投资策略实现
本章小结
本章练习

第10章  众包任务定价优化方案

10.1 案例背景
10.2 案例目标及实现思路
10.3 数据获取与探索
       10.3.1 Folium地理信息可视化包安装
       10.3.2 数据读取与地图可视化
10.4 指标计算
       10.4.1 指标设计
       10.4.2 指标计算方法
       10.4.3 程序实现
10.5 定价模型构建
       10.5.1 指标数据预处理
       10.5.2 多元线性回归模型
       10.5.3 神经网络模型
10.6 方案评价
       10.6.1 完成增量
       10.6.2 成本增加额
       10.6.3 完整实现代码
本章小结
本章练习

第11章  地铁站点日客流量预测

11.1 案例背景
11.2 案例目标及实现思路
11.3 数据获取与探索
       11.3.1 二分法查找思想
       11.3.2 每日数据索引范围提取
11.4 指标计算
       11.4.1 指标设计
       11.4.2 指标计算方法
       11.4.3 程序实现
11.5 数据可视化
11.6 因素分析
       11.6.1 非节假日—三次指数平滑
       11.6.2 工作日—三次指数平滑
       11.6.3 因素分析结果
11.7 神经网络预测模型的建立
       11.7.1 示例站点客流量预测
       11.7.2 全部站点客流量预测
       11.7.3 模型预测结果分析
本章小结
本章练习

第12章  微博文本情感分析

12.1 案例背景
12.2 案例目标及实现思路
12.3 数据预处理过程
       12.3.1 数据读取
       12.3.2 分词
       12.3.3 去停用词
       12.3.4 词向量
       12.3.5 划分数据集
12.4 朴素贝叶斯分类模型
12.5 随机森林模型
12.6 梯度提升决策树模型
12.7 基于LSTM网络的分类模型
本章小结
本章练习

第13章  基于水色图像的水质评价

13.1 案例背景
13.2 案例目标及实现思路
13.3 数据获取与探索
13.4 支持向量机分类识别模型
       13.4.1 颜色特征计算方法
       13.4.2 自变量与因变量计算
       13.4.3 模型实现
13.5 卷积神经网络分类识别模型:灰图
       13.5.1 数据处理
       13.5.2 模型实现
13.6 卷积神经网络识别模型:彩图
       13.6.1 数据处理
       13.6.2 模型实现
本章小结
本章练习

第14章  大模型技术与应用案例

14.1 大模型基本认识
14.2 大模型开发环境搭建:基于Python和TensorFlow
14.3 大模型基础知识:基于BERT开源大语言模型
       14.3.1 BERT基本概念
       14.3.2 BERT输入
       14.3.3 BERT输出
       14.3.4 BERT特征提取与文本相似度计算
       14.3.5 BERT下游微调任务之分类
       14.3.6 BERT下游微调任务之问答
       14.3.7 BERT下游微调模型保存与加载
14.4 应用案例1:基于BERT模型的上市公司新闻标题情感分类
       14.4.1 案例介绍
       14.4.2 BERT模型输入参数及分类标签构造
       14.4.3 BERT微调模型的训练集、验证集和测试集构造
       14.4.4 BERT微调模型编译、训练与保存
       14.4.5 BERT微调模型加载及应用
14.5 应用案例2:DeepSeek-V3/R1应用实例
       14.5.1 DeepSeek Python SDK与OpenAI接口包安装
       14.5.2 DeepSeek-V3调用实例
       14.5.3 DeepSeek-R1调用实例
14.6 应用案例3:百度千帆大模型平台及应用实例
       14.6.1 千帆平台Python SDK安装
       14.6.2 千帆平台安全认证AK/SK鉴权
       14.6.3 文心大语言模型应用实例
       14.6.4 千帆平台接入的Fuyu-8B模型应用实例:图生文
       14.6.5 千帆平台接入的Stable-Diffusion-XL模型应用实例:文生图
14.7 应用案例4:基于大模型的AI作画与Streamlit Web可视化应用开发
       14.7.1 Streamlit开发环境搭建
       14.7.2 主体页面设计
       14.7.3 主体页面程序实现
       14.7.4 绘图事件函数定义
       14.7.5 本地开发
       14.7.6 Streamlit Web应用部署
本章练习

资源列表

文件名 文件大小 上传时间 操作
《Python大数据分析与挖掘实战(微课版 第2版)》习题答案 22.33MB 2025-08-27 下载
《Python大数据分析与挖掘实战(微课版 第2版)》PPT 59.65MB 2025-08-27 下载
《Python大数据分析与挖掘实战(微课版 第2版)》数据和代码 728.10MB 2025-08-28 下载

视频列表

内容筹备中,敬请期待!

我们正在全力以赴不断完善本教材的上课体验,但在此期间,您可以优先体验其他教材。 感谢您的支持!
申请样书
关注公众号,填写信息,即可申请样书!