- 简介
- 资源下载
- 视频
- 上课体验
- 反馈
图书介绍
本书特色:1、本书是“十四五”职业教育国家规划教材,内容契合“1+X”大数据应用开发(Python)职业技能高级证书考核标准,全书将理论与实战结合,注重任务案例的学习。2、本书坚持理实一体化的理念(理实一体化,就是理论与实践融会贯通),教材编写中,按照国家职业标准、职业技能鉴定标准,以技能训练为核心、理论知识够用为度作为人才培养的目标定位,以技能训练项目为主线,将理论知识按照实训的需要融入实训(技能训练)中,形成一体化项目模块。3、通过与行业企业专家和技术骨干交流,分析职业岗位(群)典型工作任务,准确对接职业标准,将自然语言处理工作中需要完成的各关联任务和所需的技能进行归纳整合,形成满足完成岗位(群)工作任务要求的典型工作,再将典型工作由易到难进行教学加工,紧密围绕《自然语言处理》课程中对学生的知识、能力、素质的要求,同时结合大数据与人工智能职业标准,开展以岗位职业技能为引领、项目或任务为载体,学生职业成长规律和职业技能培养为核心的理实一体化教材编写基本结构框架设计。4、案例、理论、算法和程序四位一体。本书始终以培养读者问题解决能力为宗旨,在各章中安排了丰富的实例,并且还包含一系列算法模型(n元语法模型、隐马尔可夫模型、Word2Vec表示、DM模型、DBOW模型、seq2seq模型),每种算法都提供了详细python代码和注释,方便在理论的基础上理解算法,帮助读者更直观地理解自然语言处理的理论、算法,并掌握利用相关技术和算法解决本领域实际问题的能力。5、课程思政融入案例。在案例选择中,注重对学生三观的正确引导,例如加强道德素质和法治素养的培养:通过提供合法的案例数据库,培养学生知识产权意识,提高学生学术道德素质和法治素养;通过科大讯飞发展等案例,展示中国目前蓬勃发展的自然语言处理技术,同时培养学生的爱国情怀、民族自信及创新意识,彰显“文化自信”; 通过实际案例训练,深化职业理想和职业道德教育,培养学生脚踏实地、主动求知、知难而进、不断创新、勇攀科学高峰的探索精神。6、资源齐备,便于学习:本书为教师和学生提供了相关的学习和教学资源用书,包括教学用PPT、案例的数据集和源代码、习题答案、微课等;每章还配有类型丰富的习题和案例,既方便教师授课,也可以帮助读者通过这些学习资源巩固所学知识。
内容简介:本书以Python自然语言处理的常用技术与真实案例相结合的方式,深入浅出介绍Python自然语言处理的重要内容。全书共13章,内容包括自然语言处理的概述、基本流程、开发环境,语料库、正则表达式、中文分词、词性标注与命名实体识别、关键词提取、文本向量化、文本分类与聚类、文本情感分析、自然语言处理中的深度学习、智能问答系统、大语言模型等技术,以及如何使用TipDM数据挖掘建模平台实现自然语言处理案例。
本书保留原书特色的基础上,对教材进行了内容与代码的全面升级。第2版修订的主要内容如下:1、将Python由Python 3.6.0升级为Python3.11.7;将Anaconda由 Anaconda3 4.4.0升级为 Anaconda3 2024.02-1。2、在每一章中新增了素养目标和思维导图。3、第1章新增了构建中文文本高频词云图的实例。4、第2章删去了NLTK库,新增了中文开源语料库的介绍,并使用构建一个电影评论语料库的实例替换原本的构建作品集语料库。5、第3章新增了常用正则表达式搭配。6、第4章删去了n-gram模型,删去了隐马尔可夫模型理论部分,新增了基于深度学习的分词技术的介绍,正向最大匹配法示例、双向最大匹配法示例和HMM进行中文分词的示例。7、第5章删去了词性标注规范和CRF模型理论介绍部分,新增了词性标注模型(基于HMM的词性标注和基于深度学习的词性标注)和CRF模型的中文命名实体识别示例。8、第6章删去了LSA与LDA算法理论部分,新增了LSA与LDA算法示例。9、第7章删去了Word2Vec模型理论部分,新增了TF-IDF表示的介绍和示例、CBOW模型文本向量化示例、Skip-Gram模型文本向量化的示例、DM模型实现文本向量化的示例和DBOW模型实现文本向量化的示例。10、第8章新增了文本分类和文本聚类的应用介绍和示例。11、第9章删去了基于LDA的情感分析,新增了情感分析的主要内容和相应的示例、机器学习方法情感分析示例、深度学习模型情感分析示例。12、第10章删去了RNN语言模型理论部分和工具介绍部分。13、新增了大语言模型开发应用章节。
图书目录
第1章 绪论
1.1 NLP概述
1.1.1 NLP的发展历程
1.1.2 NLP的研究内容
1.1.3 NLP的应用
1.1.4 NLP与人工智能技术
1.1.5 学习NLP的困难
1.1.6 中文NLP的特点
1.2 中文NLP基本流程
1.2.1 语料获取
1.2.2 语料预处理
1.2.3 文本向量化
1.2.4 模型构建
1.2.5 模型训练
1.2.6 模型评价
1.3 NLP的开发环境
1.3.1 NLP开发环境的组成
1.3.2 Anaconda简介与安装
1.3.3 Anaconda功能简介
1.4 任务:构建中文文本高频词云图
小结
课后习题
第2章 语料库
2.1 语料库概述
2.1.1 语料库的特点
2.1.2 语料库的用途
2.2 语料库种类与构建原则
2.2.1 语料库种类
2.2.2 语料库的构建原则
2.3 语料库的获取
2.3.1 中文开源语料库
2.3.2 网络在线语料库
2.4 任务:网络在线语料分析
2.5 任务 构建一个电影评论语料库
小结
实训
实训1 构建语料库
实训2 《七剑下天山》语料库分析
课后习题
第3章 正则表达式
3.1 正则表达式简介
3.1.1 正则表达式的应用范围
3.1.2 正则表达式函数
3.1.3 正则表达式的元字符
3.2 :正则表达式应用
3.2.1 常用正则表达式搭配
3.2.2 常用正则表达式示例
小结
实训
实训1 过滤《三国志》中的非中文字符
实训2 提取地名与邮编
实训3 提取网页标签中的文本
课后习题
第4章 中文分词技术
4.1 中文分词简介
4.1.1 中文分词的难点
4.1.2 中文分词技术
4.2 基于规则的分词
4.2.1 正向最大匹配法
4.2.2 逆向最大匹配法
4.2.3 双向最大匹配法
4.3 基于统计的分词
4.3.1 隐马尔可夫模型
4.3.2 中文分词与HMM
4.4 基于深度学习的分词技术
4.4.1 深度学习分词方法主要步骤
4.4.2 基于深度学习的中文分词示例
4.5 中文分词工具jieba库
4.5.1 jieba库算法简介
4.5.2 jieba库分词模式
4.6 任务:中文分词的应用
4.6.1 HMM中文分词
4.6.2 提取新闻文本的高频词
小结
实训
实训1 使用HMM进行中文分词
实训2 提取文本中的高频词
课后习题
第5章 词性标注与命名实体识别
5.1 词性标注
5.2 词性标注模型
5.2.1 基于HMM的词性标注
5.2.2 基于深度学习的词性标注
5.3 jieba词性标注
5.4 命名实体识别
5.4.1 命名实体识别简介
5.4.2 基于CRF模型的中文命名实体识别
5.4.3 基于深度学习的中文命名实体识别
5.5 任务:使用sklearn-crfsuite库进行中文命名实体识别
5.5.1 sklearn-crfsuite库简介
5.5.2 命名实体识别流程
小结
实训 中文命名实体识别
课后习题
第6章 关键词提取
6.1 关键词提取技术简介
6.2 关键词提取算法
6.2.1 基于统计的方法
6.2.2 基于语义的方法
6.3 任务:自动提取文本关键词
6.3.1 文本预处理
6.3.2 TF-IDF算法
6.3.3 TextRank算法
6.3.4 LSI算法
小结
实训
实训1 文本预处理
实训2 使用TF-IDF算法提取关键词
实训3 使用TextRank算法提取关键词
实训4 使用LSA算法提取关键词
课后习题
第7章 文本向量化
7.1 文本向量化简介
7.2 文本向量化的离散化表示
7.2.1 独热编码
7.2.2 BOW模型
7.2.3 TF-IDF表示
7.3 文本向量化的分布式表示
7.3.1 常见的分布式表示方法
7.3.2 Word2Vec模型
7.3.3 Doc2Vec模型
7.4 任务:论文相似度计算
7.4.1 Word2Vec词向量的训练
7.4.2 Doc2Vec段落向量的训练
7.4.3 计算文本的相似度
小结
实训
实训1 实现基于Word2Vec的新闻语料词向量训练
实训2 实现基于Doc2Vec的新闻语料段落向量训练
实训3 使用Word2Vec和Doc2Vec计算新闻文本的相似度
课后习题
第8章 文本分类与聚类
8.1 文本挖掘简介
8.2 文本分类
8.2.1 文本分类算法
8.2.2 文本分类的应用
8.2.3 中文文本分类的步骤
8.3 文本聚类
8.3.1 文本聚类算法
8.3.2 文本聚类的应用
8.3.3 中文文本聚类的步骤
8.4 任务:垃圾短信分类
8.4.1 数据读取
8.4.2 文本预处理
8.4.3 调用MultinomialNB函数
8.4.4 模型评价
8.5 任务:新闻文本聚类
8.5.1 数据读取
8.5.2 文本预处理
8.5.3 特征提取
8.5.4 聚类
8.5.5 模型评价
小结
实训
实训1 基于朴素贝叶斯的新闻分类
实训2 书籍文本聚类分析
课后习题
第9章 文本情感分析
9.1 文本情感分析简介
9.1.1 情感分析的主要内容
9.1.2 情感分析的常见应用
9.2 情感分析的常用方法
9.2.1 词典情感分析方法
9.2.2 机器学习方法
9.2.3 深度学习方法
9.3 任务:基于情感词典的情感分析
9.4 任务:基于机器学习的情感分析
9.4.1 基于朴素贝叶斯分类的情感分析
9.4.2 基于Snownlp的情感分析
小结
实训
实训1 基于词典的豆瓣评论文本情感分析
实训2 基于朴素贝叶斯的豆瓣评论文本情感分析
实训3 基于Snownlp的豆瓣评论文本情感分析
实训4 基于深度学习的豆瓣评论文本情感分析
课后习题
第10章 NLP中的深度学习技术
10.1 RNN概述
10.2 RNN结构
10.2.1 多对一结构
10.2.2 等长的多对多结构
10.2.3 非等长结构(Seq2Seq模型)
10.3 任务:基于LSTM的文本分类与情感分析
10.3.1 文本分类
10.3.2 情感分析
10.4 任务:基于Seq2Seq的机器翻译
10.4.1 语料预处理
10.4.2 构建模型
10.4.3 定义优化器及损失函数
10.4.4 训练模型
10.4.5 翻译
小结
实训
实训1 实现基于LSTM的新闻分类
实训2 实现基于LSTM的携程网评论情感分析
实训3 实现基于Seq2Seq和GPU的机器翻译
课后习题
第11章 智能问答系统
11.1 问答系统简介
11.2 问答系统的主要组成
11.2.1 问题理解
11.2.2 知识检索
11.2.3 答案生成
11.3 任务:基于Seq2Seq的智能问答系统
11.3.1 读取语料库
11.3.2 文本预处理
11.3.3 模型构建
11.3.4 模型训练
11.3.5 模型评价
小结
实训 基于Seq2Seq模型的聊天机器人
课后习题
第12章 大语言模型开发应用
12.1 大语言模型简介
12.2 中文大语言模型
12.2.1 国内中文大语言模型
12.2.2 调用大语言模型API
12.3 讯飞星火认知大模型
12.3.1 讯飞星火认知大模型简介
12.3.2 调用讯飞星火大模型API
12.4 星火大模型API程序开发应用
12.4.1 开发应用领域
12.4.2 API开发应用示例
小结
实训 API开发相关应用
课后习题
第13章 基于TipDM大数据挖掘建模平台实现垃圾短信分类
13.1 使用平台配置垃圾短信分类案例的步骤和流程
13.2 数据源配置
13.3 数据预处理
13.4 构建模型
小结
实训 实现基于朴素贝叶斯的新闻分类
课后习题
资源列表
内容筹备中,敬请期待!
视频列表
内容筹备中,敬请期待!
