《文本数据挖掘（第2版）》 - 宗成庆、夏睿、张家俊 - Meg Book Store - 香港.大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

會員書架精選

2023年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書

『簡體書』文本数据挖掘（第2版）

書城自編碼： 3821154
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：宗成庆、夏睿、张家俊
國際書號(ISBN)： 9787302612957
出版社：清华大学出版社
出版日期： 2022-11-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 123.8

我要買件

** 我創建的書架 **
未登入.

新書推薦：

实验之火：锻造英格兰炼金术（1300—1700年）

《实验之火：锻造英格兰炼金术（1300—1700年）》
售價：HK$ 124.2

高功率激光推进

《高功率激光推进》
售價：HK$ 110.4

电网设备无人机自动机场建设与应用

《电网设备无人机自动机场建设与应用》
售價：HK$ 89.7

中国沿海的贸易与外交：通商口岸的开埠：1842-1854.下

《中国沿海的贸易与外交：通商口岸的开埠：1842-1854.下》
售價：HK$ 147.2

甲骨文丛书·繁荣与衰退：中国市场经济（1000~1500年）

《甲骨文丛书·繁荣与衰退：中国市场经济（1000~1500年）》
售價：HK$ 147.2

越南汉词整理与研究

《越南汉词整理与研究》
售價：HK$ 112.7

创客训练营 Arduino 应用技能实训

《创客训练营 Arduino 应用技能实训》
售價：HK$ 67.9

伯罗奔尼撒战争史（修订译本）

《伯罗奔尼撒战争史（修订译本）》
售價：HK$ 205.9

建議一齊購買：

+

HK$ 139.9
《大数据处理框架Apache Spark设计与实现（全彩）》

+

HK$ 118.0
《高性能MySQL（第4版）》

+

HK$ 99.1
《大数据时代的统计学思维：让你从众多数据中找到真相》

+

HK$ 172.5
《数据建模方法与案例》

+

HK$ 179.6
《大数据技术及架构图解实战派》

+

HK$ 109.5
《Access快速开发基础教程（视频案例精讲）》

編輯推薦：

《文本数据挖掘（第2版）》通过实例说明实现相关任务的理论方法和技术思路，而不过多地涉及实现细节，尽量使读者能够在充分理解基本原理的基础上掌握应用系统的实现方法。

內容簡介：

文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法，理解、分析和挖掘文本的内容，从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。《文本数据挖掘（第2版）》主要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法，包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等，最后通过具体实例展示相关技术在实际应用中的使用方法。《文本数据挖掘（第2版）》书可作为高等院校计算机、自动化、网络安全、大数据分析等专业，以及利用到文本信息处理的交叉学科（如金融财经、社会人文、生物医药等）的高年级本科生或研究生从事相关研究的入门参考书，也可供相关技术研发人员阅读和参考。

關於作者：

宗成庆，中国科学院自动化所研究员、博士生导师，中国科学院大学岗位教授，ACL/CAAI/CCF Fellow，主要从事自然语言处理、机器翻译和语言认知计算等研究，主持国家项目10余项，发表论文200余篇，出版《统计自然语言处理》、《文本数据挖掘》和Text Data Mining三部专著及两部译著。担任国际计算语言学委员会（ICCL）委员，中国中文信息学会副理事长，曾任亚洲自然语言处理学会（AFNLP）主席，国际一流学术会议ACL’2015和COLING’2020程序委员会主席、ACL’2021大会主席。荣获国家科技进步奖二等奖和多个省部级及国家一级学会的科技奖励，获得北京市优秀教师、中科院优秀导师和国科大李佩教学名师等若干荣誉。享受国务院特殊津贴。张家俊，中国科学院自动化研究所研究员、中国科学院大学岗位教授、博士生导师，主要研究方向为机器翻译和自然语言处理，获得国家优秀青年科学基金资助，入选中国科协首届青年人才托举工程、中国科学院青年创新促进会优秀会员和北京智源青年科学家。发表CCF-A/B类论文80余篇，出版学术专著2部，译著1部。获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖和2020年北京市科学技术奖一等奖等。担任中国中文信息学会青年工作委员会主任和机器翻译专委会副主任。担任ACL/EMNLP/COLING的(资深)领域主席和《自动化学报》等期刊的编委。夏睿，南京理工大学计算机学院教授、博士生导师，研究领域为人工智能、自然语言处理、文本数据挖掘，在国内外重要期刊和会议发表论文60余篇，出版学术专著2部，主持国家和省部级项目近10项，获得国际计算语言学会年会ACL2019杰出论文奖、中国中文信息学会青年创新奖一等奖等荣誉，获得江苏省杰出青年基金资助。

目錄：

第 1章绪论 1
11基本概念 1
12文本挖掘任务 2
13文本挖掘面临的困难 5
14方法概述与本书的内容组织 8
15进一步阅读 10
习题 11
第 2章数据预处理和标注 12
21概述 12
22数据获取 12
23数据预处理 16
24数据标注 18
25基本工具 20
251汉语自动分词与词性标注 20
252句法分析 22
253 n元语法模型 23
26进一步阅读 24
习题 24
第 3章文本表示 25
31概述 25
32向量空间模型 25
321向量空间模型的基本概念 25
322特征项的构造与权重 26
323文本长度规范化 27
324特征工程 28
325其他文本表示方法 30
33词的分布式表示 31
文本数据挖掘 (第 2版)
331神经网络语言模型 32
332 C&W模型 36
333 CBOW与 Skip-gram模型 38
334噪声对比估计与负采样 39
335字词混合的分布式表示方法 41
34短语的分布式表示 43
341基于词袋的分布式表示 43
342基于自动编码器的分布式表示 43
35句子的分布式表示 46
351通用的句子表示 46
352任务相关的句子表示 49
36文档的分布式表示 52
361通用的文档分布式表示 53
362任务相关的文档分布式表示 55
37进一步阅读 56
习题 57
第 4章预训练语言模型 58
41概述 58
42 ELMo：源自语言模型的语境化分布式向量表示 58
421基于双向 LSTM的语言模型 59
422适应下游任务的语境化 ELMo词向量 60
43 GPT：生成式预训练模型 61
431 Transformer62
432 GPT预训练 63
433 GPT微调 64
44 BERT：双向 Transformer编码表示 65
441 BERT预训练 66
442 BERT微调 68
443 XLNet:广义自回归预训练模型 68
444 UniLM 71
45进一步阅读 72
习题 72
第 5章文本分类 74
51概述 74
52传统文本表示 75
目录 XI
53特征选择 76
531互信息法 76
532信息增益法 79
533卡方统计量法 80
534其他方法 81
54传统分类算法 82
541朴素贝叶斯模型 82
542 logistic回归、 softmax回归与最大熵模型 84
543支持向量机 86
544集成学习 88
55深度神经网络方法 89
551基于前馈神经网络的文本分类方法 89
552基于卷积神经网络的文本分类方法 89
553基于循环神经网络的文本分类方法 91
56文本分类性能评估 94
57进一步阅读 97
习题 97
第 6章文本聚类 99
61概述 99
62文本相似性度量 99
621样本间的相似性 100
622簇间的相似性 102
623样本与簇之间的相似性 103
63文本聚类算法 103
631 K-均值聚类 103
632单遍聚类 107
633层次聚类 108
634密度聚类 111
64性能评估 113
641外部标准 113
642内部标准 115
65进一步阅读 115
习题 116
第 7章主题模型 117
71概述 117
文本数据挖掘 (第 2版)
72潜在语义分析 118
721词项-文档矩阵的奇异值分解 118
722词项和文档的概念表示及相似度计算 121
73概率潜在语义分析 123
731模型假设 123
732参数学习 124
74潜在狄利克雷分布 125
741模型假设 125
742词项和主题序列的联合概率 127
743模型推断 129
744新文档的推断 131
745 PLSA与 LDA的联系与区别 132
75进一步阅读 132
习题 133
第 8章情感分析与观点挖掘 135
81概述 135
82情感分析任务类型 136
821按目标形式划分 136
822按分析粒度划分 137
83文档或句子级情感分析方法 139
831基于规则的无监督情感分类 140
832基于传统机器学习的监督情感分类 141
833深度神经网络方法 144
84词语级情感分析与情感词典构建 146
841基于语义知识库的方法 147
842基于语料库的方法 147
843情感词典性能评估 149
85属性级情感分析 150
851属性抽取 150
852属性情感分类 153
853主题与情感的生成式建模 157
86情感分析中的特殊问题 159
861情感极性转移问题 159
862领域适应问题 160
87文本情绪分析 163
871心理学情绪理论 163
目录 XIII
872文本情绪识别 163
873情绪原因挖掘 165
88进一步阅读 167
习题 168
第 9章话题检测与跟踪 170
91概述 170
92术语与任务 172
921术语 172
922任务 173
93报道或话题的表示与相似性计算 175
94话题检测 177
941话题在线检测 177
942话题回溯检测 179
95话题跟踪 179
96评估方法 181
97社交媒体话题检测与跟踪 182
971社交媒体话题检测 182
972社交媒体话题跟踪 184
98突发话题检测 184
981突发状态识别 185
982以文档为中心的方法 187
983以特征为中心的方法 188
99进一步阅读 190
习题 190
第 10章信息抽取 191
101概述 191
102命名实体识别 193
1021基于规则的命名实体识别方法 194
1022基于有监督学习的命名实体识别方法 195
1023半监督的命名实体识别方法 201
1024命名实体识别方法评价 203
103共指消解 204
1031基于规则的共指消解方法 205
1032数据驱动的共指消解方法 207
1033共指消解评价 210
文本数据挖掘 (第 2版)
104实体消歧 213
1041基于聚类的实体消歧方法 213
1042基于链接的实体消歧 217
1043实体消歧任务的评价方法 223
105关系抽取 224
1051基于离散特征的关系分类方法 226
1052基于分布式特征的关系分类方法 232
1053基于远程监督的关系分类方法 234
1054关系分类性能评价 235
1055知识图谱 235
106事件抽取 236
1061事件描述模板 236
1062事件抽取方法 238
1063事件抽取评价 245
1064事理图谱 245
107进一步阅读 246
习题 247
第 11章文本自动摘要 248
111概述 248
112抽取式自动摘要 249
1121句子重要性评估 250
1122基于约束的摘要生成方法 258
113压缩式自动摘要方法 259
1131句子压缩方法 259
1132基于句子压缩的自动摘要方法 263
114理解式自动摘要 265
1141基于信息融合的生成式摘要方法 265
1142基于编码-解码的生成式摘要方法 270
115基于查询的自动摘要 272
1151基于语言模型的相关性计算方法 272
1152基于关键词语重合度的相关性计算方法 273
1153基于图模型的相关性计算方法 273
116跨语言和多语言自动摘要方法 274
1161跨语言自动摘要 274
1162多语言自动摘要 277
目录 XV
117摘要质量评估方法和相关评测 279
1171摘要质量评估方法 279
1172相关评测活动 283
118进一步阅读 285
习题 285
第 12章技术应用 288
121概述 288
122电子病历分析与挖掘系统 289
1221任务目标 289
1222数据准备和标注 290
1223系统实现 292
123多语言政策法规分析与挖掘系统 300
1231任务目标 300
1232数据采集和标注 301
1233系统实现 302
习题 302
参考文献 303
名词术语索引 327

內容試閱：

大数据、大算力、大模型技术的快速发展极大地推动和改变着自然语言处理领域的研究和应用方式、方法，这种改变的速度远远超出了我们的预估和设想。几乎在《文本数据挖掘（第 1版）》出版的同时，预训练语言模型逐渐兴起，并得到了快速推广和应用。随后一系列大规模预训练语言模型不断在文本数据挖掘诸多任务上取得了更强的性能，获得了广泛的成功。与此同时，我们也发现了第 1版中的缺陷和不足，热心的读者以不同方式给我们提出了宝贵的建议。这些因素促使我们撰写了第 2版。
第 2版与第 1版的主要区别体现在如下三个方面：①内容更加丰富：在第 2版中除了增加最近几年流行的预训练语言模型（包括 BERT，GPT-3等）以外，还增加了最后一章技术应用，通过两个应用案例将全书各章的知识点串联起来，让读者看到每一章中介绍的技术如何在实际应用中发挥作用。②对部分内容进行了整合：考虑到神经网络模型是分布式表示和深度学习方法的基础性知识，第 1版第 3章和第 4章中均有涉及，部分内容略有重叠，因此，第 2版对这两章内容进行了整合。③增加了习题：在第 2版中各章最后增加了习题，以便于读者，尤其是学生结合每章的内容进行练习和实践。
在第 2版的撰写过程中得到了很多同事和朋友的帮助，他们或提供素材，或与作者讨论书中的内容，或帮助作者校对书稿。他们是中科院自动化所自然语言处理团队的向露博士和赵阳博士、北京中科凡语科技有限公司技术团队、南京理工大学计算机学院博士生沈祥清等。在此谨向他们表示衷心的感谢！同时感谢在互联网上对本书第 1版提出修改建议的热心读者们。
本书的撰写工作得到了中国科学院大学教材出版中心的资助（项目编号： YJF0812003），特此感谢！
还是那句老话，尽管作者尽了最大努力希望把这本书写好，但限于水平和时间，书中难免有诸多不足和疏漏。我们真诚地欢迎并接受读者以任何方式给予的批评指正！
作者 2021年 12月

書城介紹　 |　合作申請　|　索要書目　 |　新手入門　|　聯絡方式　 |　幫助中心　|　找書說明　 |　送貨方式　|　付款方式 香港用户　 |　台灣用户　|　大陸用户　|　海外用户

megBook.com.hk

Copyright © 2013 - 2024 （香港）大書城有限公司　 All Rights Reserved.