新書推薦:
《
宋代冠服图志(详尽展示宋代各类冠服 精美插图 考据严谨 细节丰富)
》
售價:HK$
87.4
《
形似神异:什么是中日传统政治文化的结构性差异
》
售價:HK$
55.8
《
养育不好惹的小孩
》
售價:HK$
79.4
《
加加美高浩的手部绘画技法 II
》
售價:HK$
91.8
《
卡特里娜(“同一颗星球”丛书)
》
售價:HK$
89.7
《
伟大民族:从路易十五到拿破仑的法国史(方尖碑)
》
售價:HK$
193.2
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:HK$
135.7
《
《日本文学史序说》讲演录
》
售價:HK$
74.8
|
內容簡介: |
本书以作者主持的国家项目、省部级项目及合作项目等为依托,以课题组近年来的研究成果为基础,重点介绍语料库深加工中的若干技术和方法,涉及分词、词性标注、句法分析、语义标注以及相关加工中的自动校对和一致性检验技术。同时,对语料库加工质量的评价技术和语料库的相关应用做了详细介绍。各章节的顺序展示了语料库加工中由浅人深的发展过程。
本书可作为计算机、语言学等专业高年级本科生、研究生教材,也可作为自然语言处理和计算语言学研究人员的参考书。
|
目錄:
|
《智能科学技术著作丛书》序
前言
第1章 绪论
1.1 语料库的定义和作用
1.1.1 什么是语料库
1.1.2 语料库的作用
1.2 语料库的建立
1.2.1 什么是语料库标注
1.2.2 语料库标注的原则
1.2.3 建立语料库需要考虑的几个问题
1.2.4 语料库标注和建立的方法
1.2.5 语料库的质量检验
1.3 本书的编排
参考文献
第2章 自动分词
2.1 自动分词概述
2.1.1 自动分词的意义
2.1.2 自动分词的主要难点
2.1.3 自动分词方法简介
2.1.4 自动分词评测
2.2 分词规范
2.2.1 制定分词规范的目的和意义
2.2.2 几种典型的分词规范介绍
2.3 歧义字段的切分技术
2.3.1 歧义字段现象分析
2.3.2 基于统计的歧义字段排歧
2.4 未登录词识别
2.4.1 专有名词识别
2.4.2 新词语识别
2.5 缩略语识别
2.5.1 缩略语特征分析
2.5.2 缩略语资源库的建立
2.5.3 缩略语识别模型
2.5.4 缩略语的还原
2.6 分词一致性检验
2.6.1 分词不一致性现象分析
2.6.2 基于规则的分词一致性检验方法
2.6.3 基于统计的分词一致性检验方法
2.6.4 分词一致性检验系统
参考文献
第3章 词性标注
3.1 词性标注概述
3.1.1 词性标注的意义
3.1.2 词性标注的难点
3.1.3 词性标注方法简介
3.1.4 常用语料库
3.2 词性标注规范
3.2.1 制定词性标注规范的目的和意义
3.2.2 几种典型的词性标注规范介绍
3.3 兼类词的标注
3.3.1 什么是兼类词
3.3.2 典型的兼类词标注方法
3.4 词性标注一致性检验
3.4.1 问题描述和分析
3.4.2 一致性检验模型的建立
3.4.3 实验结果和分析
3.4.4 方法评价
3.5 词性标注自动校对
3.5.1 基于分类的词性标注自动校对
3.5.2 基于决策表的词性标注自动校对
参考文献
第4章 句法分析
4.1 完全句法分析
4.1.1 完全句法分析概述
4.1.2 形式语法体系
4.1.3 树库资源的建设
4.1.4 汉语句法分析的特点
4.1.5 句法分析方法
4.1.6 相关会议及评测
4.1.7 句法分析模型的评价方法
4.2 浅层句法分析
4.2.1 浅层句法分析概述
4.2.2 组块库的获取
4.2.3 组块的类型及其标注规范
4.2.4 组块分析方法
4.2.5 相关会议及评测
4.2.6 评价参数
4.3 句法树库的一致性检验
4.3.1 不一致现象分析
4.3.2 不一致的发现和消解
参考文献
第5章 语义标注语料库
5.1 语义标注范围
5.1.1 词义标注
5.1.2 句义标注
5.1.3 篇章级的语义标注
5.2 语义标注语料库的建立方法
5.2.1 传统的以人工标注为主的方法
5.2.2 自动构建语义标注语料库
5.3 主要的语义标注语料库
5.3.1 词义标注语料库
5.3.2 句义标注语料库
5.3.3 语篇关系标注语料库
5.3.4 时间关系标注语料库
5.3.5 信息抽取方面的语料库
5.3.6 生物医药领域中的语义标注语料库
参考文献
第6章 语料库评测
6.1 语料库评测的意义
6.2 语料库分词质量评价
6.2.1 评价样本的抽样
6.2.2 抽样样本的聚类及评价
6.2.3 实验及分析
6.3 语料库可用性评价
6.3.1 可用性评价体系
6.3.2 可用性评价计算
6.3.3 评价结果分析
参考文献
第7章 基于语料库的应用研究
7.1 网页信息处理
7.1.1 重复网页分析
7.1.2 基于语义的网页去重
7.1.3 基于网页文本结构的网页去重
7.2 特殊领域的信息抽取
7.2.1 基于HMM的农业信息抽取
7.2.2 基于NLP的土壤污染数据抽取
7.2.3 基于BOotstrapping的交通工具名识别
7.3 基于大规模语料库的汉语韵律边界研究
7.3.1 基于统计语言模型建立二叉树结构
7.3.2 基于树结构的汉语韵律边界预测
7.4 基于大规模语料库的欺骗行为检测
7.4.1 欺骗性语料库的建设
7.4.2 欺骗检测的特征线索
7.4.3 文本特征抽取
7.4.4 欺骗行为检测方法
7.4.5 实验结果和分析
参考文献
|
|