新書推薦:
《
索恩丛书·盛清统治下的太监与皇帝
》
售價:HK$
88.5
《
透过器物看历史(全6册)
》
售價:HK$
490.6
《
我在台北故宫博物院读名画
》
售價:HK$
109.8
《
尼罗河往事:古埃及文明4000年
》
售價:HK$
76.2
《
一个人·谁也不是·十万人(诺贝尔文学奖得主反思自我的巅峰之作)
》
售價:HK$
54.9
《
重写晚明史(全5册 精装)
》
售價:HK$
781.8
《
汉末晋初之际政治研究
》
售價:HK$
132.2
《
强者破局:资治通鉴成事之道
》
售價:HK$
80.6
|
編輯推薦: |
在留学生汉字书写研究方面,本书研究的问题主要包括单字提取、汉字识别、笔画匹配及书写笔画错误提取,将语言学与应用语言学、汉字构形学与信息科学中的模式识别、计算机图形学、人工智能等多个领域相结合。在此基础上可以进行有针对性的书写质量评价、改进指导等方面的研究,具有良好的发展前景。
|
內容簡介: |
外国留学生的手写汉字因受其母语及汉语水平的影响,会出现多种类型的书写错误,这是汉语国际教育中汉字教学的难点之一。采用数码纸笔采集的外国留学生手写汉字含有笔画及其采样点的时间和空间等信息,从而可以有效地分析其书写过程,有利于提取各种书写错误。
本书主要研究识别具有笔画错误的汉字,匹配书写笔画与模板笔画,并提取多种笔画错误;采集了来自14个国家的外国留学生的手写汉字共计19000余份,涵盖500余种字形;开发了原型系统,对汉字识别、笔画匹配、可视化与人机交互校正、笔画错误提取等进行了实验;根据学生的汉字学习过程,原型系统在真实教学场景中进行了跟踪实验。
|
關於作者: |
白浩,男,1984年生,现就职于北京语言大学汉语国际教育学部。文学博士(语言学与应用语言学专业),工学硕士(计算机应用技术专业),研究方向为智能书写技术、中文手写计算、模式识别、计算机图形学等。讲授多媒体应用技术基础、程序设计入门等课程。近年来发表论文10余篇,其中9篇被EI或Scopus检索(其中7篇为第一作者),1篇为中文核心期刊论文,1篇被CPCI-S检索。现为中国计算机学会专业会员。2018年6月入选“北京语言大学青年英才培养计划”。
|
目錄:
|
第一章 绪论 / 1
1.1 选题背景 / 1
1.2 研究问题 / 4
1.3 本书工作 / 6
第二章 国内外研究现状及分析 / 10
2.1 单字提取 / 11
2.1.1 相邻笔画时间和空间距离的方法 / 11
2.1.2 语境方法 / 12
2.1.3 机器学习方法 / 13
2.2 汉字识别 / 14
2.2.1 结构方法 / 15
2.2.2 特征提取方法 / 16
2.2.3 深度学习方法 / 17
2.3 笔画匹配 / 19
2.3.1 笔画模板方法 / 19
2.3.2 图匹配方法 / 20
2.3.3 笔段匹配方法 / 21
2.4 书写错误提取 / 22
2.4.1 评价对象 / 22
2.4.2 错误提取方法 / 25
2.4.3 评价反馈方式 / 29
2.5 本章小结 / 31
第三章 基于多层次信息的单字提取方法 32
3.1 递归分割方法 / 33
3.1.1 基于初始分割结果的数据分析 / 34
3.1.2 递归分割算法 / 36
3.2 面向错误分类的分割方法 / 38
3.2.1 错误分类归纳 / 39
3.2.2 面向欠分割的分割方法 / 41
3.2.3 面向过分割的分割方法 / 47
3.2.4 性能测试 / 51
3.3 基于单字提取结果的自适应可视化方法 / 52
3.3.1 可视化方法进展 / 52
3.3.2 基于重叠的自适应可视化方法 / 55
3.3.3 基于可信度的可视化方法 / 61
3.4 针对单字提取结果的交互式校正方法 / 65
3.4.1 基于可视化结果的交互式校正 / 66
3.4.2 基于用户意图的交互式校正 / 69
3.4.3 性能测试 / 71
3.5 本章小结 / 73
第四章 基于书写层次模型的手写汉字识别方法 / 74
4.1 基于笔画名称和整字结构的识别方法 / 75
4.2 部件结构的分类 / 77
4.3 基于 HMM 的笔画识别 / 78
4.3.1 HMM 分类器的训练 / 79
4.3.2 汉字中笔画的识别 / 81
4.3.3 基于笔画名称序列的筛选 / 84
4.4 实验结果 / 85
4.4.1 根据汉字笔画数分类 / 86
4.4.2 根据不同部件结构分类 / 88
4.4.3 根据笔画错误类型分类 / 89
4.5 基于 HCRF 的笔画识别的改进方法 / 91
4.5.1 HCRF 分类器的训练 / 92
4.5.2 HCRF 分类器的实验结果 / 92
4.6 本章小结 / 94
第五章 基于遗传算法的笔画匹配方法 / 95
5.1 遗传算法的基本设置 / 96
5.2 自适应编码方法 / 98
5.2.1 序列编码 / 98
5.2.2 最大值编码 / 99
5.2.3 子笔画编码 / 101
5.3 基于结构和书写特征的适应度函数 / 105
5.3.1 全局特征 / 105
5.3.2 局部特征 / 106
5.3.3 适应度函数的评价 / 108
5.4 实验结果 / 109
5.4.1 根据笔画数分类 / 109
5.4.2 根据部件结构分类 / 111
5.4.3 根据笔画错误类型分类 / 112
5.5 本章小结 / 113
第六章 针对笔画匹配结果的可视化及人机交互校正方法 / 115
6.1 多感知层次的可视化方法 / 116
6.1.1 基于颜色感知层次的表示 / 117
6.1.2 采用图形符号的笔向表示 / 120
6.1.3 采用数字序号的笔顺表示 / 121
6.2 标记表示方法 / 122
6.2.1 标记列表的定义 / 122
6.2.2 标记类型的表示 / 124
6.3 基于标记列表的校正方法 / 125
6.4 实验结果 / 132
6.4.1 可视化 / 132
6.4.2 交互校正 / 134
6.5 本章小结 / 135
第七章 基于标记列表的笔画错误提取方法 / 137
7.1 标记列表与笔画错误的对应关系 / 137
7.2 自适应错误提取 / 146
7.3 实验结果 / 154
7.4 本章小结 / 155
第八章 数据测试与结果分析 / 157
8.1 数据采集 / 157
8.2 数据测试 / 161
第九章 结 论 / 173
附录 1:摹写、听写纸张样图 / 177
附录 2:22名学生实验数据样图 / 179
参考文献?201
|
內容試閱:
|
前言
外国留学生的手写汉字因其母语及汉语水平的影响,会出现多种类型的书写错误,这是汉语国际教育中汉字教学的难点之一。采用数码纸笔采集的外国留学生手写汉字含有笔画及其采样点的时间和空间等信息,从而可以有效地分析其书写过程,有利于提取各种书写错误。笔画错误是提取部件和整字错误的数据基础,它需要汉字识别和笔画匹配等处理过程,这些内容已有较多研究,但外国留学生手写汉字具有多样和更复杂的笔画错误。本研究识别具有笔画错误的汉字,匹配书写笔画与模板笔画,并提取多种笔画错误,将语言学与应用语言学、汉字构形学与信息科学中的模式识别、计算机图形学、人工智能等多个领域相结合。在此基础上可以进行有针对性的书写质量评价、改进指导等方面的研究,具有良好的发展前景。
本书围绕外国留学生手写汉字笔画错误提取的智能处理方法的重点和难点问题开展了研究工作,主要包括:
(1)作为识别、错误分析等后续工作的前提和基础,在手写汉字的分割技术中,重点讨论了单字提取方法。结合外国留学生的手写汉字特点,书中提出了一种基于多层次信息的单字提取方法,其中包括了递归分割方法和面向错误分类的分割方法,并给出了相应的自适应可视化表示及交互校正方法。
(2)手写汉字笔画匹配以参考的模板汉字为基准,通过汉字识别结果进行检索。留学生手写汉字存在多种错误,在样本有限的情况下,需要充分发掘汉字本身的书写信息和结构特征。因此,书中提出了一种基于书写层次信息的汉字识别方法。从书写笔画出发,根据其识别结果和部件结构分类,实现汉字识别。方法首先用中心线将汉字部件结构分为左右、上下和其他三类。然后根据部件结构分类,从字库中初步筛选出候选字;再使用隐马尔可夫模型及隐条件随机场识别汉字中每个笔画,根据书写时序信息组成笔画名称序列;最后根据笔画名称序列,对候选字进行最终的筛选,给出识别结果。
(3)笔画匹配是书写错误提取和书写质量评价的基础。留学生手写汉字笔画错误不仅体现在整个笔画上,例如拆笔、连笔、多笔、少笔、笔顺和笔向错误,还体现在笔画局部上,例如残笔和余笔。书中提出了基于遗传算法的笔画匹配方法。方法以模板笔画个数为基因进行整数编码,根据书写笔画个数确定染色体长度;根据书写笔画的结构特征构造适应度函数,采用精英算法的选择策略执行进化过程;在适应度函数均值平稳时,停止进化得到最优解。
(4)人机交互校正可以获取正确的实验对比数据,是验证所提方法有效性的必要步骤。而笔画匹配结果的可视化是人机交互的前
提条件,有效的可视化方法可以减轻校正者的认知负担,提高工作效率。针对笔画匹配结果,提出了一种多感知层次的可视化方法。根据笔画匹配结果的特点及其包含的信息量,采用颜色、图形符号、数字序号等多感知层次相结合的方法进行可视化。同时,提出了一种针对笔画匹配结果的人机交互校正方法,使用标记列表的方法将数据进行处理,简化了校正过程。
(5)笔画错误的提取是汉字书写研究的重要步骤。留学生书写习惯和特点差异性大,使用规则的预设方法难以适用。因此,本书基于精确的笔画匹配结果提出了一种笔画错误的自适应提取方法。根据手写汉字笔画匹配后给出的标记列表,分层次地自适应提取书写笔画错误,包括全局错误以及局部错误。
为验证所提方法的有效性,本书采集了来自14个国家的外国留学生的手写汉字共计19000余份,涵盖500余种字形。对所提方法开发了原型系统,对汉字识别、笔画匹配、可视化与人机交互校正、笔画错误提取进行了实验,结果表明所提方法是有效的。根据学生的汉字学习过程,原型系统在真实教学场景中进行了跟踪实验,结果表明所提方法性能稳定。
|
|