新書推薦:
《
大模型应用开发:RAG入门与实战
》
售價:HK$
89.4
《
不挨饿快速瘦的减脂餐
》
售價:HK$
67.0
《
形而上学与存在论之间:费希特知识学研究(守望者)(德国古典哲学研究译丛)
》
售價:HK$
110.7
《
卫宫家今天的饭9 附画集特装版(含漫画1本+画集1本+卫宫士郎购物清单2张+特制相卡1张)
》
售價:HK$
132.2
《
化妆品学原理
》
售價:HK$
55.8
《
万千教育学前·与幼儿一起解决问题:捕捉幼儿园一日生活中的教育契机
》
售價:HK$
47.0
《
爱你,是我做过最好的事
》
售價:HK$
55.8
《
史铁生:听风八百遍,才知是人间(2)
》
售價:HK$
55.8
|
編輯推薦: |
1、以真实的媒体海量数据为数据基础;2、专门针对组织机构名称这一特殊名称进行研究;3、结合了语言学、社会语言学、计算语言学、语料库语言学的理论与方法的跨学科研究。4、*以媒体海量数据为基础的组织机构名研究专著,提出的相关概念、规则、方法对于自然语言处理、语言本体研究有一定的理论价值和应用价值,可以用于国家政府部门的组织机构命名、管理、规范化工作。
|
內容簡介: |
本书基于大规模动态流通语料库,抽取395万条左右的海量中文组织机构名称数据及其相关信息。以大数据为基础,从分词标注技术、语言资源开发与应用、语言规范化、语言本体等多个角度,针对组织机构名称这一特殊词语类别进行深入研究,从中心词角度提出中文组织名称形式化分类体系,提出中文组织名称“领域表征值”概念,并应用这一概念研究文本分类和通用词语,提出组织机构名称的两种结构模式、四类结构成分及其形式、性质、规则条件,以及组织机构名缩略的九个规则。确定了中文组织名称的三类上下文搭配形式、组织机构名称的分布特征,及中文组织机构名称识别方案。本书的主要内容包括组织机构名称识别、组织机构名称的界定与资源建设、组织机构名称规则、组织机构名称动态监测、组织机构名称的规范化等。
|
關於作者: |
陈慧,北京外国语大学中文学院副教授,汉语国际教育专业硕士研究生导师。华中科技大学汉语言文学学士,武汉大学社会语言学硕士,北京语言大学自然语言处理博士。在计算语言学、对外汉语教学、计算机应用、教育学、教育技术学等领域公开发表中英文论文近五十篇。多篇论文被SCI/EI/ISTP/CSSCI收录。为《国家语言生活状况绿皮书》(2005、2009、2013年)作者之一。参与并结项国家社科项目“语言接触对聋人手语发展演变的影响研究”、国家自科项目“中文文本自动分类关键技术研究”、国家语委重大项目“国家语言资源监测”。独立承担并结项国家语委重大项目子项目“基于语料库的组织机构名研究”、汉办多语种基地项目“汉语课堂教学实例库建设”及五项北外中文学院院级项目。当前独立承担并在研校级项目为“汉语中介语语料库技术及教学应用”。
|
目錄:
|
1多维度看组织机构名称(1)
1.1组织机构名称与汉语本体研究(1)
1.2组织机构名称与语料库语言学(3)
1.3组织机构名称与语言资源建设(5)
1.4组织机构名称与语言生态观测(8)
1.5组织机构名称与语言治理(13)
本章小结(15)
2组织机构名称的识别(16)
2.1组织机构名称在自然语言处理中的特殊性(16)
2.2组织机构名称识别的现状(17)
2.3组织机构名称识别的传统技术(19)
2.4组织机构名称识别技术的发展(25)
2.5组织机构名称识别的困境(27)
2.6组织机构名称数据研究工作的价值(31)
本章小结(33)
3组织机构名称的界定与资源建设(34)
3.1组织机构名称的社会学界定(34)
3.2组织机构名称的工程定义(35)
3.3组织机构名称、非组织机构名称的区分(38)
3.4组织机构名称的资源库建设现状(40)
3.5组织机构名称的资源库建设的总体构想(41)
3.6组织机构名称研究数据库规模与结构(48)
3.7组织机构名称辅助校对系统(55)
本章小结(59)
4组织机构名称的分布特征(60)
4.1高频词中的组织机构名称(60)
4.2组织机构名称的领域分布(64)
4.3组织机构名称的历时分布(72)
4.4组织机构名称的媒体分布(75)
4.5组织机构名称的字长分布(77)
本章小结(81)
5组织机构名称的结构规则(82)
5.1组织机构名称结构规则研究的背景(82)
5.2组织机构全称的结构模式(84)
5.3组织机构名称的结构成分(90)
本章小结(98)
6组织机构名称的缩略规则(99)
6.1组织机构名称缩略的理论原则(99)
6.2组织机构名称简称的三种结构及其应用(104)
6.3分词系统中的组织机构名称简称标注问题(105)
本章小结(107)
7组织机构名称的用字用词(108)
7.1组织机构名称的用字研究(109)
7.2组织机构名称识别结果用词概貌(114)
7.3组织机构名称识别结果中的词性(116)
7.4组织机构名称识别结果中的字符串(121)
7.5组织机构名称的禁用词(124)
本章小结(127)
8组织机构名称的中心词(129)
8.1组织机构名称中心词的获取(129)
8.2组织机构名称中的伪中心词(132)
8.3组织机构名称中的小概率中心词(134)
8.4组织机构名称中的单义中心词(136)
8.5组织机构名称中的兼类中心词(139)
8.6组织机构名称简称的中心词(144)
8.7基于中心词的组织机构名称形式化分类(147)
本章小结(159)
9基于大规模文本的组织机构跟踪实验(161)
9.1国家语言资源生态研究的意义(161)
9.2国家语言生态观测工作综述(161)
9.3组织机构名称动态观测的意义(163)
9.4组织机构名称动态观测的方法探索(164)
9.5一个实验(167)
本章小结(171)
10组织机构名称的规范化(172)
10.1组织机构名称规范化研究的内容(172)
10.2组织机构名称规范化研究的原则(172)
10.3组织机构名称规范化研究的意义(174)
10.4组织机构名称命名的规范化(176)
10.5组织机构名称使用的规范化研究(182)
本章小结(185)
参考文献(186)
附录A图表索引(194)
附录B相关数据样例(197)
后记(215)
|
內容試閱:
|
前言组织机构名称在语言学、社会学、管理学等学科领域均具备很高的研究价值。本书旨在从语言本体和语言信息处理角度,结合社会学、社会语言学、信息管理、工商管理的理论与实践,初步尝试进行多维度探索。本书的研究内容*早起源于我们在从事中文语料库研究工作中接触到的分词标注错误的现象。目前分词识别的差错一般在5%以内,比例并不大。稀疏数据会因频率低而形成一个长尾(long tail)现象,但这些长尾并不会影响大局。众所周知,在语言信息处理领域,100%的精度是无法实现的,也无须实现。尤其是在信息处理的量级越来越大,从基础研究到社会应用的时间越来越短的时代,我们通常并不会在意那5%的差错部分。一般而言,在语料库工作中,我们会忠实而坚定地按照分词标注结果直到*后。在必要的时候,对个别频率高的错误识别结果进行人工干预即可。这是*有效率的做法,也是不得已的做法。然而,在大规模真实文本中,尤其是在将语料库技术应用于各种场景时,这种差错有可能会被无限放大。幸运的是,现代语言信息处理技术在不断发展,其中目标之一就是将错误识别结果不断缩小,不断提高识别精度。我们从语料库语言学出发,深入探索语言信息处理技术细节。*初的研究目的是探讨哪些识别的标注错误是能够得以规避的。我们发现:如果语料的除噪处理更全面;如果制定识别策略时有语言学家参与;如果分词的基础词表代表性再强一些;如果分词标记集内部没有词性标记范围的交叉,比如说,同时设置简称(j)、组织机构名称(org)和组织机构名简称(aorg),内部有交集,客观上形成人为障碍;如果能吸收一些语言学常识……;则很多标注错误是可以规避的。然而,实际上该目标一直没有达到,从而影响分词标注的质量,累加在一起就一直保留着这5%的差错率。作为一个追求完美或者说喜欢较真的人,我对这5%的差错率总是耿耿于怀,总想为降低错误识别做些什么。作为一个汉语言文学专业出身,具备社会语言学专业背景,然后又跨行进入人工智能领域的研究者,我开始尝试着做一些我可以做、虽然不起眼但又有必要做的工作,从而加深业界对这一问题的认识和了解。我在北京语言大学应用语言学研究所张普教授门下攻读博士学位。在张普教授和所长杨尔弘教授的带领下,我曾经在国家语言资源动态流通语料库(dynamic circulating corpus,DCC)博士研究室做了三年语料库工作。我基于DCC动态流通语料库对分词标注后的词语进一步分类考察:动词、量词、数词、形容词……在识别的错误结果中,组织机构名称总是频繁地跳到我的眼前。作为语言信息处理业界公认的核心难题之一,组织机构名称的识别效果在整个命名实体识别以及分词标注中一直以来是*低的。于是我又专门为组织机构名称建立了另外一个数据库,其中包含395万词条,带有时间、上下文语境、领域、报纸信息。虽然知道组织机构名称识别*难,但是真正去查看机器自动识别的错误结果时,这些被标记为组织机构名称的字符串看起来还是突兀得让人忍俊不禁:“电子信息产业类上市公司”、“连胜三局”、“老父将子告上法庭”……这些我们难以置信的组织机构名称识别结果很像喜剧演员的幽默表演,让我忍不住想到了张爱玲的一句话:“生命是一袭华美的袍,上面爬满了虱子。”这样的识别结果是怎么产生的呢?是否可以规避呢?出于好奇,我对30年间的国内外组织机构名称识别、命名实体识别、分词标注相关工作进行了全面梳理,包括从1991年篇公司名识别的文献(Rau,1991),到2021年的最新一篇文献(陈娟等,2021),目的是了解文献中的识别策略是否有漏洞。从规则时代、统计时代,再到今天的机器学习、深度学习时代(Vaswani et al.,2017),组织机构名称识别工作紧随着信息技术主流,其识别的召回率和精确率也确实在逐步提升。在分词标注模块里,组织机构名称的识别是公认的最大难点。虽然技术不断进步,调和平均值(F1值)得以从2004年的60.81%提高到2020年的95.43%(杨飘、董文永,2020)(包括组织机构名称和其他命名实体),说明识别率得到持续提高,其*强大的引擎来自技术进步。然而,技术并不是的。自然语言处理既然处理的是人类的自然语言,那么就应该更多融合人对自然语言的理解,而不是仅限于计算机系统捕捉、学习到的相对有限的语言现象。“尺有所短”,自然语言灵活多变,再强大的技术也难以精准处理自然语言,尤其是计算机没有遇到过的表达方式。可以说,即使在人工智能的时代,“人”也要永远在“工”的前面。在全面了解组织机构名称识别的状况后,我意识到相关资源建设和语言学研究必不可少。于是我又从语言信息处理跳回到语言学的领地,从识别对的和错的组织机构名称里进行了“披沙拣金”的琐碎工作。首先,从社会学、信息处理工程两个角度去界定组织机构名称的内涵和外延,厘清组织机构名称与非组织机构名称的界限。其次,对组织机构名称的用字、用词、规则、成分进行分类、统计、描写,以确立一系列准则,比如:哪些字词可以出现在组织机构名称里;哪些不可以出现在组织机构名称里;可以出现的字词需要满足什么条件才能保证一个组织机构名称是合乎语言规则的。如果只是针对全称状态的组织机构名称,识别难度会低很多。然而,真实文本中,简称层出不穷,所以我的一部分工作则是针对简称,通过分析和定义缩略规则,在理论和实践上做了一些初步探讨。值得注意的是,由于在工作中发现上下文结构规则并不具有普遍意义,主观意愿更多一些,我们也摈弃了一些文献中进行上下文结构规则的尝试。这项工作确实琐碎而辛苦,常常让我产生自我怀疑。幸运的是,在自我怀疑之中,我终究完成了这项工作。完成得有多完美不敢说,但如果这项工作对语言信息处理业界能够带来一点参考价值,我就十分欣慰了。由于我们建立的是一个带有分布属性的组织机构名称数据库,基于我这几年编写《中国语言生活状况报告(2005)》绿皮书的一点工作经验,我自然而然会把这两个工作结合起来思考。于是我从频率、领域、年度、报纸和字长的角度对国家语言生活中的组织机构名称进行了统计和计算,提出了一个基于媒体语料的组织机构观测研究的方案。另外,在大量接触媒体中的组织机构名称,并在对其字、词、成分、词性等进行细碎研究的时候,我感受到了在组织机构名称规范化研究方面还有一些空白。于是我试着对组织机构名称的规范化工作开展了相关的探索。正如北京大学詹卫东教授所言:“一个研究课题总是针对一个或几个特定问题的。一方面,探索真理的路永远都没有尽头;另一方面,在一个具体的研究课题范围内,对现有问题的解决通常总是有一定限度的。因此,在一个研究课题暂时告一段落,人们要思量下一步该如何去做的时候,也无非是在这两个方面做更多的努力:一面结合更多的时间,对现有的框架进行检验并向纵深挖掘;一面在现有的研究成果基础上,探索如何开辟更广阔的研究空间。”(詹卫东,2000)本书的研究也不例外。组织机构名称研究是一个值得深入和拓展的课题,而本书阐述的相关系列研究只是一些尚未完全成熟的工作。下一步,我们将在如下诸方面开展下一步的研究工作。(1) 进一步完善资源库建设,继续研究名词、动词、形容词中的“禁用词”,结合组织机构名称结构和语义词典,研究名词、动词、形容词在组织机构名称结构中的条件限制和搭配规则,完善禁用词表。本书的禁用成分研究目前主要限于禁用词性和禁用字符串。在三大实词方面,目前是通过对校对结果的分析来获得禁用词,所以是单纯的经验主义方法。在面对大规模的词表时,需要消耗大量的人力物力。下一步引入语义词典,结合组织机构名称结构规则,将理性主义和经验主义相结合,使禁用词研究具有类推机制。(2) 运用语义词典等外部资源对禁用词、内部结构模式进行深入研究。进一步深入分析组织机构名称的内部结构规则,构建形式化的组织机构名称内部结构规则库。本书的内部结构规则研究主要是在一个大的结构模式下,对每一个结构成分进行分析,而未对这个大的结构模式进行分解细化。下一步将按组织机构名称的形式化分类体系,按照不同的中心词,对组织机构名称结构进行再分类,并将规则形式化,供中文信息处理使用。(3) 在组织机构名称动态监测方面进行深入研究。本书提出了在真实新闻文本中对组织机构名称进行动态监测的思路,但为什么监测、要监测什么、如何监测这些问题都难以从一开始就形成系统的框架,所以这也要留待下一步继续思考。(4) 原计划基于语料库对组织机构名称的规范化进行全面考察,因时间关系,本书对组织机构名称规范化问题的研究比较薄弱,只能留待下一步再继续考察。(5) 由于客观条件的限制,我们的数据源是2005年前后的五份主流报纸媒体。尽管这不影响统计、计算和实验结果,但未体现网络媒体、有声媒体以及新媒体上的分布状况。如果能在规范化、分布、动态观测上涵盖全媒体,结果会更有意义。本书忠实记录了我们前一阶段的初步探索和阶段性成果,尽管还显粗陋,但其基本理论、方法、结果还是有意义和价值的。所以我们愿意将它拿出来供各方批评。在大数据时代的今天,跨学科交叉研究、大数据支撑的研究越来越成为正常的研究范式。关于组织机构名称的研究,还有很多的空间和视角。现在我们已经做了理论和方法上的准备,利用多源大数据继续进行跨学科研究。未来可期!书中多有错漏,还请方家雅正。著者2021年4月
|
|