新書推薦:
《
一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要
》
售價:HK$
45.8
《
泉舆日志 幻想世界宝石生物图鉴
》
售價:HK$
137.8
《
养育女孩 : 官方升级版
》
售價:HK$
51.8
《
跨界:蒂利希思想研究
》
售價:HK$
109.8
《
千万别喝南瓜汤(遵守规则绘本)
》
售價:HK$
45.9
《
大模型启示录
》
售價:HK$
115.0
《
东法西渐:19世纪前西方对中国法的记述与评价
》
售價:HK$
207.0
《
养育男孩:官方升级版
》
售價:HK$
51.8
|
編輯推薦: |
★事理图谱是知识图谱的进阶,承载事理逻辑知识的精髓
★以事理知识为核心,涵盖事件之间的逻辑关系
★从事理图谱的构建、推理,到表示、应用,内容层层递进
★哈工大教授团队多年深耕事理图谱之研究成果
★支撑事件推演、根因分析等高阶认知智能研究
★构建动态知识库,挖掘人工智能新潜能
★从案例到技术,探索事理图谱的无限可能
★深度学习与智能推理,开启认知智能新篇章
★可作为知识图谱相关课程教材,也可作为事理图谱入门读物
|
內容簡介: |
知识图谱已在多个领域深耕多年,然而,现有的典型知识图谱主要以实体及其属性和关系为研究核心,缺乏对事理逻辑这一重要人类知识的刻画。为了弥补这一不足,事理图谱应运而生,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类的行为活动。事理图谱是较为典型的多学科交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。
本书系统地介绍了事理图谱涉及的概念和关键技术,如事理图谱概述、事理知识表示、事件抽取、事件模式的自动归纳、事件关系抽取、事件表示学习、事件泛化及事理归纳、事理知识存储和检索、基于事理图谱的认知推理与预测、基于事理图谱的问答与对话等。此外,本书还尝试将前沿的学术理论和实战结合,让读者在掌握实际应用能力的同时对前沿技术发展有所了解。
本书主要面向高年级本科生和研究生,可以作为知识图谱相关课程的教材,也可以作为对事理图谱感兴趣的读者的入门读物。
|
關於作者: |
丁效,哈尔滨工业大学教授、博士生导师、社会计算与信息检索研究中心副主任。主要研究方向为人工智能、自然语言处理、事理图谱、因果推理。在TKDE、ACL、AAAI、IJCAI等人工智能领域的顶级国际期刊和会议上发表相关论文80余篇,承担国家部委项目、科技部科技创新2030—“新一代人工智能”重大项目课题、国家自然科学基金重点项目课题、面上项目、黑龙江省优青项目等多项省部级以上项目。获国家级教学成果二等奖,黑龙江省科学技术一等奖,黑龙江省科学技术二等奖,ACL 2024杰出论文奖,SemEval 2020国际语义评测“检测反事实陈述”任务第一名,入选2022年AI 2000全球人工智能最具影响力学者、华为云AI名师奖等,担任中国中文信息学会社会媒体处理专委会秘书长、黑龙江省中文信息处理重点实验室副主任等职务。
刘挺,哈尔滨工业大学教授、博士生导师、副校长,国家高层次人才。工业和信息化部高新技术司“智能机器人”专家组专家、电子信息科学技术委员会信息服务组副组长,教*部人工智能科技创新专家组成员,国家人工智能产教融合创新平台负责人,认知智能与内容安全教*部重点实验室主任,中文信息处理黑龙江省重点实验室主任,中国计算机学会会士,中国中文信息学会副理事长,黑龙江省“人工智能”头雁团队带头人。曾主持国家重点研发计划项目、国家973课题、基金重点项目。获国家科技进步二等奖(排名第4)、黑龙江省科技进步一等奖(排名第1)。
秦兵,哈尔滨工业大学教授、博士生导师、社会计算与信息检索研究中心主任。国家重点研发课题、国家自然科学基金重点项目负责人。科技部科技创新2030—“新一代人工智能”重大项目管理专家组专家,中国中文信息学会常务理事、语言与知识计算专委会副主任、情感计算专委会主任,黑龙江省计算机学会自然语言处理专委会主任。主持多项国家及省部级项目,获中文信息学会钱伟长中文信息处理科学技术奖一等奖、黑龙江省科学技术一等奖、黑龙江省科学技术二等奖。入选“2020年度人工智能全球女性及AI 2000最具影响力学者榜单”和“福布斯中国2020科技女性榜”,连续四年(2020-2023)入选爱思唯尔高被引学者榜单。
|
目錄:
|
第1章 事理图谱概述 1
1.1 事理图谱的基本概念 1
1.1.1 事理图谱的定义 1
1.1.2 事理图谱中事件的定义和表示 2
1.1.3 事理图谱中的事件关系类型 2
1.1.4 事理图谱中的事件属性 4
1.1.5 事理图谱的形成过程 4
1.2 事理图谱与知识图谱的区别与联系 5
1.3 事理图谱的研究意义 7
1.4 国内外典型的事件相关知识库构建项目 8
1.5 事理图谱的相关技术 15
1.5.1 事理图谱的构建 15
1.5.2 事理图谱的表示学习 16
1.6 事理图谱的质量评估 16
1.6.1 人工评估 16
1.6.2 自动评估 17
1.7 事理图谱的应用价值 17
1.8 本章小结 19
参考文献 19
第2章 事理知识表示 21
2.1 知识表示 21
2.2 经典知识表示方法 23
2.2.1 一阶谓词逻辑 23
2.2.2 产生式规则 23
2.2.3 框架表示法 23
2.2.4 脚本 24
2.3 语义网中的知识表示方法 25
2.3.1 XML 26
2.3.2 RDF 28
2.3.3 RDFS 28
2.3.4 OWL 29
2.4 知识图谱的知识表示方法 31
2.4.1 知识图谱的图表示 31
2.4.2 知识图谱的分布式表示 32
2.5 事理图谱的知识表示方法 36
2.5.1 事理图谱的图表示 36
2.5.2 事理图谱的分布式表示 41
2.5.3 事理图谱中的事理知识表示方法 43
2.6 本章小结 45
参考文献 46
第3章 事件抽取 48
3.1 任务概述 48
3.1.1 任务定义 48
3.1.2 公开评测和相关语料资源 50
3.1.3 评价方法 52
3.2 限定域事件抽取 53
3.2.1 基于模式匹配的方法 53
3.2.2 基于统计机器学习的方法 57
3.2.3 基于深度学习的方法 61
3.3 开放域事件抽取 66
3.4 文档级事件抽取 69
3.5 自底向上的事件抽取系统介绍 72
3.6 本章小结 75
参考文献 75
第4章 事件模式自动归纳 79
4.1 任务概述 79
4.1.1 模板型事件模式自动归纳任务概述 80
4.1.2 叙述型事件模式自动归纳任务概述 84
4.2 事件模式自动归纳方法 87
4.2.1 模板型事件模式自动归纳方法 87
4.2.2 叙述型事件模式自动归纳方法 89
4.3 相关任务 93
4.4 本章小结 96
参考文献 96
第5章 事件关系抽取 100
5.1 事件因果关系抽取 100
5.1.1 任务语料与知识库 101
5.1.2 显式因果关系抽取 103
5.1.3 隐式因果关系抽取 106
5.2 事件时序关系抽取 107
5.2.1 任务概述 107
5.2.2 数据集简介 108
5.2.3 事件时序关系抽取方法 109
5.3 子事件关系抽取 113
5.3.1 任务概述 113
5.3.2 数据集简介 114
5.3.3 子事件关系抽取方法 114
5.4 事件共指关系抽取 117
5.4.1 任务概述 117
5.4.2 数据集简介 118
5.4.3 事件共指关系抽取方法 119
5.5 本章小结 121
参考文献 121
第6章 事件表示学习 127
6.1 任务概述 127
6.1.1 任务难点 128
6.1.2 任务评价 129
6.2 事件的离散表示 130
6.3 结构化事件的连续向量表示 132
6.3.1 事件元素的表示方法 133
6.3.2 组合事件元素获取事件表示的方法 136
6.3.3 事件连续表示的学习方法 140
6.4 基于预训练语言模型的非结构化事件向量表示方法 145
6.4.1 事件时间常识知识增强的预训练语言模型 146
6.4.2 动词语用知识增强的预训练语言模型 148
6.4.3 事件演化知识增强的预训练语言模型 149
6.5 本章小结 151
参考文献 151
第7章 事件泛化及事理归纳 154
7.1 任务概述 154
7.2 主要方法 155
7.2.1 基于统计的事件泛化方法 155
7.2.2 基于规则的事件泛化方法 162
7.2.3 基于神经网络的事件泛化方法 170
7.2.4 自然逻辑与神经网络相结合的事件泛化方法 173
7.3 本章小结 175
参考文献 175
第8章 事理知识存储和检索 177
8.1 事理图谱的存储 177
8.1.1 基于表结构的存储 177
8.1.2 基于图结构的存储 180
8.2 事理图谱的检索 182
8.2.1 常见的形式化检索语言 182
8.2.2 图检索技术 182
8.2.3 图数据库与关系数据库的特点 183
8.2.4 Cypher查询语言 185
8.3 Cypher语句实践 185
8.3.1 Neo4j的安装与使用 186
8.3.2 节点的创建与检索 188
8.3.3 节点的删除与更新 190
8.3.4 数据导入与图谱导出 192
8.3.5 Neo4j的高级功能 194
8.4 其他图数据库 194
8.5 本章小结 195
参考文献 196
第9章 基于事理图谱的认知推理 197
9.1 认知系统 198
9.2 基于知识图谱的认知推理 199
9.3 基于事理图谱的认知推理 201
9.3.1 基于事理图谱的If-Then类型事件推理 202
9.3.2 基于事理图谱的脚本类事件预测 204
9.3.3 基于事理图谱的因果事件推理 208
9.4 基于事理图谱的文本预测 215
9.5 本章小结 216
参考文献 217
第10章 基于事理图谱的应用 219
10.1 概述 220
10.2 基于事理知识的问答 221
10.2.1 任务概述 221
10.2.2 基于事理知识的问答方法 222
10.3 基于事理知识的对话 224
10.3.1 任务概述 224
10.3.2 基于事理知识的对话方法 227
10.4 基于事理知识的消费意图挖掘 235
10.4.1 任务概述 235
10.4.2 基于事理知识的消费意图挖掘方法 236
10.5 基于事理知识的股票市场预测 239
10.5.1 任务概述 239
10.5.2 基于事理知识的股票市场预测方法 240
10.6 大语言模型背景下的事理图谱应用 245
10.6.1 事理图谱如何增强大语言模型应用长尾事理知识进行推理 247
10.6.2 事理图谱如何增强开源大语言模型事理推理能力 248
10.7 本章小结 249
参考文献 250
|
內容試閱:
|
推荐序1
自然语言(即人类语言)是人区别于动物的根本标志,具有无穷语义组合性、高度歧义性和持续进化性,其语义全面而准确的理解是机器难以逾越的鸿沟,成为制约人工智能取得更大突破的主要瓶颈之一。
自然语言处理经历了两大研究范式的流变:早期是理性主义的小规模专家规则方法,20世纪90年代切换到经验主义的大数据统计方法。2010年,后者又开启了以深度学习为框架的一次大跃迁,可端到端地学习各种任务而无须特征工程。近些年来,以BERT、GPT为代表的、基于超大规模生语料库的预训练语言模型异军突起,尤其是2022年年底ChatGPT横空出世,使几乎所有自然语言处理任务的性能都得到了显著提升,在若干公开数据集上达到或超过了人类水平。其突出特点是诉诸“蛮力”,大语言模型、大数据和大计算三位一体,无所不用其极以求更高性能(如GPT-3有1750亿庞大参数)。不少学者对这种大工程式的研究路线倍感困惑,也有学者注意到了其后可能隐藏着深刻的科学问题,如2019年哈佛大学与OpenAI联合发表论文指出,在模型复杂度与性能的关系上,深度学习存在“深度双下降”现象,超越了机器学习领域“过大模型会产生过拟合”的思维定式。
上述研究路线尽管威力强大,但并不能根本性地克服目前这一代深度学习方法可解释性不足、抗攻击能力不足、推理能力不足等固有缺陷。分析众多任务场景便能体察到这一点,如AAAI 2020最佳论文发现,预训练语言模型在指代消解这一通常需要利用较多常识才能解决的任务上,准确率虽已接近 90%,但当施以并不影响人的判断的扰动后,会下降10%~30%。究其原因:预训练语言模型在深层次语义理解上与人类认知水平其实还相去较远。当前的大语言模型存在严重的幻觉问题,一个重要原因是对世界知识的匮乏。我们认为,大语言模型时代知识、特别是大规模结构化知识仍然能够发挥重要作用。诚如图灵奖获得者、深度学习领军人物LeCun、Bengio和Hinton在2015年《自然》上的文章所言,“融合表示学习与复杂知识推理是人工智能进步的阶梯。”2019年,Bengio也强调:“机器智能必须有目的地获取并利用知识”,揭示了知识在人工智能发展中的不可或缺性。
富知识在未来自然语言处理研究中的位置举足轻重。知识图谱是最常用的表示和存储世界知识的方式,但是现有的知识图谱主要关注实体和概念的静态的属性关系,而对动态的动作、行为、状态关系很少描写,存在知识构成上的体系性缺失问题,如IBM研究者曾指出,Watson中的问答问题只有不到2%可从DBpedia、Freebase等知识库中直接匹配得到。在此背景下,哈尔滨工业大学本书作者团队提出了事理图谱的概念,有效弥补了知识图谱在事件相关动态知识方面的体系性缺失。事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式。结构上,事理图谱是一个有向有环图,节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等逻辑关系。事理图谱在体系架构及科学问题上均与传统的知识图谱有较大差异,一经提出即令学术界和产业界为之眼前一亮,其研发迅速引起了较为广泛的关注。
经过五六年的技术发展和沉淀,哈工大团队完成了本书的撰写工作。本书是第一本系统性地介绍事理图谱的概念、事理图谱的构建、存储、组织、管理和应用的学术专著,既可以作为有志于从事知识图谱和事理图谱相关研究工作的研究生教材,又可以作为相关业内人士的进阶读物。有理由相信,在大语言模型时代,本书仍然会让读者开卷有益,掩卷覃思。
孙茂松
清华大学长聘教授,清华大学人工智能研究院常务副院长
推荐序2
经过几年的勤奋耕耘和潜心打磨,由丁效、刘挺、秦兵三位专家合著的《事理图谱:概念与技术》一书终于和大家见面了。
在人工智能领域几乎成为大语言模型一统天下的时刻,读到这本面向事理图谱的学术专著,倍感欣慰和钦佩。欣慰的是,作者对事理图谱价值的持续挖掘有了一个阶段性的总结,使我们得以通过系统化的论述和接地气的实例了解到事理图谱的广阔应用场景。钦佩的是,当下出现了一些针对知识图谱特别是事理图谱的不公正声音,作者顶着这些压力,执着坚持事理图谱方向的学术研究和应用探索,向我们完美诠释了什么叫学术定力。
在人工智能的发展史上,知识图谱是符号学派坚持下来并能发扬光大的为数不多的研究方向之一,而事理图谱则是在引入了事件和事件相互作用之后知识图谱的新形态,是可以动起来的知识图谱。事件具有时空延展性、实体关联性、可执行性和动态演化性,比一般知识图谱有更强的应用背景,也面临着更严峻的技术挑战。在自然界和人类社会中,事件驱动的演化机制每日每时都在发挥着作用。无论情报分析领域、认知作战领域、金融领域、医疗领域还是实体经济领域,都大量用到事件的表示、抽取、查询、跟踪、演化和推理。大语言模型问世以来,少部分事件推理能够在大语言模型上做到,但更专业的事件处理工作仍然要靠事理图谱完成。建设好、使用好事理图谱,仍然是人工智能应用中非常重要的一项工作。在理论上,关于事件实例的工作数不胜数,但关于事件本体的研究则只是凤毛麟角。继续从理论上探讨事件驱动计算机制的本质,从可编程本体的角度深入认识事理图谱,我们还任重道远。在这样的大背景下,这本书的面世,是广大人工智能学习者、研究者、应用者的福音。
通过这本书,读者可以从理论高度认识和把握事理图谱,可以了解围绕事理图谱的一系列基本任务及其实现的途径,也可以知晓事理图谱在一些典型的应用场景中是怎样被使用的。衷心希望受到这本书启发的读者会把事理图谱的学术研究推向一个新的境界和高度,同时能在更广的应用场景中彰显事理图谱的价值。
大语言模型并不能取代事理图谱。反过来,能与大语言模型更好地对接的事理图谱,可以在合适的应用场景中产生倍增的智能效果。大语言模型可以为事理图谱提供更加人性化的访问入口,可以助力事件抽取和本体构建;事理图谱也可以为大语言模型提供可靠的事件知识库和外挂思维链插件。我相信,随着人工智能的持续发展,大语言模型和事理图谱之间相互支撑的生态会在更多的应用场景中落地,并取得彼此单独工作难以取代的合力效果。
白硕
恒生电子股份有限公司首席科学家,研究院院长
前 言
人类迈入人工智能时代,技术的发展使得机器可以从大数据中提取信息,将其串联成知识,学习模仿人类的智慧,从而可以应用到各行各业,辅助人类处理知识业务型工作。知识图谱作为认知智能的核心技术已在金融、电商、医疗等各个领域深耕细作多年,逐渐显现出巨大的应用价值。随着深度学习的兴起,人工智能迎来了新的发展高潮。人工智能的一个发展瓶颈在于,如何让机器掌握人类知识。例如,人类都知道兔子有四条腿而鸡有两条腿,但是机器却很难获取到这样的常识知识,因此机器自动解答“鸡兔同笼”等类型的数学问题仍然十分困难。人类能够轻易理解“吃过饭”后就“不饿”这样的事理常识知识,而让机器理解并掌握大量这样的知识是一件极其困难的事情,但这是通往强人工智能的必由之路。在众多类型的人类知识中,事理逻辑是一种非常重要且普遍存在的知识。
人工智能的很多应用都依赖于对事理逻辑知识的深刻理解。在通用领域,以隐式消费意图识别为例,只有让机器知道“结婚”事件伴随着后续一系列消费事件,例如“买房子”、“买汽车”和“去旅行”,才能使其在观察到“结婚”事件的时候,准确地识别出用户潜在的隐式消费意图,进而向目标用户做出精准的产品推荐。而在特定领域,如金融领域,股市一般伴随着短期内随机事件产生的小波动,以及长期内重大事件驱动的大波动。例如,近来随着人工智能迎来发展高潮,以及我国将人工智能列为国家发展战略,人工智能企业的股价迎来了一波大涨。事件驱动的股市预测悄然兴起。从金融文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通货膨胀”,进而导致“股市下跌”这样的远距离事件依赖,对于事件驱动的股市涨跌预测非常有价值。事理逻辑知识的挖掘与知识库构建迫在眉睫,这将极大地推动多项人工智能应用的发展。
事件是人类社会的核心特征之一,人们的社会活动往往是由事件驱动的。事件之间在时间维度上相继发生的演化规律和模式是一种十分有价值的知识,挖掘这种事理逻辑知识对认识人类行为和社会发展变化规律非常有意义。然而,当前无论是知识图谱还是语义网络等知识库,其核心研究对象——主体都不是事件。尽管传统知识图谱在现代搜索引擎(例如Google、Bing、Baidu等商业搜索引擎)中得到了广泛应用,但是其聚焦于实体和实体之间的关系,缺乏对事理逻辑知识的挖掘。事理逻辑知识,包括事件之间的顺承、因果、条件和上下位等关系,对于人工智能领域的多种任务都具有非常巨大的价值。为了揭示事件的演化规律和发展模式,本书提出了事理图谱的概念,旨在将文本中对事件及其关系的描述抽取并抽象出来,构建一个有向图形式的事理知识库。
2016年7月,哈尔滨工业大学(以下简称“哈工大”)社会计算与信息检索研究中心(HIT-SCIR)开始启动事理图谱的研究工作。2017年10月,研究中心在中国计算机大会上正式提出事理图谱的概念;2018年9月推出中文金融领域事理图谱1.0版本;2019年7月在哈工大举办首届事理图谱研讨会并发布中文金融领域事理图谱2.0版本。2021年12月,在中国计算机大会上举办了第二届事理图谱研讨会,并发布了通用域事理图谱1.0版本(事理永动机,可以实时获取数据并自动更新事理图谱中的知识)。2022年3月,“事理图谱”作为专业术语由中国计算机学会发布。经过近8年的发展,事理图谱的概念逐渐被学术界和产业界所接受并认可,事理图谱的第一篇论文Deep Learning for Stock Prediction已被引用900余次,并且被多位国内外知名学者引用。基于事理知识迁移进行认知推理的论文Story Ending Prediction by Transferable BERT被OpenAI实验室GPT-3论文Language Models are Few-Shot Learners引用并对比,在故事结尾预测认知推理任务上的准确率比我们提出的模型低4.1%!
在GPT-3.5时代以前,可以说以知识图谱和事理图谱为代表的知识库在自然语言处理任务中发挥了重要作用,尤其在推理任务上可以提供可解释性的推理证据,在问答或人机对话任务上可以提供丰富的背景知识和对话逻辑。然而,随着以ChatGPT为代表的大语言模型横空出世,在自然语言处理任务中是否还有必要使用知识图谱成了热门话题。从最开始的知识无用论到现在,越来越多的学者聚焦于如何利用知识改变大语言模型的幻觉问题,以及知识增强的常识知识问题、可解释性推理问题等。
因此,本书系统性地梳理了事理图谱的相关研究内容:事理图谱概述、事理知识表示、事件抽取、事件模式自动归纳、事件关系抽取、事件表示学习、事件泛化及事理归纳、事理知识存储和检索、基于事理图谱的认知推理、基于事理图谱的应用。事理区别于事件最大的特点在于,事理是对事件的归纳和泛化,具体的事件每天都在发生,而能够积累成知识的是事件的演化规律和模式,这被我们称为“事理”。通过本书的介绍,读者能够对事理图谱有一个系统全面的了解。同时,本书也在最后两章试图去回答大语言模型时代事理图谱还有什么用,以及如何使用事理图谱。当然,这项工作还在不断的探索之中,后续的研究成果会不断地更新并补充进来。
本书主要面向高年级本科生和研究生,可以作为知识图谱相关课程的教材,也可以作为对事理图谱感兴趣的读者的入门读物。在撰写本书的过程中,作者尽量平衡学生的知识储备水平与内容完备性之间的关系。在内容选择上,尽量系统性地介绍事理图谱的相关概念。有志于从事事理图谱研究的读者,可以进一步拓展阅读事理图谱相关领域的论文。由于事理图谱涉及很多机器学习、自然语言处理的相关知识,因此建议读者在阅读本书前系统地学习机器学习、深度学习、自然语言处理的相关课程。
本书的写作过程得到了众多专家和同学的大力支持与帮助。特别感谢李忠阳博士、石继豪博士、吴婷婷博士、杜理博士、蔡碧波博士、熊凯博士、高靖龙博士等为本书的撰写提供帮助。尽管从本书的提纲结构讨论开始,我们就保持着最严肃认真的态度,但越是临近本书付梓之际,我们越是惶恐不安。事理图谱是一个新兴研究方向,很多内容还需要进一步探索挖掘,研究内容纷繁复杂,受限于认知水平和所从事的研究工作的局限性,我们对其中一些任务和工作的细节理解可能存在偏差,也恳请专家、读者批评指正,你们的意见对我们非常重要。
最后,衷心地感谢一直在支持、关注并投入事理图谱相关研究工作的同人,是大家的持续攻关才使得事理图谱能够成为一个研究方向,本书才能够成体系地梳理相关研究内容及研究成果。感谢我的家人给予我他们所能做到的一切,对我的工作提供支持与帮助;是他们承担了几乎全部的家务,才使我能够专注于科研及书稿撰写工作,感谢我的两个孩子丁彦兮、丁泽熙,他们总能够在我疲惫时给予我纯真的微笑,使我重新充满力量,继续带领学生去探索更多的未知领域,感谢家人的默默付出!
丁效
2.1 知识表示
尽管人工智能依靠机器学习技术的进步取得了巨大的进展,例如,AlphaGo Zero不依赖人类知识的监督,通过自我强化学习获得极高的棋力,但人工智能在很多方面,如语言理解、视觉场景理解、决策分析等,仍然举步维艰。一个关键问题就是,机器必须掌握大量的知识,特别是常识知识,才能实现真正类人的智能[1]。
简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结的所有事实、概念、规则或原则的集合。获取、表示和处理知识的能力是人类区别于其他物种的重要特征。因此,人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。
麻省理工学院AI实验室的Randall Davis概述了知识表示的几种不同角色[2]。
客观事物的机器标识。知识表示通过约定一组符号体系,实现对客观事物本身的表示。人类表达的数字媒介。人类以各类知识表示算法将人类掌握的知识转化为便于计算机存储并运用的形式,以支持存储运用与推理过程。知识表示约定了一组本体和概念模型。所有知识表示系统都是对真实世界知识系统的某种近似。因此,知识表示系统均需要建立在一组本体与概念模型之上,以决定系统表示何种知识。
支持推理的表示基础。即知识表示系统通过约定知识的形式化方式,间接限制了可能的机器推理的模型与方法。
知识表示的研究伴随着人工智能的发展。有关知识表示的研究可以追溯至人工智能的早期研究。早期专家系统常用的知识表示方法包括基于框架的语言(Frame-based Language)和产生式规则(Production Rule)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多地应用于辅助自然语言理解。产生式规则主要用于描述类似于If-Then的逻辑结构,适合于刻画过程性知识。此后,具有更丰富表达能力的语义网络被提出,典型的语义网络(如WordNet)属于词典类的知识库,主要定义名词、动词、形容词和副词之间的语义关系。
然而,不论框架语言、产生式规则还是语义网络,都缺少严格的语义理论模型和形式化的语义定义。为了解决这一问题,人们开始研究具有较好的理论模型基础和算法复杂度的知识表示框架。比较有代表性的是描述逻辑(Description Logic)语言。描述逻辑是一阶谓词逻辑的一个子集,推理复杂度是可判定的。描述逻辑是目前大多数本体语言(如OWL)的理论基础。第一个描述逻辑语言是在1985年由Ronald J. Brachman等提出的KL-ONE。描述逻辑主要用于刻画概念(Concept)、属性(Role)、个体(Individual)、关系(Relationship)、定理(Axiom)等知识表示要素。与传统专家系统的知识表示语言不同,描述逻辑语言更为关心知识表示能力和推理计算复杂性之间的关系,并深入研究了各种表达构件的组合所带来的查询、分类、一致性检测等推理计算的计算复杂度问题。本章下面将对各类经典知识表示方法进行简要介绍。
2.2 经典知识表示方法
2.2.1 一阶谓词逻辑
一阶谓词逻辑(First Order Logic,FOL)是形式逻辑的一种。不同于最基本的命题逻辑,一阶谓词逻辑在命题和命题间逻辑运算的基础上,进一步引入了谓词和量词。例如,在命题逻辑中,命题P:“π是无理数”和命题Q:“无理数是实数”是两个完全不相关的命题。但在一阶谓词逻辑中,通过引入谓词并将命题表示为谓词和变量的组合,因此上述命题P可表示为P:“是无理数(π)”。其中“是无理数”为谓词,“π”是变量。量词用来对个体的数量进行约束,常用的量词有两个:全称量词和特称量词。一阶谓词逻辑是一种接近于自然语言的形式语言,用它表示问题,易于被人理解和接受。通过引入谓词和量词,一阶谓词逻辑得以将真假论断应用于具体对象,并能够表达更为复杂的逻辑关系,例如包含、等同、存在等,并且形成严密的推理规则。但是一阶谓词逻辑的缺点是无法表示不确定性知识的自然性。
2.2.2 产生式规则
产生式规则是一种更广泛的规则系统,和谓词逻辑有关联,也有区别[3]。早期的专家系统多数是基于产生式规则的。产生式知识表示法是常用的知识表示方式之一。它是依据人类大脑记忆模式中的各种知识之间大量存在的因果关系,并以If-Then的形式,即产生式规则表示出来的。这种形式捕获了人类求解问题的行为特征,并通过认识-行动的循环过程求解问题。一个产生式规则由规则库、综合数据库和控制机构3个基本部分组成。
产生式知识表示法具有非常明显的优点,如自然型好、易于模块化管理、能有效表示知识、知识表示清晰等;但也有效率不高、不能表达具有结构性的知识等缺点。因此,人们经常将它与其他知识表示方法(如框架表示法、语义网络表示法)相结合。
|
|