1.1数 字 人 文
数字人文通常意义上被视为数字化技术在人文社科信息资源研究中的深层次应用,从人文视角出发,使用经过筛选的数字化方法进行分析,获取通用方法所无法得到的研究结果。国外学者认为,数字人文可以追溯到20世纪40年代的人文计算领域,其开创性工作被认为是1946年耶稣会学者罗伯托·布萨(Roberto Busa)对中世纪时期哲学以及神学作品《托马斯·阿奎那》文集的索引编制,以及英国教授约瑟芬·迈尔斯(Josephine Miles)在20世纪50年代进行的文体定量研究项目,首先是关于“浪漫主义诗人偏爱的形容词”,其次是关于“1640年、1740年和1840年诗歌的短语形式”。前者将计算机技术应用于传统人文研究对象的分析工作中,后者试图通过量化方式对比不同人文研究对象的特点与异同。这些研究与人文研究的数字化工作相比,最显著的特点在于针对内容使用数字化、信息化的方法进行处理,而不仅仅是将人文作品进行简单的数字化转换与展示。“数字人文”一词最早是由《数字人文指南》(A Companion to Digital Humanities)一书的三位编辑约翰·温斯沃斯(John Unsworth)、苏珊·施莱布曼(Susan Schreibman)和雷·西门子(Ray Siemens)提出的。他们试图阻止人们将该领域称为“纯粹的数字化”,同时也为了区分“当代人文方法研究数字对象”与数字人文学科所使用的“数字技术研究传统人文对象”。人文领域内计算系统的使用和计算介质的研究,更普遍地被称为“计算转向”。
1.1.1“远读”有关理论
学者弗兰科·莫莱蒂(Franco Moretti)2000年在其论文《世界文学猜想》(Conjectures on World Literatures)中提出“远读”(distant reading)这一概念之后,远读成为一种人文学科的新研究方法,在国外的人文研究,尤其是世界文学与比较文学研究中产生了巨大的影响。莫莱蒂认为对世界文学的有关研究由于涉及大量的文本范围和不同语言之间文化习惯的不同,对所有文本进行精读显然不是人类可以胜任的工作。研究人员需要对这样大范围的研究对象进行采样、统计、图绘、分类,进而描述文学史的总体特征,然后再进行文学评论式的解读,很显然上述工作使用计算机完成才更为合理。早期研究中,莫莱蒂在《世界文学猜想》一文中提出的“远读”理论的内容与定量分析无关,并不涉及计算机技术,其主张“少即是多”,即在没有直接阅读文学作品的情况下,利用二手资料对研究对象进行宏观分析。这种考察分析方法是一种牺牲细节的研究方式,至于牺牲的多少则由所采用的具体方式决定。
从表1.1不难看出,莫莱蒂对于“远读”的解释的变化正是“远读”从原有概念发展为数字人文有关概念的变化过程,即从生物进化知识起步,采用空间地理分析、统计分析、可视化等手段,最终使用定量分析方法对文学作品进行分析的过程。
“远读”概念的解释来源时间
本书认为“远读”的概念经历计算机技术的不断发展,已经有了巨大的变化。莫莱蒂所认为的“远读”概念是通过整合资料,使用统计、个人总结等方式对大量文学文本进行概括性的描述,从而揭示这些研究对象的发展、变化规律,侧重于对文本集合已总结特征的汇总与描述。而数字人文学者们所进行的“远读”研究则是在这一思想影响的基础上,直接使用计算机技术读取文本内容进行基于文本的统计分析,从而进行文本特征的分析,其侧重点在于对文本集合内在特征的揭示。“远读”概念的核心在于无论是宏观统计描述还是内在结构揭示,其研究过程都是超越文本内容的微观描述,分析的来源是经过统计分析后的文本,分析手段是各种能够对文本进行总结概括与特征揭示的方法,尽管过程采用自动方法,但对于结果的分析与意义的解读都需要人工操作才能完成。还有学者指出,即便是分析单篇文档所包含的文本特征(如字、词出现频率等),或者分析其内部结构,如针对特定类型内容进行提取,数据量也会大到个人无法处理的程度,因此,“远读”概念对单篇文档也是适用的。