中国古籍数字化的现状与展望(下)
三 关于今后古籍数字化工作的设想与建议
如何进行古籍的数字化海内外已有不少学者对此进行过专门研究,不过讨论主要集中在汉 字字符集、OCR识别及版面还原和全文检索等方面。随着计算机技术的发展,上述问题已经 不再是什么大问题了,因此,已有学者开始从更广的角度提出了对古籍数字化更新的功能化 需求。北京大学李国新教授提出:第一是必须实现文本字符的数字化,第二是具有基于超链 接的浏览阅读环境,第三是具有强大的检索功能,第四是具有研究支持功能。
李国新教授所列前三项是一般文献数字化都应该具有的,也就是说,并非古籍的特性。关于 第四项,李国新教授提出的具体内容是:“所谓‘研究支持功能’是指能够提供有关古籍内 容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考数据、辅助工具。这些信 息、数据或工具都是古籍内容的增值或补充。比如古籍字数、字频、词频的统计资料,异体 字的汇聚显示,读音的自动标注和朗读,行文风格特点的概率统计,必要的背景知识、参考 数据的汇聚,在线标点断句工具的配备,不同版本比勘校对接口的设置,字典词典、历史年 表、历史地图等研究工具的载入,等等。有了这些研究支持功能,不仅可以极大地改善研究 者的研究条件,而且还会带来研究思路、研究方法的变革。”①的确 ,近年来不少机构在进行古籍数字化时,都将注意力逐渐集中到了李国新教授所提到这些方 面,在进行数字化时比较注意相关的工具的开发。
除了对相关工具的研发以外,在古籍数字化方面我们还能做些什么?也有人提出希望建立古 籍整理的专家系统,以实现古籍版本的自动校勘、自动查错、自动断句标点、自动注释、自 动翻译为白话②等等。数字技术能否取代人脑进行上述有些明显属于 思想层次的工作,目前我们并不敢抱太多的幻想③,不过,今天数字 化技术的进步的确已经为我们从更广的领域、更深的层次进行文献加工整理从而向读者提供 全新的服务提供了可能。
在纸本时代,我们对文献的认识与管理主要是针对其物理形态进行的,至多我们能够对其主 要内容进行一些抽象的描述。在数字化时代,我们对文献的管理,已经突破了文献的物理形 态深入到了它所包含的信息单元,并且能根据我们对这些信息单元的理解与把握将之进行分 合与重组,以向读者提供针对性更强、内容更丰富的信息服务。而在进行信息单元的分合与 重组时,首先面临的就是对加工对象特点的正确把握与处理。
较之其他类型的文献,古籍有什么特点?
古籍的特点,首先是版本的问题,包括古籍的版本选择问题、古籍版本的比较问题、已有古 籍研究成果的利用问题以及一些因古籍的特殊性而产生的全文检索与规范控制等问题。
关于古籍的版本选择,这是古籍整理与数字化首先要遇到的问题。在传统的古籍整理、研究 工作中,它就是学者们普遍遵循的原则之一。就目前的古籍数字化现状而言,由于种种原因 ,一些机构在进行古籍数字化工作时,通常喜欢选择丛书或易于获得的文献,而不是根据版 本的优劣来选择,其造成的后果就是已经数字化的古籍并不是最好的版本,这自然会极大地 影响质量。因此,今后的古籍数字化应该聘请专家对古籍的版本进行筛选,尽量选择好的版本进行数字化。
与古籍版本选择直接相关的就是古籍版本的比较问题。许多古籍都不止一个版本,虽然我们 可以勉强说某种古籍的某个版本比较好,但这并非绝对的,因为不同版本之间的异同也许互 有短长。同时,根据对不同版本异同的分析我们也许能从中了解更多、更重要的信息。因此 ,版本的比较在古籍的整理工作中是非常重要的。在利用纸质文献时,我们常常会搜集不同 版本的古籍进行比勘。在数字化时代,直接采用扫描的数字化影像文献由于阅读不便,因此 即使我们有了不同版本的数字化影像文献,但使用起来会非常困难,远不如纸质文献。如何 利用现代信息处理技术来处理不同版本的比较问题将是我们今后必须考虑的。
在以往的古籍数字化过程中,业界通常采取原版图像和全文检索本配合使用的办法,这当然 符合古籍本身的特点,但这种做法也带来了一些问题,其中最大的问题就是前人在古籍研究 和整理方面(包括校勘、批注等等)的成果难以被利用。如果按现行的做法,全文检索本只是 原版的OCR产品,而原版大多不能反映前人对其已经进行过的研究的成果。如何既向读者提 供反映古籍原貌的影像,同时又能让读者在全文检索和文本阅读时能够参考和享受前人的研 究、整理成果,这也是需要注意的。解决这个问题的方法,除采用技术手段在相应的地方链 接有关批注校勘信息外,还需要建立一定的知识支撑系统或者对文本本身再进行功能的扩展 处理。国家图书馆的“西夏碎金”和“敦煌遗珍”(国际敦煌项目)中就采用了在对原始文献 进行数字化的同时关连西夏与敦煌学相关的研究文献的作法,为读者提供了更多的参考文献 。
全文检索是古籍数字化最先受到重视的技术。简单的全文检索在几乎所有的文本编辑和对象 数据库中都能实现,但为了防止过多的“噪音”出现,因此人们非常重视汉字的标引特别是 词典切分标引。词典切分标引对于现代文献可能相对较易,但对于古籍,由于古籍及古代汉 语的复杂性,在实践中更为困难,它不仅要解决防止“噪音”过多的问题,还要解决字、词 在特定的语境中含义不同的问题,这已经属于人工智能的范畴了。此外,还有一些问题需要 解决,如同书异名、同名异书、同一作者有不同的称谓,其他如职官、地名、事件名等都与 现代很不相同,例如“李世民”=“唐太宗”、“南京”=“天京”(太平天国)、“太平天 国起义”=“洪杨之乱”等,非常复杂,这是一个尚待研究的课题。这些问题有的在传统的 文献整序时已经有了解决的办法,也就是我们在文献编目时经常要提到的“名称及主题规范 ”、“权威档”(Authority),通过对文献进行规范控制,我们可以基本上解决一般性的异 名问题。但是,由于古籍的数字化同现代文献编目不同,它主要是对文献内容的数字化处理 ,而不是对文献某些特征的抽象性描述,有些问题可能需要建立一些知识性的支撑数据库( 或工具库)来解决,如对古籍中地名、职官名的处理。以地名为例,古籍中的地名与今天的 地名很不相同,一地有数名,一地的四至(范围)在不同时代各不相同等等,这使得古籍中的 地名规范处理起来非常困难,因此,可能有必要考虑建立一个以现代地理信息系统(GIS)的 方式构建的古代地理信息系统,作为全国乃至全世界同行在进行古籍数字化时通用的知识性 支撑系统,这个系统并不简单是附上一个电子地图,而应该根据文化的或行政的区划的变迁 绘制不同的地图,以正确地反映不同时代文化、政治地理的变迁情况,同时辅以古代地名规 范数据库。这将是一项极为浩大的工程,需要各方协作。
关于古籍数字化工作的定位,所涉及的问题更为复杂。就目前的情况而言,中文古籍数字化 的成果,无论其制作单位是什么,读者大多是通过图书馆或其他一些文献收藏或传播机构来 利用的。由于各古籍数字化制作机构各有其考虑、各有其利益,因此在标准与规范方面难以 统一,并且独立成库,互不开放,不仅难以与其他古籍数字化项目共享资源,其数字化成果 也很难纳入各图书馆整个的文献资源体系之中。
我们认为,古籍是文献的一种,是人类整个知识体系中的一个有机的组成部分,古籍不应该 与现代普通文献割裂开来。同时,数字化的文献也不应该与非数字化的文献割裂开来,因为 至少在可以预见的将来,我们不可能将所有文献数字化,一个完整的文献信息体系中将同时 涵盖数字化和非数字化的文献,我们可以通过数字化的手段如现在一般图书馆都已广泛应用 的计算机机读目录将数字化与非数字化的文献连接起来,从而构成一个完整的知识体系。因 此,我们希望在一个通用的平台上,读者既可以进行一般性的书目(包括现代图书与古籍)的 查询,同时根据需要可以直接切换到古籍甚至相关的现代研究性著作的全文上,如果再加上 一些相关的知识性辅助工具,将使读者对古籍的利用进入一个新的境界。换句话说,前面提 到的过去古籍数字化工作所走过的两条路线应该在今后的工作中合为一条。
古籍数字化工作是数字图书馆建设的重要组成部分,因此应该按数字图书馆的模式去组织、 加工、发布。数字化的古籍应该是以开放式的、分层次的、结构化的数据库来组织与揭示, 在进行数字化加工时应与现代图书遵循统一的标准规范,古籍的特殊性应该在统一标准规范 的框架下进行细化。各机构之间或同一机构不同的数字化项目之间,可以通过某种形式的共 享协议或技术,使所有的资源能够在同一平台上使用并互相调用。同时,在大多数情况下, 古籍与现代图书的知识库应该是可以共享的,如字典、历史年表、纪年换算、历法换算、各 类规范数据库、地理信息系统等等。
古籍数字化工作是一项系统工程,无论是从项目规划到社会资源的共建共享,都需要以协作 和开放的精神来开展工作,不仅在标准与规范上需要协作与开放,在古籍数字化的体系结构 上需要协作与开放,在项目的规划与实施上更需要协作与开放,只有集中各方面的智慧与资 源,才能使中华民族的文化遗产得到全面的继承与弘扬。
(续 完)
注
①李国新:《中国古籍资源数字化的进展与任务》,《大学图书馆学报》,2002 年第1期。
②潘德利:《中国古籍数字化进程和展望》,《图书情报工作》,2002年7期。
③关于这方面的问题,罗凤珠教授曾有专文讨论,参见《在因特网建立汉学研究环境的重要 性及可行性——就中国文学而论》,《汉学研究通讯》,第16卷第1期,1997年2月;《台湾 地区中国古籍文献资料数字化的过程与未来的发展方向》。