首页 公司简介 产品信息 客户方案 技术支持 新闻资讯 电子数据库 免费下载 联系方式 论坛
 > 行业新闻
 
中国古籍数字化的现状与展望(上)
类   别:行业新闻   作   者:wang 更新时间: 2005-02-18                       来自:国学网

中国古籍数字化的现状与展望(上)

一 古籍数字化之现状

  利用计算机技术对文献进行加工处理,已经有很长的历史了,但对文献内容本身进行数字化,仅仅只有二十多年的历史。
  中国古籍的数字化最早是从计算机事业最发达的美国开始的。20世纪70年代末期,OCLC和RLIN首先建立了《朱熹大学章句索引》、《朱熹中庸章句索引》、《王阳明大学问索引》、《 王阳明传习录索引》、《戴震原善索引》、《戴震孟子字义疏证索引》等数据库,用计算机 对中国古籍进行处理。
  国内何时用计算机进行古籍整理和数字化,现在没有十分确切的数据,大概在上个世纪70年代中期,四川大学历史系的童恩正教授等就曾尝试过用计算机进行甲骨文的缀合(1)。至于用计算机进行古籍的数字化,比较早的是上世纪80年代初彭昆仑先生完成的 “《红楼梦》检索系统”(大概在1983年11月初步建成,但正式发布是在1987年)。早在1984 年,就有学者憧憬将来人们能够利用计算机进行古籍整理和研究:
  随着微型机数量的增加、功能发展以及分布的扩大,其信息的 贮存量会愈来愈多,并在一定范围,从一个地区到全国以及世界各地组成网络,形成一个巨 大的资料库,所有信息资源便可共享。实现了这个目标,我国几千年来汗牛充栋而又星罗棋 布的古文典籍,可尽行收入方寸之地,召之即来。使用微型机对这些古籍进行版本研究、文 句校勘、文字订正、字义诠释、篇章会注、作品编年、古语今译,乃至标点、分段等等都将成为现实。(2)
  二十多年过去了,上面提到的有些设想已经实现了,还有一些涉及到人工智能问题,其实现恐怕尚需时日。
  二十多年来,中国古籍数字化的道路基本上是通过两条路线来进行的,一条是利用计算机对古籍进行揭示,建立古籍的书目数据库,提供读者检索使用;另一条是利用计算机对古籍的 内容进行数字化并提供一些相关的知识工具,使读者不仅能通过计算机来阅读古籍,并且能 够通过磁盘、光盘和网络进行传播。
中国古籍书目数字化即古籍书目数据库的建设开始于20世纪80年代,它经历了由各图书馆和藏书机构自主研发到逐步统一标准、统一规范并进而实现联合编目的历程。
  目前,中国古籍书目的计算机机读目录格式已有通用标准,在大陆地区主要采用CNMARC,在台湾和香港地区则主要采用CMARC,著录规则略有差异。总体上看,大陆的著录规则要详细 一些,而台湾则稍微简单一些。目前海峡两岸也都在进行中文元数据标准的研制。
  近年来,大陆地区已编制出版了古籍计算机编目的相关标准、规范,如《中国文献编目规则》、《汉语文古籍机读目录格式使用手册》、《中文拓片机读目录格式使用手册》等,此外 还有一些相关的国家标准和行业标准。
  台湾地区也有相应的标准规范,如《中国编目规则》、《中国机读编目格式》、《中国机读权威记录格式》等。
  从2000年起,两岸五地中文文献资源共建共享会议在北京召开,会议确立了海峡两岸、香港、澳门和其他国家凡收藏有中文古籍的机构开展中文古籍的联合编目项目,由台湾汉学研究 中心负责,由于各种原因,目前进展不甚理想。不过,两岸的中文古籍编目工作在近年都受 到了相关藏书机构的高度重视。台湾方面,已经建立了“台湾地区善本古籍联合目录”(116 03 4笔)(3),大陆方面成绩也比较明显,国家图书馆2003年已 经完成了全部2 7万册善本古籍和160余万册普通古籍的计算机编目工作,所有的30馀万条书目数据都已经上 网供读者使用并通过中国国家图书馆联合编目中心为海内外图书馆界提供书目数据联机编目 和下载服务(4)。此外尚有舆图、金石拓片约5万条书目型数据。目前 中国国家图书馆正在进行已建数据库的维护并继续进行特种文献如舆图、金石拓片、甲骨文 等文献的计算机编目,并已开始进行古籍人名、地名等名称规范(Authority)数据库的制作 。一些大的公共图书馆如上海图书馆、南京图书馆等也都正在进行中文古籍的编目工作,并 取 得了相当的成绩。高校方面,最近以北京大学图书馆为中心的CALIS也开始组织部分高校图 书馆进行中文古籍的联合编目。
  中国古籍内容的数字化与书目数据的建设几乎同时起步,也经历了二十多年的发展,目前已经成为中国古籍数字化的主流。
  在台湾地区,从20世纪80年代开始,一些学者和研究机构就已经着手研发以 古籍为主的大型资源库,其中最为突出的有罗凤珠教授的“《红楼梦》网络教学研究数据中心”、《全唐诗 》、《全宋词》、《宋代名家诗》网络版等。在机构方面,台湾中央研究院开发的“翰典全 文检索系统”(5),它不仅收录了不少重要的典籍,同时其强大的文本检 索功能给读者利用古籍带来了全新的感受。台湾汉学研究中心制作的“善本丛刊影像先导系 统”等也已陆续提供服务(6)。此外,台北故宫博物院、元智大学、台湾 大学等也都在古籍数字化方面作了大量的工作。近年,台湾有关机构提出了一个庞大的“数 字典藏计划”,其制作单位涵盖图书馆、博物馆、研究机构等,与古籍有关的内容包括:善 本古籍典藏数字化、金石拓片典藏数字化、古籍附图典藏数字化以及“台湾地区地方文献典 藏数字化”和“期刊报纸典藏数字化”等等(7)。
  在世俗文献数字化取得长足进展的同时,宗教文献的数字化取得了明显的成绩,其代表有CBETA中华电子佛典 协会的“在线藏经阁”,该数据库最大的特点是采用XML来进行佛教文献数字化,现在已经 完 成了《大正新修大藏经》、《续藏经》以及一些佛教参考文献和工具书的数字化,并提供免 费下载服务(8)。其他如道教文献也已有机构将《道藏》等进行了数字化 。
  香港方面,香港中文大学中国文化研究所先后推出了先秦两汉、魏晋南北朝古籍数据库以及竹简帛书和甲骨文数据库,成绩也相当可观。
  从20世纪80年代起,中国大陆地区就有一些机构和个人开始着手古籍数字化的工作,并取得了一定的成就。但当时大部分的工作主要还是在学者的书斋中进行的,并没有对社会产生大 的影响。进入20世纪90年代以后,随着计算机的普及及网络技术的发展,古籍作为一种重要 的民族文化遗产,受到了高度重视,因此在最早出现的一些读书网站中,如“黄金书 屋” 、“新语丝”等网站就已经有了相当数量的古籍,内容包括古典小说、历代史籍、儒家经典 和诸子等等,形式主要是人工输入的一般电子文本。
  20世纪90年代中期以后,一些大的出版单位、学术机构和商业公司介入了古籍的数字化工作,古籍数字化的规模迅速扩大,例如国家图书馆已经制订了一个庞大的古籍特藏文献的数字 化计划(9),如碑砧菁华(10)、西夏碎金(11)、敦煌遗珍(12)、数字方志(13)以及甲骨文、永乐大典等,其中有些项目已经完成,其成果可以通过网络为读者提供服务, 有的项目正在进行中。北京大学正在进行的《中国基本古籍光盘库》,计划收录古籍1万种 。北京大学图书馆推出了“秘籍琳琅”项目(14)。中华书局正在进行 的中华古籍语料库的建设。迪志文化出版有限公司、上海人民出版社推出了文渊阁《四库全 书》全文检索版(由迪志文化出版有限公司、书同文数字化技术有限公司制作)。书同文数字 化技术有限公司推出了《四部丛刊》的全文检索版(15),国学公司推 出了《国学宝典》等系列产品(16)。另外还有不少的机构和个人都作 了大量的古籍数字化工作。
  在上述的古籍数字化项目中,或以文献特色胜,或以数量胜。可以这样说,在公开的中文文献数字化中,无论是数量还是采用的技术手段,古籍数字化工作所取得的成就都是最为耀眼的。

二 古籍数字化之检讨

  如前所述,海峡两岸的古籍数字化工作可说是成果丰硕,但在成绩的背后,也还存在着一些问题,下面,我们重点就大陆地区古籍数字化的现状和存在的问题进行一些分析。
  目前,中国大陆古籍数字化工作除古籍爱好者和研究者零星进行的古籍数字化工作以外,成规模的数字化工作基本上是由三种类型的机构来进行:一种类型为教学和研究机构,一种类 型为图书馆,还有一种类型则是商业机构。这三种类型的机构在进行古籍数字化时是各有其 特点的:
  教学和研究机构对数字化对象选择目的性强,数字化的目标及方法主要是根据教学和研究工作需要来决定,例如中国社会科学院的数字化项目包括:《全唐诗》、《先秦汉魏晋南北朝 诗 》、《全上古三代秦汉三国六朝文》、《十三经》、《全唐文》、《诸子集成》等等,北京 大学的《全宋诗》、深圳大学的《红楼梦》等皆是如此。
  图书馆所进行的古籍数字化,则主要是根据其馆藏特色来进行,如中国国家图书馆、北京大学图书馆的古籍数字化项目基本上是按这个原则来规划的。
  至于商业机构,其古籍数字化的内容主要是根据市场来决定的,哪一类文献有市场,就进行哪一类文献的数字化。考虑到市场的运作,常常会选择大型类书、丛书如《古今图书集成》 、《四库全书》、《四部丛刊》等等。
  不同类型的机构根据自己的情况进行有特色的数字化对于推进古籍数字化的工作无疑是必要的,但是,其中所存在的一些问题也不可忽视。有些问题已经引起了人们的注意(17),而有些问题还没有引起人们足够的重视。
  中国古籍的数字化是一项中华文化遗产的保护和弘扬工作,具有强烈的公益性色彩,需要各方面加强协调,有一个整体的规划。整体规划不仅包括数字化对象的内容确定和合作分工, 同时包括相关标准、规范的统一,而恰好这两方面的问题在目前古籍数字化工作中表现最为突出。
  就协作方面的问题而言,主要是关注焦点过于集中,重复建设。

  中国古籍的数字化目前是各自为阵,虽然数量已经不少,但关注的焦点过于集中,并且多数都带有商业色彩或者追求规模与宣传效应,致使古籍的数字化集中于“少数”常用特别是丛 书类的古籍,而一些学术界需要的古籍鲜有顾及。例如文渊阁《四库全书》先后已有三家进 行过影像的数字化(上海人民出版社与迪志文化出版有限公司的光盘版、武汉大学出版社的 光盘版、“中美百万册书数字图书馆”的网络版(18)等),一家 进行了影像、全文文本的数字 化(上海人民出版社与迪志文化出版有限公司的网络版),此外还有一些机构曾经也进行过相 同的工作,只是由于各种原因最后没能面世。至于像“二十五史”这类规模稍小但更常用的 文献,其数字版本就更多了。
  就标准规范方面的问题而言,由于制作单位不同,各自的利益不同,所制作的古籍数据库常常是封闭的,在技术上很难与其它数据库融为一体,造成知识体系的割裂。同时,出于保护 各自的知识产权或有利于产品占领市场,不少机构并不采用通行的工业标准,而是自行设定 相关的数字化加工与组织标准。
  上面所提到的问题,无论是协作还是标准与规范,都是属于表面层次的问题,是比较容易发现的,而另外一些问题常常被人忽略,但就其性质而言,更应引起我们的重视:第一、对古 籍数字化工作的特点认识不够。古籍较之其它类型文献有什么特点?如何在数字化时体现这 些特点?第二、对古籍数字化工作的定位不够明确。古籍数字化与其它文献的数字化是什么 关系?它在整个数字图书馆建设中处于什么样的地位?
  作为文献的一种类型,古籍的数字化与其他文献的数字化相比,有其共性,但也有其个性,为了体现这些个性,需要我们采取一些特殊的加工手段和技术措施。因此,根据古籍的特点 来进行数字化是提高古籍数字化水平最主要的途径。
  对古籍数字化的正确定位,不仅关系到古籍本身,也关系到整个文献数字化体系的建设。因为古籍仅仅是整个文献体系中的一个有机的组成部分,读者在使用古籍时,一定还会涉及到 其他现代文献乃至外国文献,如何向读者提供全方位的数字化的文献信息服务,在数字化时 代的今天,这一任务已经摆在了我们的面前。

(待 续)

 

 
版权所有©北京创新力博数码科技有限公司
Copyright©Beijing Ilibo Digital Technology Co.Ltd.
 
关于我们 友情链接 版权声明 相关法律 京ICP备05048155