为什么要用OCR方式录入古籍?
一、降低成本和错误率
古籍的录入校对人员需要较高的古文素养,能够掌握相当数量的古字。实践证明,使用人工的方式来录入校对古籍错误率高,人员要求苛刻,录入速度慢,不利于古籍的大量出版。使用青典数据加工子系统,只需一般的录入人员,经过两天培训,就可以大量录入古籍,错误率可以到万分之一以下;系统采用分布架构,允许近百人同时工作。可以说青典数据加工子系统是古籍录入校对的“自动化流水生产线”,大大降低了成本。
二、后续的发布系统一体集成
古籍经过录入校对后完成了数字化的过程,但是要使它发挥作用还需要一个发布系统。对于普通的出版单位,我们可以提供文本和方正排版文件;对于需要出版成光盘格式或者电子文件格式的单位,我们可以提供电子书和阅读器;对于需要以网站形式发布的单位,我们可以使用元数据编辑器和发布系统,直接架构网站。上述各种发布技术已经产品化,成熟稳定,基本不需耗费新的成本。对于需要自行设计发布系统的单位,我们提供XML文件。
三、版面还原、模糊检索、版本对照
客户还可以享受到下列附加服务:
版面还原:数字化后的古籍按照复原版面显示。稀缺的古字可以使用单字图直接粘贴在版面上。同时提供横排版面和原文图像。
模糊检索:创新力博公司独创的检索技术。凡是和检索语句的差别在两个字以内的语句,均可以被检索出来。比如,检索“不战而屈人之兵”,则“不战而屈人师”也可以被检索出来。如此大大提高了查全率,是专家学者搞研究课题的利器。
版本对照:自动比对两种版本的书籍,自动生成差异比对列表,编撰人员无需人工比对,大大方便了编撰人员的工作。