青典数字化系统是以业界领先的数据加工系统,尤其适合于古籍数字化。高效的版面分析引擎、高性能的识别引擎配合完善的流程管理,使得该系统可以极大地提高数据加工的效率。
一. 高速扫描
通过扫描仪、缩微照相机或数码相机拍摄纸质古籍,或已有电子格式的数据,转换成青典数字化系统所需的图像格式。
二. OCR自动识别、版面分析
将图像进行OCR自动切分识别后,手动修改少量的切分错误,并提供切分的检查工具,能快速定位切分错误、发现漏切字迹图,有图像的要标记图像区域,无法处理的汉字(青典数字化系统支持超大字符集(UNICODE4.0),有7万多标准汉字,在此之外的汉字极少)要标记成单字图作为图像处理。
三. 人工辅助校对
人工辅助校对提供聚类校对(所有已切分识别的字迹图按照识别后的文字排列,识别文字相同的字迹图排列在一起)、图文校对(原文真迹图像页的列与相对应的识别后的文本页的列进行列与列对照校对)等多种校对方式,可根据需要选择使用并提高校对效率。
四. 输出、转换
可输出文本、Xml文件及对应的原文真迹图像页。可将数字化结果转换成青典电子书以供读者阅读检索。
五. 发布
可将数字化结果或单独编辑书目发布到Internet或intranet上。
六. 浏览、检索
发布到Internet或intranet上书目,可进行浏览、检索,目前的我们提供的分类方法有四库分类法、朝代作者分类法、书名首字拼音分类法、书名首字注音分类法、书名首字笔画分类法五种。
提供书名、作者检索;全文检索中提供了模糊检索,大大提高了查全率。
其中可进行逻辑表达式检索,自动提取匹配上下文,并加亮显示标记检索结果。
七. 打印、印刷
可将数字化结果根据需要打印、印刷。
