古籍数字化的古籍数字化未来发展的趋势

栏目:古籍资讯发布:2023-08-05浏览:2收藏

古籍数字化的古籍数字化未来发展的趋势,第1张

1 按数字图书馆模式对古籍数字化进行组织

2 建立古籍整理的自动完成集成系统

3 检索系统和支持系统研究将成为重点

4 国家对数字化古籍资源进行整体规划,加大资金投入力度

5 人才培养势在必行

6 古籍数字化项目的国际性合作将是未来发展的目标

唯物辩证法认为,发展具有普遍性,发展的实质是新事物的产生,旧事物的灭亡,是事物的前进与上升。

否定是事物的自身否定,是联系的环节,发展的环节,其实质是扬弃。从方法论角度看,我们要用发展的眼光看问题。古籍的数字化对于古籍而言不仅是传承而且是一种进步。

我们还要有创新意识,对古籍的保护,要推陈出新,革故鼎新。

所以古籍数字化是一种必然。

一、文字资料数字化原则

现存的航空物探资料是中心开展航空物探50年来勘查和科研成果的积累,真实记录了中心航空物探技术进步和发展历程,反映了航空物探在地质找矿等方面的先行作用和突出贡献。为实现航空物探资料的信息化管理和永久利用,扩大航空物探服务领域,航空物探文字资料数字化和信息化原则是“尊重历史,忠实原著,保持原貌,统一要求,加强监控,确保质量”。

二、文字资料数字化流程

航空物探资料文字资料数字化是把航空物探勘查和科研项目纸质文字资料录入成电子文档,同时把手写、油印的文字资料扫描成图像格式保存,并编写项目成果简介(图8-5)。

图8-5 文字资料数字化流程图

三、文字资料数字化方法

文字资料数字化实质是对中心现存的航空物探勘查和科研成果报告采用扫描识别和人工录入两种方法输入计算机中,并按航空物探信息系统规定的格式和版式重新编辑,形成Word文档(DOC格式)和Adobe Acrobat文档(PDF格式)以满足入库要求。

(一)文字资料介质质量分类

为采取合理的数字化方法进行文字资料数字化,通过对中心库存的文字资料进行较详细的调查,按纸质资料介质质量好坏、字迹和插图清晰程度等将639份勘查和科研成果文字资料(报告)划分为较差、中等、较好、良好4类(表8-4)。其中,1973年前资料均较差,较差和中等质量的资料都出现在20世纪80年代中期以前。20世纪80年代中期以后的项目资料质量均属较好和良好。

表8-4 文字资料介质质量分类统计表

(二)文字资料数字化方法

以资料分类为基础,根据文字资料数字化原则,确定了文字资料数字化具体方法。

1人工录入法

由于较差和中等类资料多数是手写、复写或油印本,少数是铅印本;存放时间长,几经辗转搬迁,破损严重,字迹模糊;无法采用扫描、识别方法输入,只能人工录入。对录入工作提出了具体要求,以保证人工录入质量。

2扫描识别输入法

较好和良好类资料都是正规铅印或Word文档(DOC格式)印刷出版,字迹清晰,可用扫描识别方法予以输入,与人工录入方法相比效率较高。

人工录入、编辑航空物探勘查项目文字报告608份,约27396751万字;人工录入、编辑航空物探科研项目文字306份,约8390241万字。

为了保证中心资料获得长久保存,同时对已人工录入的全部较差和中等类617份约9719页的文字资料(其中,勘查115份,约3240页;科研502份,约6479页)进行了扫描输入,以PDF格式直接刻制光盘保存。

四、校对和检查

文字资料由人工录入或扫描识别,经自检形成的Word电子文档全部校样必须通过二校和部分三校或抽检,才能进入编辑排版,最终生成统一的DOC格式的Word文档。

由于历史原因,在早期原稿(包括文字和插图)中存在着其他一些错误或不规范等现象。在保持原稿真实性的前提下,尽可能地在校样中对问题予以纠正和变通处理,有些则因本身遗漏或模糊无法弥补,留下空缺。按原文字资料所附的勘误表对文字逐一进行了更正,原有勘误表基本已失去存在意义了。

五、插图扫描矢量化

使用MapGIS软件对原文字报告中的测区示意图、剖面图、地质解释图等1260幅插图按照原插图进行矢量化,原插图比例尺使用数字比例尺表示的换算成线性比例尺,单剖面图加上剖面比例尺,统一了地质图中的地质符号等,提高文字报告的插图质量(图8-6)。

六、编辑排版

除勘查项目与科研项目文字报告在内容上客观存在的不同外,既使是同一类报告在报告内容、排版编辑上也都有较大的差别。这是航空物探技术进步必然的反映,也与以往文字资料缺乏统一标准和要求有关。在本次文字资料数字化过程中,根据项目统一要求,便于计算机管理和服务,在保持报告内容不变的前提下,将所有录入的文字成果报告采用Word编辑排版软件按规定的编辑模版自动生成目录,并在报告封面等形式上力求做到统一(校样最终稿与原稿在报告封面、目录级别、插图和页码位置等方面都存在着差别,但报告内容没有改变)。按此要求完成了799份约47645页文字资料的排版工作,并把文字资料格式由DOC格式转换为PDF格式。

图8-6a 矢量化前的插图

图8-6b 矢量化后插图

七、项目简介编写

为了使用户不阅读项目成果报告全文,能够快速地了解该项目概貌,获得该成果报告的主要内容和信息,按照航空物探信息系统建库要求,编写了航空物探勘查和科研项目简介455份,约28万字。其中,航空物探勘查成果报告423份,约26万字;科研成果报告32份,约2万字。以浓缩的形式概括项目成果的主要内容,包括工作方法或研究方法、质量评价,取得的主要成果和最终结论。

1 缺乏整体规划,重复建设严重

2 文献购置和设备购置成为制约古籍数字化的两大难题

3 古籍整理技术成果未得到充分利用

4 检索技术急待完善

5 数字化文件格式数量多,不统一

6 人才的知识不全面性难以适应古籍数字化

热门文章
    确认删除?
    回到顶部