基于PDF 格式的原始地质资料数字化实践
李效广 杨 君 李 敏 周小希 林晓辉 张良军
(中国地质调查局天津地质资料馆)
摘 要 原始地质资料数字化是信息时代的必然趋势。目前数字化的主要方式是扫描数字化,即通过扫描的方法把以纸介质为载体的图文地质资料由模拟信息转变为数字信息。以何种格式的数字信息存储,是原始地质资料数字化中的关键问题之一。作者结合实际工作,试图说明便携式文档格式(PDF)是较优选择之一。
关键词 地质资料 数字化
1 概述
原始地质资料是在进行地质工作时直接形成或采集的,反映地质现象或地质体的,以各种载体类型存在的原始记录、中间性解译资料、最终地质工作成果原稿等。根据原始地质资料的形成规律、形式特征和内在联系,案卷内的原始地质资料包括成果底稿、底图、野外地质观察记录簿、采样测试鉴定表等。
原始地质资料中图文纸介质的数字化是信息时代的必然趋势。当前数字化的主要方式是扫描数字化,即通过扫描的方法把以纸介质为载体的图文地质资料由模拟信息转变为数字信息,并按一定的质量要求对电子文件进行加工和制作,然后存储在磁带、磁盘或光盘等介质上的过程。
采用何种格式存储数字信息,是原始地质资料数字化中的关键问题之一。传统的扫描数字化后的数字信息多“理所当然地”选择了某一种栅格格式,比如《图文地质资料扫描数字化规范》表述的扫描原则是:“按照原件处理的结果对原件进行完整、齐全的扫描,保证栅格文件的扫描质量,并使栅格文件具有最少的整饰工作量。”同时,“栅格文件的格式”为“黑白:使用 CCITT Tiff Group 4 fax 压缩格式(TIF)”或“灰度或彩色:使用 8 位或 24 位 JPEG 压缩格式(JPG)”。此二类栅格格式在存储图文扫描方面至今仍然有足够的优势。笔者认为,当前的信息技术条件下,PDF 格式,即便携式文档格式,是适用于数字化原始地质资料的理想选择。笔者在对数十档原始地质资料的数字化工作的基础上,对此问题作一简要阐述。
2 应用实践
PDF 格式文档是一种通用文件格式,用于保存由多种应用程序和平台上创建的源文档的字体、图像和布局。笔者共选择包括科学研究类、区域地质调查类等 10 种原始地质资料,共扫描 7000 余页,扫描后将其编辑为 PDF 文档。
21 扫描
在扫描原始地质资料之前,笔者对其进行了预处理。按照原始地质资料目录,核对资料是否齐全,并对资料进行分类,确定扫描所需设备及根据纸质的新旧程度、页码是否按顺序排列、折痕、折页、是否需要拆除装订、哪些资料需要扫描、页面修整等情况,做出相应的处理。
物理上独立的一册(张)资料扫描为一份电子文件,在扫描仪分辨率设置上纸质文本资料通常选择300dpi,图件资料不低于 200dpi,建议以 24 位彩色模式进行扫描,这样能更好地展现原始纸质地质资料的原貌;对于文本资料,建议用平板方式进行扫描。因扫描仪型号不同,应根据实际情况调整相关参数。
A3 幅面及其以下纸质原始地质资料按纸质原顺序扫描,并制作成 PDF 格式文档;A3 幅面以上,可扫描成 JPEG 等其他通用图像格式文档或 PDF 格式。对大幅面资料进行分区扫描形成的多幅图像,进行拼接处理,合并为一个完整的图像,以保证资料数字化图像的整体性。
22 编辑
扫描成栅格格式后,每页存储为一个独立文件。而 PDF 则不同,可方便快捷地组织制作成同纸质非常接近的“电子书”格式。
制作 PDF 基本可分为四个步骤:
1)文件的合并与编排:根据原始资料各个章节的排列顺序编制 PDF 文档,并保证空白页的添加位置与原件一致,保证文档中添加的新页码与页面上标识的页码一致。将文档中没有显示出来的插图单独制作成一个附图册,编排到文档的最后,将二者合二为一;在与其相应的位置做链接,方便查阅。
2)页面的编码:对于手稿资料,需要对其简介、目录、正文(包括参考文献和勘误表)等部分进行编码。根据实际工作,笔者采用的参数为:①简介和目录的页码使用罗马数字进行标示,字体定为 Arial 粗体,字号设为 16 号,位置居中。②正文部分严格依照原文件的页码添加对应的新页码,使用阿拉伯数字进行标示,字体为宋体,位置居中,字号为 16 号。对于页边距来说视情况而定,在不影响页面美观的前提下,可以将上边距设为 127mm,下边距设为 635mm 或 762mm。③文档最后的附图部分则无需编码。
3)附属资料的添加:对于插图(主要是页面中无法展示出的)来说,可以在页面中的对应位置添加的文字链接,同时在每一个插图上添加“返回”链接,链接的字体设为幼圆,字号为 18,颜色为蓝色。对于补充材料以注释附件的方式添加在正文相对的位置上,其设置参数为:外观图标选择“附件”,颜色设为红色,添加作者名称均为“天津地质调查中心”,主题为补充材料添加的位置说明,例如“第二段第一行的插入段”,最后勾选“锁定”。
4)书签的制作:可以按照目录的结构来做,对于没有目录的材料可以将其做至第 3 级标题。书签的制作参数为:页面显示比例调为 75%,字体样式为黑色规则样式。
23 整合
每档资料扫描后的电子文件都按其归档立卷方式命名与存储。建立相应电子文件夹,实现文档的整合。笔者根据实际工作,总结其文档命名规则。
1)建立相应的文件夹来存储扫描完成的电子文件,以档案号—项目课题名称为文件夹名字,每份资料为单独的一个文件夹。
2)根据《原始地质资料立卷归档规则》归档的原始资料,其下一级单文件命名方式为分类号 + 顺序号;如果是在《原始地质资料立卷归档规则》颁布前归档的原始资料,其下一级单文件的命名方式为 0X-00X-报告名称,0X 代表原始地质资料中的盒号,00X 代表此份资料在整份资料中的编号。
第八届全国地质档案资料学术研讨会文集
例如:
第八届全国地质档案资料学术研讨会文集
24 共享与发布
相比较单页资料扫描成单个栅格文件后将整份资料以文件夹存储情形而言,将整份资料扫描存储为单个的 PDF 形成一个电子书,其优势体现在:PDF 格式的文档更加美观,易于阅读,适合屏幕阅览,能够精确还原保证再现原文,可放大到 800% 而不损失清晰度;另外可高效浏览,可直接用电子化便签,随意翻阅自己想要看的东西;对于安全性,能够控制机密文件的访问权限,使得原始地质资料既能社会化服务,又能保证其安全性。
25 存储空间
表达同样的图文信息,PDF 电子文件远比 WORD 文件所占存储空间小,PDF 格式比之于 WORD 格式有非常大的优势;而且 PDF 格式可以另存为 JPEG 格式,转换后的 JPG 文件存储空间较之于 PDF 格式也没有变化。因此,在节省存储空间方面 PDF 格式具有较大的优势。
3 结语
实际上,PDF 格式是 JPEG、TIFF 等栅格格式在原始地质资料数字化中应用的深化。二者均为数字信息存储格式,信息技术已发展到可直接使用扫描仪和 Acrobat 软件将纸质文档扫描后创建成 PDF 文件,表象上表现为 PDF 文档与 TIFF 或 JPEG 栅格文件是一个层面上的应用。因此,作者认为二者在应用层面上是一致的,但绝不是说 PDF 文档与栅格文档在数字信息中是同一类别的文档—TIFF 或者 JPG 是数字信息中的某种光栅格式,而 PDF 则是数字信息中将字体、图像、电子邮件、工作表和布局均可打包存储的通用文件格式,包含有更多与更高层面的应用。因此,从这个角度来讲,较之于以 JPEG、TIFF 格式扫描化原始资料,自然地,PDF 格式优势当然明显,是一种优选格式。选择 PDF 文档作为纸图原始地质资料数字化,在存储、共享、分发、整合等方面具有优势。
感谢:茹湘兰、赵小平等专家对本文的帮助。
《七略》是西汉刘歆编制的,现已是我国古代最早的综合性国家图书分类目录。
辩章学术、考镜源流:章学诚认为“辨章学术,考镜源流”即分清学术源流,考究学术渊源;(目录要体现学术史和科学分类的有关内容,才能更好地为学术研究服务。)
古籍数据库:1《中国基本古籍库》(《中国基本古籍库》由北京爱如生数字化技术研究中心开发制作)2《瀚堂典籍数据库》北京时代瀚堂科技公司3《中文古籍数据库》中央研究院汉籍电子文献4《龙语瀚堂》龙戴特信息技术公司5《书同文古籍数据库》北京海淀开发区认证的高科技企业和软件企业6《国学宝典》清华大学的网络技术研制
1 按数字图书馆模式对古籍数字化进行组织
2 建立古籍整理的自动完成集成系统
3 检索系统和支持系统研究将成为重点
4 国家对数字化古籍资源进行整体规划,加大资金投入力度
5 人才培养势在必行
6 古籍数字化项目的国际性合作将是未来发展的目标
基于PDF 格式的原始地质资料数字化实践
本文2023-11-04 16:55:28发表“古籍资讯”栏目。
本文链接:https://www.yizhai.net/article/200230.html