求扫描版古籍转文本的工具

栏目:古籍资讯发布:2023-10-29浏览:2收藏

求扫描版古籍转文本的工具,第1张

用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;

从开始-程序-office-打开软件

先打开扫描的Tag图像文件格式的文件,点 工具-‘使用OCR识别文本’识别出来,然后另存为文本文件。

  三大检索系统指的是SCI(科学引文索引)、EI(工程索引)、ISTP(科技会议录索引)。

 所谓检索系统,是指图书情报档案工作者和其他学者按某种方式方法建立起来的供读者查检图书情报档案资料等信息的某种有层次的体系。它们是客观存在的设施和设备,依次有如下两大层次。就检索的工具和方式来讲,有机器检索系统和手工检索系统。机检系统,即计算机检索系统,是指用电子计算机和数据库存储、检索文献信息资料的系统。其组成包括计算机、数据库、管理软件和通信网络检索终端,数据库是其核心。而这些所有的用于文献检索的电子计算机可以联成一个庞大的网络,进行国内外的联机检索,现已发展成网络检索系统。但仅有计算机和网络还不行,还必须依赖数据库才能检索到文献信息。

在计算机信息检索系统中,常用的检索技术主要有以下六种:

1. 布尔逻辑检索

利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”和逻辑非“NOT”。

2. 截词检索

截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。这是就要用到截词检索。

3. 位置检索

位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。

4. 字段限定检索

字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。

5. 加权检索

加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。

6. 聚类检索

聚类是把没有分类的事物,在不知道应分几类的情况下,根据事物彼此不同的内在属性,将属性相似的信息划分到同一类下面。

不支持。根据查询《国学宝典中华古籍全文检索系统》信息得出,《国学宝典中华古籍全文检索系统》支持反复制功能,即不支持文字复制。《国学宝典中华古籍全文检索系统》是以一种专门开发给古籍研究者的专业检索系统。

台湾中央研究院汉籍电子文献全文检索系统(瀚典全文检索系统)

目前最主要的古籍全文检索系统几乎全部集中在台湾。中央研究院汉籍电子文献 中央研究院汉籍电子文献(旧称瀚典全文检索系统)是迄今最具规模的中文古籍数据库,也目前网络中资料整理最为严谨的中文全文数据库。它包含整部二十五史、整部阮刻十三经、超过2000万字的台湾史料、1000万字的大正藏以及其它典籍,合计字数13400万字,并以每年至少1000万字的速率增长,蔚为壮观。 汉籍电子文献所有资料包括二十五史、诸子、古籍十八种、古籍三十四种、大正新修大藏经、上古汉语语料库大部分资料则免费开放,不仅提供查询,还可全文浏览古籍。 在汉籍资料库的一级栏目的最后,有一个不太引人注目的人文资料库师生版,是为普及文史教育而向台湾大中

求扫描版古籍转文本的工具

用office 的Document Imaging OCR文本识别功能,能从扫描文件中识别文字转换成文本或word格式文件;从开始-程序-office-打开软件先打开...
点击下载
热门文章
    确认删除?
    回到顶部