- · 《数字化用户》投稿方式[06/28]
- · 《数字化用户》征稿要求[06/28]
- · 《数字化用户》刊物宗旨[06/28]
并不起眼的技术,却能决定档案数字化的成败,
作者:网站采编关键词:
摘要:本期主编:橙子 之前几期讲了档案数字化的流程,今天单独讲其中一个环节中的关键技术,为什么单独要拿出来和大家讲这个技术呢?答案其实很简单, 因为他真的真的非常重要,甚
本期主编:橙子
之前几期讲了档案数字化的流程,今天单独讲其中一个环节中的关键技术,为什么单独要拿出来和大家讲这个技术呢?答案其实很简单,因为他真的真的非常重要,甚至说可以决定整个成果的成败。
往期文章也介绍了关于“档案管理系统”“档案数字化”的专业知识,感兴趣的朋友可以查看往期文章。
这里我给大家准备了礼物,关注我们并留言“档案数字化”可获得我们精心准备的相关资料哦,好了,让我们回到正题。
在开始之前,先大家回顾一下档案数字化的流程。数字化流程共分为:调取档案、档案整理、档案扫描、图像处理、数据挂接、成果质检、数据存储、档案归还这8个步骤。今天讲的技术是数据挂接中的双层PDF技术。
一、双层PDF是什么?
PDF大家都不陌生,那什么是双层PDF呢?我们先看一下单层的PDF,单层PDF主要是一种存储格式,但里面的文字无法像Word一样随意复制,
而双层PDF则是一层是图像另一层是文字,由于文字是单独一层的,所以我们可以直接对里面的文字进行复制,并不会受到影响。
这对于为我们办公效率提升不少,不必再讲PDF里面的文字再次打出,同时出现错误的几率也大大降低了。
二、双层PDF与全文索引
传统的文件检索是对文件信息描述的简单或复杂的逻辑检索方法。档案工作者的描述水平、对文档及相关链接的理解容易影响搜索的准确性和利用效率。
而全文检索无疑是利用实时采集的文件来实现采集文件价值的更好选择。要实现全文检索,就需要用到双层PDF技术,将文字一层的内容直接复制录入到系统中。
这样可以让全文搜索到目录所在的位置,便于使用者更快查询到需要的内容,既节省时间又能减少工作量。
三、双层PDF与OCR技术结合
PDF文档是文本和图像的多层结构PDF文档,文本层和图像层上下对应,即以原始图像的方式保存整个文档,又通过OCR(光学字符识别)识别技术提取文档内容,
以全文的方式保存文档信息。在双层PDF的文件系统管理中,可以通过程序交换文本层和图像层,利用文本信息进行全文搜索,从而快速实现文档的准确定位,并利用图像层进行查阅。
往期内容有专门介绍OCR的文章,感兴趣的朋友看翻阅之前的文章,这里就不过多介绍了!
四、双层PDF对档案数字化的重要性
双层PDF文件技术对电子文件和纸质文件信息进行数字化,建立符合文件有效性、系统性、安全性的档案数字化具有积极作用,通过结构化和非结构化信息同时管理,实现数字文件馆的全文检索,具有重要的意义。
读到这里你知道为什么说双层PDF为什么能决定档案数字化的成败了吧?因为没有这个技术,好多后续的操作都会受到影响。
如果你想了解更多关于“档案管理系统”“档案数字化”的一手资料,可以搜索“案多星”你想要的都有
这期就说到这里,觉得有用可以分享给身边的人,欢迎在评论区留下你的看法,我们下期再见!
图片均来源于网络,如有侵权,联系我立即删除。
文章来源:《数字化用户》 网址: http://www.szhyhbjb.cn/zonghexinwen/2021/0622/2043.html
上一篇:联通数科助力航运全流程数字化
下一篇:数字化转型与绿色建筑或将引领房地产行业新发