网站首页  
地市频道: 郑州开封洛阳平顶山焦作鹤壁新乡安阳濮阳许昌漯河三门峡南阳商丘信阳周口驻马店济源
政务
中原经济区 政策法规 业务指导 职称教育
档案科研 档案学会 精神文明建设 廉政
资讯
通知公告 档案新闻 档案界论坛
档案界维基百科 《档案工作》电子期刊
互动
网上预约服务 馆藏珍品展厅
网上调查 利用天地 档案征集 档案技术
档案文件查阅
已公开现行文件查询 河南数字档案馆
音视频档案 历史记忆 本地沿革
 业务指导
对馆藏档案数字化风险及目录数据库与图像数据库挂接等问题的认识
更新时间:2012-5-10

对馆藏档案数字化风险及目录数据库与

图像数据库挂接等问题的认识

2006年,南阳市档案局馆被省局确定为实施金档工程的试点单位。为不负省局重托,我们在巩固原有信息化建设成果的基础上,经过几个月的连续奋战,开通了可打开10余个栏目、900个网页的南阳档案信息网,不仅实现了馆藏10余万条档案资料信息的文件级网上查询,而且还实现了党委、政府及两办已公开现行文件的网上全文查询。20067月份我们启动馆藏档案数字化工作,在资金、软件均不到位的情况下做了一些基础性工作。一方面抽出专人以数码拍照形式,完成了4个全宗350卷民国档案的全文存储工作,形成了30000多幅数码照片;另一方面,安排专人完成了2个全宗1400多件民国档案的著录任务。问题是:其一,我们这样做会不会劳而无功,且浪费人力、物力;其二,假如不是劳而无功,下一步如何使著录条目与数码照片一一对应地进行链接,形成数据库、进而实现全文查询。

                         南阳市档案局馆  张怀珍

                                                                                                                                                                                                                

对馆藏档案数字化风险及目录数据库与

图像数据库挂接等问题的认识

翟霣远

    张怀珍提出的第一个问题实际上是如何认识和避免馆藏档案数字化的风险。馆藏档案数字化涉及一系列技术与理论问题,是一个探索性的工作。笔者虽不能笼统回答南阳市档案馆馆藏档案数字化工作会不会劳而无功,但可以肯定地说确实有一定的风险,尤其是在软件不到位的情况下风险会很大。从理论上讲,数字化流程的各个环节的等失当都可能给此项工作带来风险。但从实际工作看,数据质量决定着档案数字化工程的成败和效率,数据质量不过关是造成风险乃至劳而无功的主要原因。因此,确保数据质量是数字化工作成功的关键。鉴于我省的实际,笔者认为实施技术层面的标准统一是确保数据质量,避免或减少馆藏档案数字化工作风险的主要措施。

    首先,档案馆在建立档案目录数据库时:一是严格按照《档案著录规则》的要求确定档案著录项,进行著录。二是所选定的数据格式应能直接或间接通过XML文档进行数据交换。三是采用人工校对或软件自动校对的方式,对目录数据库的建库质量进行检查。

    其次,档案馆在建立档案全文数据库时:一是应选择通用的数据格式。字型数据采用XML文档和RTFTXT格式,扫描图像数据采用JPEGTIFF格式,视频数据采用MPEGAVI格式,音频数据采用MP3WAV等格式。二是应选择合适的存贮方式。图像文件如果选用数据库存贮,则要求数据库服务器的存贮容量足够大;如果选用文件存贮,则应考虑存贮在文件服务器上文件的存贮规则和命名规则,以方便实现图像文件与目录数据库的检索。三是应选用专门开发的系统来实现。该系统必须符合《档案管理软件功能要求暂行规定》的要求,具备较强的数据独立性,确保在软、硬件环境发生变化时数据的完整、安全迁移及有效利用。

    第二个问题实际上是如何实现档案数字化中形成的目录数据库与图像数据库的挂接。《纸质档案数字化技术规范》已对目录数据库与图像数据库的挂接提出明确的要求。国内的主流档案管理软件基本上都具有此项功能,相关技术已有重大突破并趋于成熟。目前,目录数据库与图像数据库的挂接一般采用两种方式实现:一是在档案条目信息录入的同时,进行相关文件的扫描(或数码拍照),并将扫描(或数码拍照)完的文件直接上传到FTP服务器。二是将档案条目信息的录入与原文的扫描(或数码拍照)分开进行,当条目信息录入完成且原文信息扫描(或数码拍照)完成后,可批量选择本地硬盘需要上传的图像文件上传到FTP服务器中。若要实现批量挂接,需提前对扫描形成的图像文件的命名规则进行定义。通常是以纸质档案目录数据库为依据,将每一件纸质档案文件扫描(或数码拍照)所得的一个或多个图像存储为一份图像文件。将图像文件存储到相应文件夹时,要认真核查每一份图像文件的名称与档案目录数据库中该份文件的档号是否相同,图像文件的页数与档案目录数据库中该份文件的页数是否一致,图像文件的总数与目录数据库中文件的总数是否相同等。通过每一份图像文件的文件名与档案目录数据库中该份文件的档号的一致性和唯一性,建立起一一对应的关联关系,为实现档案目录数据库与图像文件的批量挂接创造条件。

通过档案目录数据库与图像文件的挂接,系统就可初步实现对目标档案的全文检索,然而,从检索技术上讲全文检索还不止于此。真正意义上的全文检索,不仅应该构建功能完备的档案全文数据库,而且能够集成数据库检索技术、全文检索技术、图像内容检索技术以及数字化音频和视频信息的检索技术等。由于数字化档案要求必须与档案原件完全一致,然而目前的数字转换、识别技术又不能完全满足这一要求,因此,要实现数字档案全文检索,还有待技术的进一步发展。

            (作者单位:河南省档案局业务指导处)

 

友情链接
地址:郑州市金水路18号 邮政编码:450003 电子邮箱: hndafgc@126.com
版权所有 河南省档案局 豫ICP备11015203号-1 用户登录