第一部分 背景概述
互联网的普及,改变了人类获得、拥有、利用、处理、交流知识的方式。但在互联网上,英文信息占97%,法文信息占2%,中文只占千分之几。中文信息资源开发和建设已成当务之急。建设中国数字图书馆工程不仅将扭转互连网上中文信息匮乏的状况,而且将极大促进国民经济新的增长,推动我国信息技术的发展和信息化的建设,同时,图书馆 的工作方式和服务模式将得到跟本性的改变,全面实现自动化、网络化和信息化。目前,我国各级政府对数字化图书馆工程非常重视,国家专门成立了“863”计划数字化图书馆战略小组,北京市把数字图书馆建设列为四项高科技基础工程之一。这是一个运用现代高科技的数字资源系统工程,涉及到信息资源加工、存储、传输、检索和利用的全过程,是信息基础建设的重要组成部分。
数字图书馆就是对有高度价值的图像、文本、语音、音响、影视、软件和科学数据等多媒体信息进行收集,组织规范性的加工,进行高质量保存和管理,实施知识增值,并提供在广域网上高速横向跨库连接的电子存取服务。同时还包括知识产权、存取权限、数据安全管理等范畴。简而言之,数字图书馆是超大规模的、可以跨库检索的海量数字化信息资源库,能为读者方便、快捷地提供信息的服务机制。数字图书馆的特点是:收藏数字化、操作电脑化、传递网络化、信息存贮自由化和资源共享化。
数字图书馆作为一个海量、宽带多媒体网络系统,还有很多需要进一步研究开发的技术问题,这些问题主要表现在:
1) 信息资源建设
数字图书馆要把文本、声频、视频等各种信息资源整理入库。自动分类、自动标引、自动文摘、工业化的OCR技术等技术都是技术瓶颈所在。
2) 存储与压缩
数字图书馆面临的数据是多种类型的、海量的。如何保存和管理海量数据是系统设计的核心任务之一。
3) 分类、索引、检索:
对不同的内容,不同的数据类型需要不同的分类体系和索引机制。检索工具应保证提供给用户的信息恰恰是用户最需要的。因此,海量数据的搜索效率与速度是系统面临的巨大挑战,其中包括中文搜索、图像搜索、语音搜索、智能搜索。
4) 传输与保护问题:
海量信息的快速浏览需要建立一个合理的分层传输机制,保护包括版权的保护和系统安全性的保护。
基于领先的OCR(光学字符识别)技术和内容管理技术,北京汉王科技公司推出包括资源建设、资源检索利用两个重要环节的数字图书馆应用方案。
第二部分 数字图书资源建设
一、“汉王OCR录入工厂系统(网络版)”加工方案:
信息资源对于网络时代,正如蒸汽机于工业社会,我们致力于信息资源建设,正是在构建未来社会的基石。要丰富网络资源,提高原有信息知识的利用效率,对图书、文献、档案等信息资料的数字化就显得尤其重要。
但如何将种类繁多的文档资料、行业信息进行自动化处理,以满足各种数字化信息的应用,这就是OCR技术(光学字符识别)在信息数字化建设中起到的至关重要的作用。
1、总体功能:
实现大量原始资料的快速扫描录入与保存;
OCR录入、校对、整理;
数据库存储、备份、检索和管理;
对各工序环节能进行监督和调度协调;
员工岗位的管理;
质量控制;
系统管理。
2、系统特点:
1) 大量原始资料的快速扫描录入与保存
各种版式的现代书籍: 横版、竖版、简体、繁体;
古籍:特别是珍本、善本;
各年代的报刊杂志及内部资料;
各年代公文档案;
各种报表或票据。
2) 汉字识别之王:国际领先的OCR录入、校对、整理功能
采用汉王先进的OCR识别技术,识别率高、速度快;快捷精确的横校、纵校、对比校对;支持多种电子文档存储格式:PDF、HTML、RTF、TXT、XLS,方便地实现全文检索,并将逐步与国际标准电子文档格式接轨。
3) 完善的员工管理功能
综合了考勤管理、岗位管理、工资管理三大功能,系统自动记录员工出勤情况,自动为各岗位分配工作并记录分配情况及工作量,并根据以上记录情况生成员工工资明细表;提供轻松友好的工作界面。
4) 自动进行各工序环节的监督和调度协调
服务器给各岗位分配任务,并进行任务协调,使各客户端的任务既相互独立又形成完整的生产流程,提高工作效率,使得文字处理速度可达到每人班10-12万字,比手工录入的效率提高5-8倍。系统自动进行员工工作量计算、差错量监控,可将整体差错量控制在万分之二以内,从而达到了出版质量要求。
5) 对本套系统的监控、管理及日常维护,并定期生成安全日志
二、系统结构:
1、系统网络结构图:
1