1.系统概述
根据Delphi Group 2001的报告中指出,企业中有百分之八十的知识是以非结构化信息的形式存在,其中百分之八十表现为文本文件,知识管理必须从文件着手而文件分类是必经的步骤。文件分类若以手工来进行则可能有如下问题:成本高、速度慢、信息更新频率慢、客观性不足,分类效果一致性低、可调整性低。
深思公司对于上述问题提出可行的解决方案-”深思智能分类系统”。
深思智能分类系统,采用IBM中国研究中心独家授权的最新中文信息处理研究成果,集成强大的IBM中文分词软件,内置先进的SVM和KNN分类引擎,应用最新的统计学知识和语言学知识,准确率和召回率等各项技术指标都位居业界前列,自动分类准确率达到85%以上,能够满足大多数应用的实用需求。
2.主要特点
2.1强大的核心技术
中文语义理解 采用先进的中文自然语言理解与中文分词技术,依据中文语义内容实现自动分类。
高级分类算法 采用IBM世界领先的SVM分类算法和KNN分类算法实现分类引擎,具有极高的分类准确率和分类速度。
海量处理能力 采用多线程技术实现并行处理,可管理千万量级的海量文件集合,单日分类能力达十万篇以上。
多国语言支持 目前支持简体中文、繁体中文和英文。
2.2完整的信息整合
支持多种数据格式 支持常用格式文件的入库和检索,如TEXT, HTML, RTF, MS WORD,PDF等。
支持多种异质数据源 采用可选的信息整合工具,可以整合大部分企业信息数据源,包括关系型数据库,文件系统,网站、Notes文档库等。
2.3高效的自动分类
方便的图形管理界面 让管理者利用清楚易用、从操作流畅的图形界面,轻松的管理、维护分类目录。
专业的分类目录构建 可轻松建立、管理分类目录,并可对目录进行新增/删除/修改/移动等操作。
完整的分类训练流程 通过训练样本预先测试、调整,再上线运行,确保分类的精确性,同时可以设定训练样本、调整样本,测试样本等不同层次的训练材料。
精确的分类效果评估 提供开放/封闭等不同测试方法,完整记录测试结果,客观评估分类精确程度。
2.4柔性的分类方式
单一文件多重分类 可采用多重分类法则,同一份文件可被分类到不同分类法则的不同目录下。
虚拟目录多重归属 某一目录可归属多个上层目录之下,通过设定快捷方式,可以将单一目录虚拟连接到多个合适目录之下。
特殊规则自由定义 处理了依据单纯采用中文语义概念分类外,分类器更可提供规则设定,可依据特殊需求定义规则,也可将规则做为资料过滤条件。
2.5方便的系统管理
整合的单一界面 系统提供基于Web的用户使用界面和管理员界面,满足系统管理员和用户双重需求,可利用浏览器远程管理分类目录、用户权限并调整、加强分类结果。
完整的目录维护 提供完整的对分类目录进行新增、移动、修改、删除等管理维护
权限管理,可设定管理目录和单一文件使用权限,加强安全管理。
实时的文件管理 可以浏览每个目录分类结果,并实时进行移动、更名等调整。也可指定训练样本,强化分类质量。
强大的搜索服务 结合可选的中文全文检索引擎,用户可以配合关键字条件检索资料。
友好的在线帮助 提供友好的使用指南。
2.6灵活的开发接口
提供C API和 Javabeans组件。
2.7系统的开放性
支持与 DB2, Oracle等主流RDBMS无缝集成的领先方案。
支持各种Windows、AIX、Solaris、Linux等主流操作系统、支持各种Web应用服务器和Web服务器
3.应用环境
3.1硬件环境
要求硬件能运行AIX、Solaris、Linux、Windows NT或Windows 2000操作系统,内存大小建议为512M。
3.2软件系统
支持AIX、Linux、Solaris三种UNIX操作系统,Windows NT或Windows 2000操作系统。
本软件的运行另外需要关系型数据库(如DB2,Oracle,SQL Server等)和Java应用服务器(如Websphere,Weblogic等)的支持。
1