| IRAS 易瑞系列 | 产品中心 » IRAS 易瑞系列 » IFC易瑞网络归档平台系统 |
IFC易瑞网络归档平台系统
IFC IRAS Web Archive Platform System(WAP)
WAP是采用网络Spider技术、调度与负载均衡技术、并行调度与队列管理、元数据仓储技术、海量数据存储与分布式存储技术、并行检索与分布式检索技术、文本挖掘与分类、聚合技术等成熟的信息技术作为应用核心,实现对网络资源的保存、归档和网上服务。
系统架构
功能特点
1) 采集管理
基于用户设定的互联网对象,根据用户创建的任务,从互联网爬取对应的资源、重写URL并进行存储。
- 编目管理
- 爬虫分布式管理
- 任务多机并行爬取
- 资源增量采集、断点续抓
- 爬虫任务统计,任务进度监控管理
2) 存储管理
基于长期保存标准与规范,采用数据库与文件目录的形式,存储爬取资源。
- 支持异构数据库存储
- 支持分布式并行存储
- 支持“接插式”存储与管理
- 支持数据库与文件目录相结合存储
- 支持网络存储和定期自动备份
- 支持存储节点容灾
- 支持hadoop海量存储
3) 发布管理
网络归档平台内的资源可以通过对象目录、时间目录、主题目录等形式展现存储的互联网信息,并对各对象进行原版原貌展现。
- 站点全文检索
- 多种目录形式资源导航
- 灵活自定义专题
- 对象原版原貌展现
4) 平台管理
功能使管理员可以在后台对用户权限、采集任务、数据库存储分配、采集主题等信息灵活的进行配置与管理。
5) 体系结构
可伸缩式三层架构:系统支持信息采集、存储、展现可伸缩式三层架构,信息采集和存储层支持热插拔。
适用单位
- 图情机构
- 政府机关、事业单位
- 企业单位
部署环境
- 服务器:CPU主频≥2.0G,内存≥2GB,磁盘安装空间≥1G;支持分布式部署;
- 操作系统:Windows、Linux、Unix
- 数据库:Mysql、Oracle、MS SQL Server、DB2等