IRAS 易瑞系列 产品中心  »  IRAS 易瑞系列  »  IFC易瑞网络归档平台系统

IFC易瑞网络归档平台系统

IFC IRAS Web Archive Platform System(WAP)

 

WAP是采用网络Spider技术、调度与负载均衡技术、并行调度与队列管理、元数据仓储技术、海量数据存储与分布式存储技术、并行检索与分布式检索技术、文本挖掘与分类、聚合技术等成熟的信息技术作为应用核心,实现对网络资源的保存、归档和网上服务。

 

系统架构

 

功能特点
1)   采集管理
基于用户设定的互联网对象,根据用户创建的任务,从互联网爬取对应的资源、重写URL并进行存储。
  • 编目管理
  • 爬虫分布式管理
  • 任务多机并行爬取
  • 资源增量采集、断点续抓
  • 爬虫任务统计,任务进度监控管理
2)   存储管理
基于长期保存标准与规范,采用数据库与文件目录的形式,存储爬取资源。
  • 支持异构数据库存储
  • 支持分布式并行存储
  • 支持“接插式”存储与管理
  • 支持数据库与文件目录相结合存储
  • 支持网络存储和定期自动备份
  • 支持存储节点容灾
  • 支持hadoop海量存储
3)   发布管理
网络归档平台内的资源可以通过对象目录、时间目录、主题目录等形式展现存储的互联网信息,并对各对象进行原版原貌展现。
  • 站点全文检索
  • 多种目录形式资源导航
  • 灵活自定义专题
  • 对象原版原貌展现
4)   平台管理
功能使管理员可以在后台对用户权限、采集任务、数据库存储分配、采集主题等信息灵活的进行配置与管理。
5)   体系结构
可伸缩式三层架构:系统支持信息采集、存储、展现可伸缩式三层架构,信息采集和存储层支持热插拔。

 

适用单位
  • 图情机构
  • 政府机关、事业单位
  • 企业单位

 

部署环境
  • 服务器:CPU主频≥2.0G,内存≥2GB,磁盘安装空间≥1G;支持分布式部署;
  • 操作系统:Windows、Linux、Unix
  • 数据库:Mysql、Oracle、MS SQL Server、DB2等