分析360doc ICE系统三个层次处理流程图

2016-03-22 16:17:06

BAT日报讯:360doc ICE系统分为三个层次:信息采集器(数据采集)、信息智能加工引擎、信息检索引擎。 针对不同的数据格式,360doc ICE系统采用不同的手段与方式,将各数据孤岛的信息采集过来,用于资源平台的整合与使用。360doc网络爬虫可以完成对互联网信息的采集,文档信息采集器可完成对现有文档信息的采集,数据库连接器支持对于各种关系数据库的自动数据采集和加载入库。    

对采集来的信息,智能加工引擎可自动进行抽取关键词、生成摘要、文章关联、文章分类、文章聚类等一系列处理操作,配合360doc高精度检索引擎,用户可随时查询结果。

360doc技术特点

◆ 全自动化 从后台的信息采集、核心功能的提供,到前端用户个性化信息推送,都实现了完全的自动化。配置之后可以完全自动化地运行,完全不需要人工干预。 
◆ 处理信息的多元化 随着互联网的发展,我们周围充斥着越来越多的非结构化信息,仅靠数据库存储单一的结构化信息格式已无法满足我们的需求。有调查表明,当今有80%的企业运作都是建立在非结构化信息基础之上,传统的人工处理和分类方法已经无法满足要求。 360doc以完全自动化的方式处理、操作非结构化信息,可以处理的信息格式有: 微软Office文档,例如Word,Excel,PowerPoint等等; Adobe PDF文档; 各种文本文档,例如TXT,RTF,HTML,XML,EML等等; 各种数据库中的文本信息。
◆ 人与信息之间的互动 人与信息之间的互动是360doc技术最为突出的特点之一。 360doc 技术建立在对信息内容本身的概念理解之上,通过对内容的理解,主动的将相关信息进行匹配,在查找信息的同时,不光能够帮助用户找到所需要的信息,还可以将合适的信息自动推送给用户,这样用户不仅仅可以查找信息,信息也可以自动去匹配用户,真正实现了人与信息之间的互动。
◆ 高性能、高效率 360doc不光拥有一流的系统稳定性,其处理信息的效率也很高,单条信息的处理时间为毫秒级,即便你拥有海量信息,也能确保时时生成处理结果。


收藏 举报

延伸 · 阅读