这个搜索引擎的主要特点是:
- · 基于分布式的高性能文件搜索引
- · 支持的文件总大小可达到数百TB(数万GB)
- · 单个文件的大小可达数百GB
- · 支持的文件数量可超过数千万个
- · 支持的文件格式超过数千种,常见的文件格式如MS-Office,PDF,图片,视频...
- · 支持OCR(光学字符识别)
- · 多语言支持,如英语、汉语、阿拉伯语、俄语、日语等
- · 支持中文的自定义分词
- · 界面非常友好,功能强大
- · 基于文件夹的增强的安全管理
- · RESTful API接口,使软件程序员可以将该引擎嵌入到其他应用程序中。
软件的下载安装详见http://www.enpknowledge.com/getStarted.html。最简演示版本见http://www.enpknowledge.com:18888/filesearch/,这是一个石油勘探开发行业的一些网络爬取的一些资料。
这个内部搜索引擎非常适合积累了大量文档和技术资料的中小型公司,特别是国外中小型公司,我们可以帮他们快速找到存在文件服务器或个人计算机上的文档。在此基础上,我们正在开发文本挖掘功能,帮助客户把非结构化及半结构化的数据转换成为结构化数据,并进行统计分析和图形展示。我们在石油勘探开发行业已经积累了丰富经验,现准备先在石油行业打开销路,然后在移植到其他行业。欢迎有志之士加盟合作。