垂直搜索引擎行业应用技术探讨 - 代码天地

垂直搜索引擎行业应用技术探讨

企业开发 2018-05-31 01:35:24 阅读次数: 0

在简单过滤之后，选择研究apache nutch来进行数据爬取。

在深入了解和学习之后，发现

Nutch 实现网页爬取，通过plugin机制可以自定义相应的规则和数据处理逻辑，结合hadoop实现数据的分布式存储。

nutch可以定制，针对不同的数据源实现特定的爬取和数据分析规则。但如何实现nutch的分布式，比如多机部署？还是单机？如何提高nutch的爬取速度？

nutch爬取下来的数据可以存放在hadoop里，通过建立索引命令可以让solr来为数据进行索引。但是存在一个问题，solr建立的索引是存放在solr配置的目录里的，可是这样不就存在数据冗余存放的问题吗？这里有一篇文章 solr是如何存储索引的 http://p-x1984.iteye.com/blog/1149980

通过solr搜索后如何建立搜索结果数据和nutch爬取后存放在hadoop中的数据的关联？比如通过nutch爬取网页信息后，可以通过设置solr中schema.xml 来对content字段进行存储和索引，content存放的是网页爬取下来的内容信息。如果通过设置，将scheme中定义的所有字段都进行存储和索引，那么nutch存储的数据是不是就没有用处可以删除了呢？

对于获取到的数据，除了提供查询搜索功能外，还有很多值得挖掘的信息，那如何有效的对数据进行挖掘？ mahout ？

大家对Nutch+hadoop+solr的行业应用前景如何看？

猜你喜欢

转载自tjc.iteye.com/blog/1555456

垂直搜索引擎行业应用技术探讨

行业垂直搜索引擎网页抓取项目

垂直搜索引擎概述

什么是垂直搜索引擎？

垂直搜索引擎深度分析

垂直搜索引擎的框架体系

垂直搜索引擎Sphinx

什么是垂直搜索-全面了解垂直搜索引擎

搜索引擎技术在仿冒网站检测中的应用

通用搜索引擎和垂直搜索引擎的区别

elasticsearch搜索引擎技术

阿里搜索引擎技术介绍

【ElasticSearch】搜索引擎的技术体系

搜索引擎的排序技术综述

搜索引擎技术原理

lucene搜索引擎简单应用

搜索引擎高级应用技巧

Solr搜索引擎的搭建与应用

机票垂直搜索引擎的性能优化

第2章垂直类搜索引擎

搜索引擎

搜索引擎中的爬虫和倒排索引技术

搜索引擎的原理以及倒排索引技术

商城首页搜索引擎之初见——solr技术的应用

搜索引擎的高级搜索法在爬虫的应用

《搜索引擎-应用、实践与应用》读书总结

搜索引擎核心技术原理

搜索引擎的认识误区与技术展望

搜索引擎技术二（帖子收藏）

Lucene于搜索引擎技术(Analysis包详解)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)