垂直搜索引擎行业应用技术探讨

在简单过滤之后,选择研究apache nutch来进行数据爬取。

在深入了解和学习之后,发现
Nutch 实现网页爬取,通过plugin机制可以自定义相应的规则和数据处理逻辑,结合hadoop实现数据的分布式存储。

nutch可以定制,针对不同的数据源实现特定的爬取和数据分析规则。但如何实现nutch的分布式,比如多机部署?还是单机?如何提高nutch的爬取速度?

nutch爬取下来的数据可以存放在hadoop里,通过建立索引命令可以让solr来为数据进行索引。但是存在一个问题,solr建立的索引是存放在solr配置的目录里的,可是这样不就存在数据冗余存放的问题吗?这里有一篇文章  solr是如何存储索引的  http://p-x1984.iteye.com/blog/1149980 

通过solr搜索后如何建立搜索结果数据和nutch爬取后存放在hadoop中的数据的关联?比如通过nutch爬取网页信息后,可以通过设置solr中schema.xml 来对content字段进行存储和索引,content存放的是网页爬取下来的内容信息。如果通过设置,将scheme中定义的所有字段都进行存储和索引,那么nutch存储的数据是不是就没有用处可以删除了呢? 


对于获取到的数据,除了提供查询搜索功能外,还有很多值得挖掘的信息,那如何有效的对数据进行挖掘? mahout ?

大家对Nutch+hadoop+solr的行业应用前景如何看?







猜你喜欢

转载自tjc.iteye.com/blog/1555456