Nutch系列1：简介 - 代码天地

Nutch系列1：简介

其他 2018-07-28 20:41:32 阅读次数: 0

由Java实现的，开放源代码(open-source)的web搜索引擎。

Nutch 致力于让每个人都能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作

Nutch主要分为两个部分:爬虫crawler和查询searcher。

Crawler主要用于从网络上抓取网页并为这些网页建立索引。

Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。

Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上，例如将Crawler和Searcher分别放在两个主机上，这样可以提升性能。

Nutch是基于Lucene的。

那么我们应该使用Lucene还是Nutch呢？

最简单的回答是：如果你不需要抓取数据的话，应该使用Lucene。

比如你有数据源，需要为这些数据提供一个搜索页面。在这种情况下，最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。

而当你没有本地数据源，或者数据源非常分散的情况下，应该使用Nutch。

艺搜参考

http://nutch.apache.org/

http://baike.so.com/doc/5108365.html

猜你喜欢

转载自blog.csdn.net/elesos/article/details/81113531

Nutch系列1：简介

Nutch简介

Gradle入门系列（1）：简介

Django 系列1：Django简介

MongoDB系列1之简介

nutch源码阅读(1)-Crawl

nutch 中的trie tree 算法简介

nutch

Mybatis学习系列(1) –– 入门简介

NumPy系列: 1.NumPy简介

python课程系列（一.1、python简介）

Cesium 系列1 - 简介及源码下载发布

时间序列(time series)系列1—简介

File GeoDatabase API系列1——简介

Android Binder系列之IPC简介（1）

Python系列1-Python简介

1.Hive系列之简介

1.OpenResty系列之入门简介

小程序系列课程之1小程序简介

机器学习开源框架系列：Torch：1：简介与安装

jQuery EasyUI系列 1:jQuery EasyUI的简介和使用

《深入探究C语言》系列——1.专题简介

爬虫系列之第1章-简介&requests模块

数据结构与算法系列1--简介

xilinx 7系列FPGA时钟篇 (1)_时钟结构简介

强化学习系列1：强化学习简介

Java GC系列（1）：Java垃圾回收简介

操作系统系列(1)：操作系统简介

java系列之 - 基础篇（1）- java简介

浅谈java虚拟机|系列1|架构简介

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)