nutch segment目录结构说明 - 代码天地

nutch segment目录结构说明

企业开发 2018-05-31 13:41:32 阅读次数: 0

content

包含下载页面的原始数，存储为map文件，格式是<url,Content>。为了展示缓存也页的视图，这里使用文件存储数据，因为Nutch需要对文件做快速随机的访问。

crawl_generate

它包含将要爬取的URL列表以及从CrawlDb取到的与这些URL页相关的当前状态信息，对应的顺序文件的格式<url,CrawlDatum>。这个数据采用顺序文件存储原因有二：第一，这些数据是按顺序逐个处理的；第二，map文件排序值的不变性不能满足我们的要求。我们需要尽量分散属于同一台主机的URL，以此减少每个目标主机的负载，这就意味着激烈信息基本上是随机排列的。

crawl_fetch

它包含数据爬取的状态信息，即爬取是否成功相应码是什么，等等。这个数据存储在map文件里，格式是<url,CrawlDatum>。

crawl_parse

每个成功爬取并解析的页面的出链接列表都保存在这里，因此Nutch通过学习新的URL可以扩展它的爬取前端页。

parse_date

解析过程中收集的元数据，其中还有页面的出链接(frontier)列表。这些信息对于建立反向图(入链接-ink)是相当关键的。

parse_text

页面的纯文本内容适合用Lucene进行索引。这些纯文本存储成map文件，格式是<url,ParseText>，因此要展示搜索结果列表的概要信息(摘要)的时候，Nutch可以快速地访问这些文件。

猜你喜欢

转载自peigang.iteye.com/blog/1149376

nutch segment目录结构说明

nutch

nutch配置文件调用说明

Nutch的文件目录所包含的内容

Nutch开源搜索引擎的crawl日志分析及工作目录说明

nutch笔记

书虫--Nutch

Nutch原理

nutch使用

nutch SolrDeleteDuplicates

nutch杂记

nutch入门

Nutch简介

nutch编译

nutch nutch-site.xml

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

Nutch爬虫环境搭建

Nutch入门白话版

[整理]Nutch的爬虫分析

Nutch2.1 in eclipse

nutch和solr安装

nutch eclipse 缺少的jar

Nutch中MapReduce的分析

nutch 集成 hbase

Nutch读取网页字段

Nutch 1.4 与 Eclipse 整合

nutch和solr集成

Nutch的发展历程

nutch crawler 解析下

nutch 安装配置运行

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)