nutch crawdb update 详解 - 代码天地

nutch crawdb update 详解

企业开发 2018-05-14 16:07:43 阅读次数: 2

crawdb update

map :CrawlDbFilter 这个map主要是用来合并数据的
        输入，fetch产生的segment目录下面的crawl_fetch 和crawl_parse 以及crawldb/current ,

    key:Text value:CrawlDatum
     如果设置了urlNormalizers=true 对url进行normalize
      如果设置了urlFiltering=true 对url进行过滤
       如果url不为空写入
       key : Text 为url value: CrawlDatum
reduce :CrawlDbReducer   主要是用来合并数据的状态的，去重复
       1 如果存在多个数据如果数据没有fetch的，去fetchtime最新的数据（没有fetch 也是有fetchtime的），如果数据已经fetch的，也是取fetchtime最新的数据。
        2 如果已经fetch 的，去的数据的签名，元数据，和外链
        3   db.update.additions.allowed 这里有个配置如果为false，则crawldb中不存在的url不update，如果为false，新的url插入crawldb。
        4 如果url没有fetch，说明是这个数据不需要update直接写入
        5 如果已经fetch，而且crawldb 也有数据，则把crawldb的数据的元数据，putfetch的数据的元数据里面
        6 根据状态设置相关的值
        7 设置分数，异常generatortime
       8 写入
   更新数据，主要是把job的输出目录设置为crawldb的current

猜你喜欢

转载自chengqianl.iteye.com/blog/1597256

nutch crawdb update 详解

nutch SolrIndexer 详解

nutch LinkDb invert 详解

nutch inject 详解

nutch fetcher详解

nutch generator 详解

nutch1.2 index 详解

nutch

nutch1.2 DeleteDuplicates IndexMerger 详解

Unity Update 详解

详解mysql的for update

update改数据详解

replace into 详解 update mysql

MySQL for update使用详解

mybatis 批量更新update详解

【转】Informatica Update 机制详解

Oracle for update [of column] | [nowait] 详解

Oracle for update skip locked 详解

Oracle Update Select用法详解

nutch笔记

书虫--Nutch

Nutch原理

nutch SolrDeleteDuplicates

nutch使用

nutch杂记

nutch入门

Nutch简介

nutch编译

nutch nutch-site.xml

详解mysql 锁表 for update (引擎/事务)

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)