nutch LinkDb invert 详解 - 代码天地

nutch LinkDb invert 详解

企业开发 2018-05-14 16:06:11 阅读次数: 2

LinkDb

map :LinkDb
    输入目录为segments目录里面所有segment下面的parse_data目录
    1 首先对key：url 如果配置filter和normalize 则进行filter和normalize
    2 如果url不为空则分析他的外链，db.ignore.internal.links配置为true，如果源链接和外链都是同一个host name 则忽略
    3 如果配置filter和normalize ，对外链进行，则进行filter和normalize
    4 写入，key:外链的url，value：源url

reduce LinkDbMerger key：Text url value:Inlinks，入链
     1   合并相同的key的value.为list 这里有个db.max.inlinks这个配置最大的外链数目，如果超过这个，则其余的抛弃。
      2 写入输出目录为    Path newLinkDb =
      new Path("linkdb-" +
               Integer.toString(new Random().nextInt(Integer.MAX_VALUE)));


如果存在linkdb则需要合并
合并的job：createMergeJob
map :LinkDbFilter 输入目录上个job的输出，linkdb/current
     1 首先对key：url 如果配置filter和normalize 则进行filter和normalize
     2 如果key 不为空，遍历value,对每个value 也是url，如果配置filter和normalize 则进行filter和normalize ，如果不为空加入Inlinks，,如果Inlinks 不为空写入key:Text url,value:Inlinks

reduce： LinkDbMerger 同job1

LinkDb.install(job, linkDb); 替换原来的linkdb。如果linkdb/old 存在，则删除，把linkdb/current 重命名为linkdb/old ，把上个job的输出变成linkdb/current,删除linkdb/old
    linkdb/old

猜你喜欢

转载自chengqianl.iteye.com/blog/1597507

nutch LinkDb invert 详解

nutch fetcher详解

nutch SolrIndexer 详解

nutch crawdb update 详解

nutch inject 详解

nutch generator 详解

nutch1.2 index 详解

nutch

nutch1.2 DeleteDuplicates IndexMerger 详解

nutch笔记

书虫--Nutch

Nutch原理

nutch杂记

nutch使用

nutch SolrDeleteDuplicates

nutch入门

Nutch简介

nutch编译

nutch nutch-site.xml

Invert Binary Tree——Tree

Invert Binary Tree

invert.c

1102 Invert a Binary Tree

leetcode Invert Binary Tree

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

moviepy音视频剪辑：颜色相关变换函数blackwhite、colorx、fadein/out、gamma_corr、invert_colors、lum_contrast、mask_color详解

Nutch爬虫环境搭建

Nutch入门白话版

Nutch中MapReduce的分析

nutch 集成 hbase

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

事务隔离级及脏读、幻读和不可重复读

rtos：zephyr同步信号量

把对象转换为JSON格式的数据

iOS Dev (56) iTunes Store 销售日报更新时间

Failed to start mongod.service: Unit not found;mongodb in unbuntu

Upgrading PHP on CentOS 6.5 (Final)

（四）王道机试指南___排版问题

TensorFlow之手写体识别

xcode xib报错 Safe Area Layout Guide Before IOS 9.0

【LeetCode】76. Minimum Window Substring（C++）

每日归档

更多

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)