WebCollector爬虫学习记录（一） - 代码天地

WebCollector爬虫学习记录（一）

编程语言 2018-05-09 22:24:26 阅读次数: 1

一、爬取国际石油网知识板块

要爬取的网站为：http://oil.in-en.com/zhishi/

网站结构比较标准，新闻列表页单一且包含href链接，下一页链接等信息

1.1 添加种子

	}else if (crawler.webMoudle == 38) {
			if (crawler.mk.equals("Sybk")) {
				/* 起始页 */
				crawler.addSeed("http://oil.in-en.com/zhishi/");
				crawler.addRegex("http://oil.in-en.com/html/oil.*");
			}	
		}

1.2 visit覆写

先提取列表页的Elements，他的class为”clist sborder“
过滤其中的a[href]，如果包含"http://oil.in-en.com/html/oil"就加入清洗和入库
如果indexOf("下一页")就next.add(href);，即将此链接设置为下一页的种子

else if (this.webMoudle == 38) {
				Elements pageHaveClass = page.select("div[class]");
				for (Iterator it = pageHaveClass.iterator(); it.hasNext();) {
					Element pageSelectedClass = (Element) it.next();
					String classAttr = pageSelectedClass.attr("class");
					if (classAttr.equals("clist sborder")) {
						Elements es = pageSelectedClass.select("a[href]");
						for (Iterator itHref = es.iterator(); itHref.hasNext();) {
							Element e = (Element) itHref.next();
							String href = e.attr("abs:href");
							if (e.text().indexOf("下一页") >= 0) {
								next.add(href);
							}
							if (href.indexOf("http://oil.in-en.com/html/oil") != -1) {

								String title = e.text();
								datebaseByContentExtractor(href, title);
							}
						}
					}
				}
			}

清洗、时间条件过滤、关键词过滤和入库的过程此处省略

在过滤class="clist sborder"的步骤好像麻烦了，但是jsoup的css选择器对于属性中间有空格的解决方法这边不是很了解，也没有查到，看下面可不可以解决。

猜你喜欢

转载自libohan-life.iteye.com/blog/2361549

WebCollector爬虫学习记录（一）

JAVA爬虫 WebCollector

基于Java的爬虫框架WebCollector

爬虫学习记录（一）————Request库爬虫

JAVA开源爬虫 WebMagic 与 WebCollector 之间比较

webcollector 爬虫框架使用说明

记录小白学习python爬虫的过程（一）

JAVA网络爬虫WebCollector深度解析——爬虫内核

WebCollector学习笔记（二）jsoup的小记

python爬虫学习记录

简单爬虫学习记录

『爬虫』学习记录

学习爬虫记录

爬虫学习记录

java爬虫学习记录

爬虫学习记录 ----持续更新

莫烦爬虫学习记录

记录自己python爬虫的学习

python爬虫学习过程记录

Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1

Python爬虫学习（一）

网络爬虫学习（一）

学习爬虫（一）

python 爬虫学习（一）

爬虫学习（一）

Python爬虫学习一

《爬虫学习》（一）

# 爬虫快速学习（一）

爬虫学习总结一

python爬虫学习(一)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)