Java 基于WebMagic 开发的网络爬虫 - 代码天地

Java 基于WebMagic 开发的网络爬虫

其他 2018-07-11 15:14:44 阅读次数: 0

第一次接触爬虫，之所以选择WebMagic，是因为文档齐全、用法简单、而且框架一直在维护。

WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic，我们可以快速开发出一个高效、易维护的爬虫。

官网地址：http://webmagic.io/

官方文档：http://webmagic.io/docs/zh/

文档写的很详细，重头到尾看一遍，编写简单的爬虫基本上没有任何问题了（如果不行，那就看两遍）。

我这里就不在讲解怎么使用了（讲解的没有官网详细，甚至可能讲错）。这里我放两个我写的小工具。简单的网站可以用它直接抓取。

上图

抓取地址：是我们的起始网页。

列表规则（正则表达式）：存放具体页面链接的列表页面

页面规则（正则表达式）：我们要抓取的具体页面

抓取内容（Xpath）：我们要抓取的具体内容，其中"<jschrj>" 为每个字段的分隔符，“<lyf>”是字段显示的名称和内容的分隔符。

存放地址：爬取下来的文件存放的位置。

线程数：开启多少个线程爬取（没有用代理，所以线程开多了，IP容易被网站封杀）。

下面的文本框为控制台，用来输出爬取的详细信息。

工具下载地址：https://download.csdn.net/download/lyfzxf/10533865。

源码下载地址：https://download.csdn.net/download/lyfzxf/10533892。

猜你喜欢

转载自www.cnblogs.com/Jett/p/9292801.html

Java 基于WebMagic 开发的网络爬虫

基于java的爬虫框架webmagic基本使用

基于webmagic爬虫的简单编写

学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面

Java爬虫框架--WebMagic

java 爬虫 WebMagic（一）

Java爬虫框架WebMagic

基于Webmagic框架的爬虫小Demo

Java爬虫框架之WebMagic

Java爬虫框架——WebMagic入门

[Java爬虫-WebMagic]-01-初识爬虫框架WebMagic

【java爬虫】---爬虫+基于接口的网络爬虫

WebMagic写的网络爬虫

webMagic网络爬虫

网络爬虫框架Webmagic

基于WebMagic写的一个csdn博客小爬虫

Java爬虫框架WebMagic的使用总结

JAVA开源爬虫 WebMagic 与 WebCollector 之间比较

（11）Java爬虫框架webmagic实战

（10）Java爬虫框架webmagic学习笔记

【java爬虫】利用webmagic框架实战demo

【WebMagic】Java 爬虫框架初实践

webmagic爬虫

webmagic 爬虫

用webmagic实现的网络爬虫

网络爬虫2之WebMagic

Java实现网络爬虫案例代码3：使用webmagic框架获取天气预报

java 爬虫学习笔记一使用爬虫框架 WebMagic

Java网页爬虫：Spring Boot通过webmagic实现网页爬虫

java爬虫WebMagic框架爬取小姐姐的图片

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)