企业数据爬虫项目（二） - 代码天地

企业数据爬虫项目（二）

其他 2018-10-20 06:21:11 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/sinat_15153911/article/details/82949165

企业数据爬虫项目（艳辉VIP项目）

第一天：下载解析网站页面
第二天：多线程定时启动爬虫

第一天：下载解析网站页面

第二天：多线程定时启动爬虫

一个爬虫项目，会涉及到数据存储，Queue队列，缓存使用，多线程爬取，定时任务爬取，解决频繁抓取IP被封问题，zookeeper分布式监控节点，邮件提醒等内容。
这里我们探讨其中两个问题，一是多线程，一是定时器。

// 固定线程池
	private ExecutorService newFixedThreadPool = Executors
			.newFixedThreadPool(Integer.parseInt(LoadPropertyUtil.getConfig("threadNum")));
newFixedThreadPool.execute(new Runnable() {

				public void run() {
					//业务。。。
				}
});

Java通过Executors提供四种线程池，分别为：
newCachedThreadPool创建一个可缓存线程池，如果线程池长度超过处理需要，可灵活回收空闲线程，若无可回收，则新建线程。
newFixedThreadPool 创建一个定长线程池，可控制线程最大并发数，超出的线程会在队列中等待。
newScheduledThreadPool 创建一个定长线程池，支持定时及周期性任务执行。
newSingleThreadExecutor 创建一个单线程化的线程池，它只会用唯一的工作线程来执行任务，保证所有任务按照指定顺序(FIFO, LIFO, 优先级)执行。

//获取默认调度器
			Scheduler defaultScheduler = StdSchedulerFactory.getDefaultScheduler();
			//开启调度器
			defaultScheduler.start();
			
			//被调度的任务
			JobDetail jobDetail = new JobDetail("url-job", Scheduler.DEFAULT_GROUP, AddUrlJob.class);
			//定时执行任务
//			CronTrigger trigger = new CronTrigger("url-job", Scheduler.DEFAULT_GROUP, "00 11 18 * * ?");
			CronTrigger trigger = new CronTrigger("url-job", Scheduler.DEFAULT_GROUP, "0/10 * * * * ?");
			//添加调度任务
			defaultScheduler.scheduleJob(jobDetail , trigger);

这里用了quartz定时，每10秒运行AddUrlClass类，即是将url添加到队列中，让爬虫爬取url地址的内容。

需要下载源码可点击艳学网

下载源码后，记住分享哟！

第一步：微信关注公众号艳学网！

第二步：关注后打开菜单“艳辉福利”——“java福利”，转发文章至朋友圈。

长按自动识别二维码，即可关注微信公众号“艳学网”
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/sinat_15153911/article/details/82949165

企业数据爬虫项目（二）

企业数据爬虫项目

python爬虫---实现项目(二) 分析Ajax请求抓取数据

爬虫项目案例讲解案例二：数据处理

【Python爬虫项目实战】Python爬虫二手房数据保存本地

爬虫(二)-创建项目&应用

2018企业大数据爬虫系统

爬虫项目案例讲解案例二：定位、爬虫、定位页面元素、分别定位、简单处理抓取数据（有总结）

爬虫入门二（数据解析）

企业级博客项目笔记(二)

大数据实战项目之新闻话题分析学习笔记（二）——企业项目案例需求分析

Python爬虫入门学习实战项目（二）

【python实现网络爬虫21】天眼查企业数据获取

大数据Storm企业项目教程视频

【Python爬虫项目实战】Python爬虫采集弹幕数据

python爬虫+数据可视化项目

大数据疫情监控项目（Ⅰ）—爬虫入门

Python爬虫（二）：爬虫获取数据保存到文件

爬虫基础(二)-----爬虫数据解析的三种方式

30天搞定大数据爬虫项目，数据爬虫、全文检索、数据可视化、爬虫项目监控

爬虫(二) 数据采集和解析

Python网络爬虫之数据解析（二）

Python网络爬虫实战(二)数据解析

爬虫-第二篇-数据解析

JAVA爬虫入门（二）Jsoup解析数据

二、Python爬虫-urllib库数据挖掘

爬虫获取二进制数据

我用python爬虫技术破解企业工商数据-天眼查爬虫-企信宝-分布式爬虫

《企业综合项目实战》综合实训（二）

网络爬虫入门：网络爬虫的目的，企业获取数据的方式，可以用于做爬虫的程序语言，爬虫爬取数据的步骤

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)