百度百科多线程爬虫(Java)

其他 2018-12-03 17:40:02 阅读次数: 0

版权声明：本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处！ https://blog.csdn.net/huplion/article/details/80387915

BaiduBaikeSpider

百度百科多线程爬虫Java源码，数据存储采用了Oracle11g

简介

采用了MyEclipes作为集成开发环境，应该是兼容eclips

使用方法

下载此源码之后使用（导入或者 import）操作导入此项目

各个类介绍

HtmlDAO.java

主要是进行把爬虫爬回来的数据插入到数据库中的操作。

JdbcUtil.java

进行数据库的基础操作，获取一个连接操作，释放连接操作
如果要更改数据库需要修改的部分有：

private static String url ="jdbc:oracle:thin:@127.0.0.1:1521:xe";
private static String user = "BAIKE";
private static String password = "31415926";
Class.forName("oracle.jdbc.driver.OracleDriver");

另外别忘了导入数据库对应的Java驱动。

HttpRequest.java

执行HTTP请求的类，注意，并不支持HTTPS请求，如果要进行HTTPS请求，请使用 https://github.com/imu-hupeng/HttpsRequest/ 项目中的HttpsRequest.java

IdCreater.java

引入这个类的原因主要是百度百科使用的数字作为索引，好几个爬虫线程协同工作时要保证它们访问的索引即不重复也不丢失，因此需要一个线程同步的索引产生器。
可以在里面修改索引的起始值与结束值。

WebCrawler.java

实现爬虫功能。

Main.java

可以修改 THREAD_NUM 的值添加不同数目的爬虫数量。

附百科SQL文件322MB:https://github.com/imu-hupeng/BaiduBaikeSpider/releases/download/v1.0.0/BAIKE_HTML.sql

猜你喜欢

转载自blog.csdn.net/huplion/article/details/80387915

百度百科多线程爬虫(Java)

爬百度百科黄渤的爬虫

百度百科与维基百科

java.nio_百度百科

nginx 百度百科

Hibernate百度百科

struts百度百科

百度百科

Spring 百度百科

pthread百度百科

linux——百度百科

Hadoop 百度百科

百度百科：tmpfs

Unix——百度百科

接地_百度百科

DMA(百度百科)

Python爬虫(十八)_多线程糗事百科案例

糗事百科段子多线程爬虫

爬虫多线程案例：爬取糗事百科

Python 之糗事百科多线程爬虫案例

八、多线程爬虫之糗事百科案例

python爬虫-百度百科百名红通人员名单

python爬虫︱百度百科的requests请求、百度URL格式、网页保存、爬虫模块

简单的python爬虫（爬取百度百科词条）

python爬虫入门--爬取百度百科10000条记录

网络爬虫-通过百度百科查询行政区划代码

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

Python爬虫入门——百度百科词条数据

Python爬虫爬取百度百科词条

python 爬虫——针对query爬取百度百科页面

今日推荐

周排行

键盘回车事件

提升git clone的速度

JDK8系列之LongAdder解析

ajax+formData完成多图片回显上传

个税起征点上调至5000元，你能多拿多少钱？

Exploding Carbon Nanotubes Could Work as Drug-Bas power sensor ed Delivery Devices

南京邮电大学网络攻防训练平台逆向第四题WxyVM

HTTP状态码记录

报错Permission denied: user=root, access=EXECUTE, inode="/tmp/hadoop-root"解决办法

sublime编译c

每日归档

更多

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)