转：JAVA超级简单的爬虫实例讲解 - 代码天地

转：JAVA超级简单的爬虫实例讲解

其他 2019-05-10 18:51:21 阅读次数: 0

爬取整个页面的数据，并进行有效的提取信息，注释都有就不废话了：

1

2

3

4

5

6

7

8

9

扫描二维码关注公众号，回复： 6193331 查看本文章

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

public class Reptile {

public static void main(String[] args) {

String url1=""; //传入你所要爬取的页面地址

InputStream is=null; //创建输入流用于读取流

BufferedReader br=null; //包装流,加快读取速度

StringBuffer html=new StringBuffer(); //用来保存读取页面的数据.

String temp=""; //创建临时字符串用于保存每一次读的一行数据，然后html调用append方法写入temp;

try {

URL url2 = new URL(url1); //获取URL;

is = url2.openStream(); //打开流，准备开始读取数据;

br= new BufferedReader(new InputStreamReader(is)); //将流包装成字符流，调用br.readLine()可以提高读取效率，每次读取一行;

while ((temp = br.readLine()) != null) {//读取数据,调用br.readLine()方法每次读取一行数据,并赋值给temp,如果没数据则值==null,跳出循环;

html.append(temp); //将temp的值追加给html,这里注意的时String跟StringBuffere的区别前者不是可变的后者是可变的;

}

//System.out.println(html); //打印出爬取页面的全部代码;

if(is!=null) //接下来是关闭流,防止资源的浪费;

{

is.close();

is=null;

}

Document doc=Jsoup.parse(html.toString()); //通过Jsoup解析页面,生成一个document对象;

Elements elements=doc.getElementsByClass("XX");//通过class的名字得到（即XX）,一个数组对象Elements里面有我们想要的数据,至于这个div的值呢你打开浏览器按下F12就知道了;

for (Element element:elements) {

System.out.println(element.text()); //打印出每一个节点的信息;你可以选择性的保留你想要的数据,一般都是获取个固定的索引;

}

} catch (MalformedURLException e) {

// TODO Auto-generated catch block

e.printStackTrace();

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

上一张自己爬取的图片，并用fusioncharts生成报表(一般抓取的是int类型的数据的话，生成报表可以很直观)

以上这篇JAVA超级简单的爬虫实例讲解就是小编分享给大家的全部内容了

猜你喜欢

转载自blog.csdn.net/wdr2003/article/details/89677952

转：JAVA超级简单的爬虫实例讲解

java爬虫详解及简单实例

openlaw爬虫超级详细讲解

vue-cli的构建+Vue的超级简单实例(转)

爬虫超级简单入门

Python 网络爬虫--关于简单的模拟登录实例讲解

用JAVA写一个超级简单的爬虫例子

转：利用Java编写简单的WebService实例

【转】java操作mongo简单实例

python爬虫简单实例

Python简单爬虫实例

简单爬虫实例

Scrapy爬虫简单实例

SQL SERVER 简单讲解（超级详细）

zookeeper 入门讲解实例转

ibatis入门实例讲解（转）

（转） Sqoop使用实例讲解

Scrapy简单入门及实例讲解

超级简单的python爬虫详细教程！！

Paxos协议超级详细解释+简单实例

超级简单入门vuex 小实例

Tibco中文件的创建，超级简单实例

转 spark简单实例

Python进阶(二十)-Python爬虫实例讲解

java爬虫的几个实例

scrapy爬虫框架简单实例

JAVA BufferedWriter简单讲解

JAVA 简单队列讲解

实例讲解：JAVA SOAP技术

Java异常处理实例讲解

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)