JAVA爬虫抓取页面的URL数据 - 代码天地

JAVA爬虫抓取页面的URL数据

其他 2019-09-24 11:17:54 阅读次数: 0




在互联网发达的今天,程序员往往开发的过程中需要一些稳定的网站数据.这个时候往往有些接口数据会收费,为了方便开发.程序员会使用爬虫技术抓取数据.爬虫往往分几种:网页UR.L抓取,
根据接口抓取等等.下面介绍是根据URL抓取相应数据


 1 //抓取森林防火最新页面的URL
 2 public void getSlhz(){
 3   String strURL="http://wwww.forestry.gov.cn/Common/index/3563.html";
 4   URL url;
 5  
 6   try{
 7     url = new URL(strURL);
 8     HttpURLConnection httpConn=(HttpURLConnection)url.openConnection();
 9     InputStreamReader input=new InputStreamReader(httpConn.getInputStream(),"utf-8");
10 
11  BufferedReader buf= new BufferedReader(input);
12 
13  String line="";
14   StringBuilder conf=new StringBuilder();
15   while((line=buf.readLine()))!=null){
16     conf.append(line);
17   }
18     String buf=conf.toString();
19     int beginIx=buf.indexOf("<ul> <li class=\"cl\"><a href=\"">);
20     int endIx=buf.indexOf("/" title=\"\"");
21     String result=buf.substring(beginIx,endIx);
22     String resl="http://www.forestry.gov.cn"+result.split("href=\"")[1];
23   
24   System.out.println(resl);
25   }catch(Exception e){
26    e.printStackTrace();
27  
28   }
29  
30 }

猜你喜欢

转载自www.cnblogs.com/ComputerVip/p/11577214.html

JAVA爬虫抓取页面的URL数据

使用Jsoup 抓取页面的数据

爬虫（一）抓取百度页面的内容

爬虫[1]---页面分析及数据抓取

Java网络爬虫-2 抓取指定URL网页数据以及解析

egg学习-抓取数据并ejs渲染到页面的过程

java中根据url抓取html页面内容的方法

使用java jsoup抓取页面中的数据

java爬虫初试（1）【了解抓取页面是怎么回事】

Java实现网络爬虫：HttpClient抓取https协议页面

一个简单的python爬虫，抓取单个页面的图片

JAVA通过请求头获取发起请求页面的URL

java 如何遍历html页面的url连接

【2018.05】python/java Selenium 获取当前页面的URL，等待新的url页面出现

Java网络爬虫（十四）--多线程爬虫（抓取淘宝商品详情页URL）

Python爬虫抓取页面内容

Java抓取网页爬虫

steam爬虫数据抓取

爬虫（爬虫原理与数据抓取）

网页爬虫抓取URL简单实现

JAVA抓取页面图片

Python web 动态渲染页面的抓取

PHP抓取页面的几种方式

python爬虫<解决URL被重定向无法抓取到数据问题>

Java版假爬虫：CSDN博客数据抓取

python爬虫：抓取页面上的超链接

Java爬虫，信息抓取的实现

Nodejs实现爬虫抓取数据

【爬虫】Scrapy 抓取网站数据

爬虫（4）：抓取ajax数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)