使用Java编写程序模拟浏览器，爬取防爬虫网站的信息 - 代码天地

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

其他 2020-01-20 18:24:17 阅读次数: 0

#源码

package com.sxt.location;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

/*
 * 
 *网络爬虫 +模拟浏览器
 *
 *作者：不忘初心
 * 
 */

public class SpiderTest01 {
	
	public static void main(String[] args) throws IOException {
		//获取URL
		URL url=new URL("https://www.dianping.com");
		//下载资源
		//InputStream is =url.openStream();
		
		HttpURLConnection   conn=(HttpURLConnection) url.openConnection();
		
		conn.setRequestMethod("GET");
		conn.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36");
		
		BufferedReader  br =new BufferedReader( new InputStreamReader(conn.getInputStream(),"UTF-8"));
		
		String msg=null;
		while(null!=(msg=br.readLine())) {
			System.out.println(msg);
			
		}
		
		br.close();
		
		//分析
		//处理
		
	}
          
}

##截取一部分爬取到的HTML文件

在这里插入图片描述

#参考文献
【1】java核心技术卷一
【2】裴新，java300集

不知道取个什么名字好

发布了4 篇原创文章 · 获赞 0 · 访问量 71

私信关注

猜你喜欢

转载自blog.csdn.net/qq_42849206/article/details/104046718

使用Java编写程序模拟浏览器，爬取防爬虫网站的信息

爬虫：模拟浏览器对网站内容进行爬取

反爬虫模拟浏览器——实现银行信息爬取

Python爬虫模拟浏览器的headers、cookie，爬取淘宝网商品信息

使用python利器selenium工具模拟浏览器运行并爬取淘宝商品信息

使用scrapy框架+模拟浏览器方法实现爬取智联的职位信息

网络爬虫开发(三)-爬虫基础——爬取前端渲染网站的注意事项 & 分析ajax请求并爬取（伪造header）-模拟真实浏览器的请求头

爬虫CASE01：反爬策略之使用随机user-agent模拟浏览器的网页爬取

模拟浏览器爬取

不用写代码的爬虫：使用chrome浏览器的爬虫插件Web Scraper爬取天猫商品信息

Java | 模拟网站服务器，使用浏览器访问自己编写的服务端程序，查看网页效果。

python爬虫之selenium模拟浏览器爬取淘宝美食

python爬虫+网页点击事件+selenium模拟浏览器，爬取选股宝内容

scrapy框架+selenium驱动谷歌浏览器爬取简书网站存入mysql的网站级爬虫

爬虫---------scrapy------浏览器爬取（）

spynner模拟浏览器爬取链接

python模拟浏览器爬取数据

scrapy模拟浏览器翻页爬取智联

简单的模拟浏览器爬取网页和图片

Python使用标准库urllib模拟浏览器爬取网页内容

通过selenium +headless浏览器爬取淘宝信息

使用scrapy框架,用模拟浏览器的方法爬取京东上面膜信息,并存入mysql,sqlite,mongodb数据库

selenium + Chrome 模拟浏览器爬淘宝信息

python爬虫 requests+lxml爬取前程无忧网之模拟浏览器登录

解决selenium模拟浏览器爬取（淘宝、微博等需要登陆验证的网站）多次登陆问题

Python爬虫入门5：模拟浏览器访问网站

初学html 之Editplus编写程序后浏览器打开显示乱码问题

爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息

Python爬虫入门3：使用google浏览器获取网站访问的http信息

Python爬虫入门4：使用IE浏览器获取网站访问的http信息

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)