如何读取gzip压缩网页 - 代码天地

如何读取gzip压缩网页

编程语言 2018-05-14 07:56:03 阅读次数: 1

最近在抓取搜狐的时候发现下载下来的页面都是乱码，开始以为是解码出了问题可是查找半天无果，很是郁闷。返回的状态码是200，怎么都是乱码呢？难道是页面做了加密？
其实这是搜狐为了加快网页加载速度对页面做了压缩。哎，我out了~~~~

下面来解决这个问题吧~~~
1.如何判断页面是否是压缩的
URLConnection hc = null;
hc.getHeaderField("Content-Encoding") 如果得到的是 gzip则说明页面做了压缩
2.对页面压缩/解压的方法


         /** 
	 * @param source
	 *            源文件
	 * @param target
	 *            目标文件
	 */
	public static void unGZipFile(File source, String target) throws Exception { // 解压文件
		FileInputStream fin = new FileInputStream(source); // 得以文件输入流
		GZIPInputStream gzin = new GZIPInputStream(fin); // 得到压缩输入流
		FileOutputStream fout = new FileOutputStream(target); // 得到文件输出流
		byte[] buf = new byte[1024]; // 缓冲区大小
		int num;
		while ((num = gzin.read(buf, 0, buf.length)) != -1)
		{ // 如果文件未读完
			fout.write(buf, 0, num); // 写入缓冲数据到输出流
		}
		gzin.close(); // 关闭压缩输入流
		fout.close(); // 关闭文件输出流
		fin.close(); // 关闭文件输入流
	}

	/**
	 * gzip压缩文件
	 * 
	 * @param source
	 *            源文件
	 * @param target
	 *            压缩后文件.mms格式
	 * @throws Exception
	 */
	public static void gZipFile(File source, File target) throws Exception {
		FileInputStream fin = new FileInputStream(source);
		BufferedOutputStream out = new BufferedOutputStream(new GZIPOutputStream(
				new FileOutputStream(target)));
		int c = -1;
		while ((c = fin.read()) != -1)
		{
			out.write(c);
		}
		fin.close();
		out.close();
	}

找到原因，问题很容易就被解决了！

猜你喜欢

转载自wangwei3.iteye.com/blog/828968

如何读取gzip压缩网页

使用PHP读取远程gzip压缩网页的方法

网页gzip压缩检测

Tomcat 开启GZIP压缩网页

C#使用GZIP解压缩完整读取网页内容

直接爬取gzip压缩过的网页，用decode（“utf-8“）无法读取html文档

vue如何开启gzip压缩

使用GZIP压缩网页内容（一）

nginx开启gzip网页资源压缩

网页压缩--gzip和deflate的区别

Nginx开启gzip网页传输压缩配置

阿里云服务器如何启用网页gzip压缩功能

网站SEO之网页压缩nginx gzip压缩

tomcat如何使用Gzip对静态文件压缩

如何启用IIS的Gzip压缩功能

如何查看页面是否开启gzip压缩

如何查看页面是否开启了gzip压缩

如何使用GZIP压缩优化您的网站

gzip压缩

Apache开启Gzip压缩技术，加快网页访问速度

网页内容若使用gzip压缩--获得页面源码

解决下载经过GZip压缩后的网页乱码问题

Nginx部署使用gzip压缩的Unity网页WebGL

JS GZIP压缩，GZIP解压

网页数据压缩(python deflate gzip)，解压缩

Nginx学习笔记（七）——配置Nginx实现Gzip网页压缩、图片压缩

如何整站开启php zlib(gzip)压缩输出

如何在 apache 中开启 gzip 压缩服务

vue 进行 gzip压缩和服务器如何开启gzip

vue 进行 gzip压缩和服务器如何开启gzip（转）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)