java爬虫入门——从一个网页抓取源码 - 代码天地

java爬虫入门——从一个网页抓取源码

其他 2018-12-12 14:02:03 阅读次数: 0

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

class Test{
	public static void main(String[] args) {
		 try {
             URL url=new URL("http://www.baidu.com/");//定义一个网址
             BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream()));//从网站上读取源代码到缓存容器中
             BufferedWriter writer=new BufferedWriter(new FileWriter("index.html"));//定义一个缓存写入对象，用于向文件中写入源码
             String line;
             while((line=reader.readLine())!=null){//一行一行地循环向文件中写入源码并打印到控制台
                 System.out.println(line);
                 writer.write(line);
                 writer.newLine();
             }
             reader.close();
             writer.close();
         } catch (MalformedURLException e) {
             e.printStackTrace();
         } catch (IOException e) {
             e.printStackTrace();
         }

	}	
}

我们可以通过改变源码中的网址任意抓取网页中的html源码到我们定义的index.html文件中，注意，这个文件存储的是相对路径，应该是在你项目的根目录中，我们直接打开这个html文件，发现除了css样式和js效果无法实现之外，剩余的html结构和原网页的一模一样。

猜你喜欢

转载自blog.csdn.net/qq_37856300/article/details/84340192

java爬虫入门——从一个网页抓取源码

Java抓取网页爬虫

一个简单的网页抓取工具

Python爬虫实战入门二：从一个简单的HTTP请求开始

Java8 Stream源码精讲（一）：从一个简单的例子入手

爬虫入门手写一个Java爬虫

作为一个Java初学者，怎样从一个新手快速入门？

Java爬虫实战（一）：抓取一个网站上的全部链接

从一个简单的命令阅读hadoop源码

如何设计一个网页爬虫

从一个小项目快速入门Scss

使用java实现一个简单的抓取安居客租房信息的爬虫

【使用JSOUP实现网络爬虫】从一个文件加载一个文档

【使用JSOUP实现网络爬虫】从一个URL加载一个Document

从一个实例看 Java 类加载机制

java算法-网络爬虫抓取网页并保存

python爬虫入门（一）——爬取整个网页的源码

爬虫用java实现一个简易爬取网页超链接的程序

springmvc中：从一个网页跳转到另一个网页中，中间使用一个controller

Python3学习(34)--简单网页内容抓取（爬虫入门一）

Webpack入门之一：从一个简单例子入门

Python爬虫基础学习，从一个小案例来学习xpath匹配方法

从一个爬虫的角度看长生生物问题疫苗事件

转：爬虫入门手写一个Java爬虫

一个完整的爬虫入门程序

java从一个目录拷贝文件到另一个目录下

Java如何从一个页面跳转到另一个页面

爬虫抓取网页图片

Python：使用爬虫抓取网页中的视频并下载（完整源码）

mybatis一级缓存源码解读，从一个bug开始

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)