java爬虫入门——从一个网页抓取源码

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

class Test{
	public static void main(String[] args) {
		 try {
             URL url=new URL("http://www.baidu.com/");//定义一个网址
             BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream()));//从网站上读取源代码到缓存容器中
             BufferedWriter writer=new BufferedWriter(new FileWriter("index.html"));//定义一个缓存写入对象,用于向文件中写入源码
             String line;
             while((line=reader.readLine())!=null){//一行一行地循环向文件中写入源码并打印到控制台
                 System.out.println(line);
                 writer.write(line);
                 writer.newLine();
             }
             reader.close();
             writer.close();
         } catch (MalformedURLException e) {
             e.printStackTrace();
         } catch (IOException e) {
             e.printStackTrace();
         }

	}	
}

我们可以通过改变源码中的网址任意抓取网页中的html源码到我们定义的index.html文件中,注意,这个文件存储的是相对路径,应该是在你项目的根目录中,我们直接打开这个html文件,发现除了css样式和js效果无法实现之外,剩余的html结构和原网页的一模一样。

猜你喜欢

转载自blog.csdn.net/qq_37856300/article/details/84340192