import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
class Test{
public static void main(String[] args) {
try {
URL url=new URL("http://www.baidu.com/");//定义一个网址
BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream()));//从网站上读取源代码到缓存容器中
BufferedWriter writer=new BufferedWriter(new FileWriter("index.html"));//定义一个缓存写入对象,用于向文件中写入源码
String line;
while((line=reader.readLine())!=null){//一行一行地循环向文件中写入源码并打印到控制台
System.out.println(line);
writer.write(line);
writer.newLine();
}
reader.close();
writer.close();
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
我们可以通过改变源码中的网址任意抓取网页中的html源码到我们定义的index.html文件中,注意,这个文件存储的是相对路径,应该是在你项目的根目录中,我们直接打开这个html文件,发现除了css样式和js效果无法实现之外,剩余的html结构和原网页的一模一样。