Java抓取URL指定的HTML内容 - 代码天地

Java抓取URL指定的HTML内容

编程语言 2018-05-12 17:50:52 阅读次数: 0

通过Java获取到URL指定的内容，如果有目标数据可以再写代码解析获取到的内容

package com.boonya;
import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Scanner;

public class WebCapturer {
	
	/**
	 * 根据用户获取的网络地址获取该网页的内容
	 * @param myURL  地址
	 *    如："http://www.google.com.hk/search?q=biao"
	 * @return
	 */
	@SuppressWarnings("resource")
	public static String getHtmlByURL(String myURL){
		URL url=null;
		String htmlContext="";
		try {
			url = new URL(myURL);
			HttpURLConnection conn;
			try {
				conn = (HttpURLConnection) url.openConnection();
				conn.setRequestProperty("User-Agent", // 很重要
						"Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) "
								+ " Gecko/20090803 Fedora/3.5.2-2.fc11 Firefox/3.5.2");
				conn.setRequestMethod("GET");
				Scanner scanner = new Scanner(conn.getInputStream());
				while (scanner.hasNextLine()) {
					htmlContext+=scanner.nextLine();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
		} catch (MalformedURLException e) {
			e.printStackTrace();
		}
		return htmlContext;
		
	}

	public static void main(String[] args) throws Exception {
		System.out.println(WebCapturer.getHtmlByURL("http://www.google.com.hk/search?q=biao"));
	}
}

猜你喜欢

转载自boonya.iteye.com/blog/1870520

Java抓取URL指定的HTML内容

java中根据url抓取html页面内容的方法

Java获取指定URL页面内容

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

Java网络爬虫-2 抓取指定URL网页数据以及解析

使用HtmlAgilityPack抓取html标签属性内容

C#抓取网页HTML内容

BeautifulSoup抓取html内容并输出Markdown

通过url抓取第三方的内容

JAVA爬虫抓取页面的URL数据

PHP抓取网页指定内容（推荐用CURL效率更高）

Java 通过url获取网页内容、生成文件、生成图片（html2image方式）

java读取url字符内容

Java从URL获取PDF内容

python抓取网络图片保存到本地，通过url抓取文章的标题，通过链接地址，抓取内容数据

Java 指定宽度内容居中

Android之博客案例及获取指定URL的网页内容

avascript怎么获取指定url网页中的内容

java替换指定url里的参数值

Java 从网页指定URL获取文件

java解决限制访问指定url

JAVA 获取 URL 指定参数的值

Java 从指定URL下载文件并保存到指定目录

实验：用Unity抓取指定url网页中的所有图片并下载保存

JAVA 通过URL 获取页面内容

java获取请求url中的内容

JAVA翻译HTML网页内容

PHP与HTML结合，在URL里显示表单内容

妹子图url抓取

java读取xml指定标签的内容

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)