爬虫学习-------Jsoup简单方法测试

package com.ahuiby.main;

import java.io.IOException;


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Spider {
	
	public static void main (String[] args){
		try{
			Document document=Jsoup.connect("http://www.baidu.com/").get();
			//==========================================
			//直接抓取页面元素模块
			//==========================================
			//抓取文章title标签
			String title=document.title();
			//抓取文章text标签内容
			String text=document.text();
			//获取Html文件中的body元素
			Element body=document.body();
			//获取a标签
			Elements aArray=body.getElementsByTag("a");
			//类选择器
			Elements classArray=body.getElementsByClass("s_form");//此处为类名,截取的div的类名
			//获取属性
			Elements attributesArray=body.getElementsByAttribute("href");
			//获取子元素
			Elements children=body.children();
			//==========================================
			//选择器模块
			//==========================================
			Elements aSelect=document.select("a[href]");
			
			System.out.println("页面标题: "+title+"\n 页面内容: "+text+
					"\n body:\n"+ body);
			System.out.println("=================================================");
			
			System.out.println("所有a标签:\n"+aArray);
			System.out.println("=================================================");
			System.out.println("div:\n"+classArray);
			System.out.println("=================================================");
			System.out.println("href:\n"+attributesArray);
			System.out.println("=================================================");
			System.out.println("children:\n"+children);
			System.out.println("=================================================");
			System.out.println("aSelect:\n"+aSelect);
			
		}catch (IOException e){
			e.printStackTrace();
		}
		
	}

}

猜你喜欢

转载自ye-wolf.iteye.com/blog/2326044