我们在解析HTML 或者爬取网页信息时,一般使用htmlparser,可惜这个有好多硬伤,或者使用htmlcleaner来解析,爬取网页,除了这些其实我们还有其他好的选择,过滤html标签时我们常常需要写大量的正则表达式,这对于一个基本程序员来说是个头痛的问题。下面来看看Jsoup的基本使用:
public static void htmlTrimToTxt(){ String html = "<p> asdasdasda</p><p>\n\r\tdd</p>你好,我是来自<a href='http://www.iteye.com/' target='_blank'>社区</a>的灌水大王。"; String unsafe = "\r\n<h1>哈哈</h1><b>sdds< /b><code>34433434</code><img src='http://i.jpg'></img><p><a href='http://example.com/' onclick='stealCookies()'>Link</a></p>"; Whitelist whiteList=new Whitelist(); String safe = Jsoup.clean(unsafe, Whitelist.basicWithImages()); //定义白名单,留下一些标签 System.out.println(safe); System.out.println(Jsoup.parse(html).text()); //全部过滤 1. }