一、jsoup
抽取信息的时候用到了jsoup。下面简单记录下jsoup的使用心得
http://www.open-open.com/jsoup/selector-syntax.htm
1.1 jsoup选择器
标签指定id
<div class="list_left"> <div id="content"> 正文部分正文部分正文部分正文部分 </div> </div>
方法为:
Elements eContent = doucument.select("div.list_left").select("div#content"); String content = eContent.text();抽取的class属性有空格存在
例如想抽取:
<div class="list_left"> <div class="clist sborder" > 新闻列表新闻列表新闻列表新闻列表新闻列表新闻列表 </div> </div>则可以通过将空格处拆分成两个select的方式进行,这里参考了这篇博文: http://blog.csdn.net/qew110123/article/details/52795204 具体的实现代码就变成了:
Elements pageHaveClass = page.select("div.list_left").select(".clist").select(".sborder");