jsoup抓取起点小说 - 代码天地

jsoup抓取起点小说

企业开发 2018-05-14 14:15:39 阅读次数: 3

public class JsoupQidian {
    public static void main(String[] args){

        try {
            //直接加载url
            Document docs = Jsoup.connect("http://www.qidian.com/BookReader/2372415.aspx").get();

            //获得body
            Element body=docs.body();

            //通过类jquery 选择器选中html元素
            Elements ls= body.getElementsByTag("a");//select(".grid_3:contains(ActiveMQ) ");
            // 遍历元素
             for (Element el :ls){
                   String title=el.attr("title");
                  if(title != null && title.startsWith("字数：")){
                     System.out.println("http://www.qidian.com/"+el.attr("href"));
                      try {
                          Thread.sleep(5000);
                      } catch (InterruptedException e) {
                          e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates.
                      }
                      Document temdoc = Jsoup.connect("http://www.qidian.com/"+el.attr("href")).get();
                          System.out.println(temdoc.body().text());
                  }
             }
        } catch (IOException e) {
            e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates.
        }
    }
}

程序是没问题的，但是起点做了防抓取检测，明天我会尝试结合httpclient抓取起点内容

猜你喜欢

转载自liuzejian4.iteye.com/blog/1627673

jsoup抓取起点小说

Python + Scrapy抓取起点限免小说

抓取起点中文网小说

基于java的Jsoup爬取起点小说（暂时只能爬取一本）

JsoupSample,使用 Jsoup 抓网页，项目抓取了小说，图片，影视几个网站的信息

Jsoup抓取图片

爬起点免费小说

爬取起点小说信息

python爬取起点小说

利用jsoup抓取新浪天气

jsoup抓取网页报错UnsupportedMimeTypeException

起点小说网实时采集【代码】

Python爬取起点小说并写入文档

Web前端大作业起点小说页面

python爬虫，爬起点小说网小说

jsoup网页内容抓取分析(2)

使用Jsoup登录网站抓取网页内容

Jsoup网页内容抓取分析(1)

使用java jsoup抓取页面中的数据

使用Jsoup 抓取页面的数据

使用HttpClient和Jsoup定向抓取数据

httpClient及jsoup抓取解析网页数据

Android 使用jsoup 进行数据抓取

jsoup技术抓取网页数据大全

java使用jsoup抓取网页图片

用Jsoup Splider 抓取豆瓣书籍信息

java 利用jsoup进行网页图片抓取

使用scrapy爬虫,爬取起点小说网的案例

python爬虫——爬起点中文网小说

爬取起点小说总排行榜

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)