第一个爬虫 Groovy + Jsoup(神器) 爬取知乎日报 - 代码天地

第一个爬虫 Groovy + Jsoup(神器) 爬取知乎日报

其他 2018-08-12 06:11:55 阅读次数: 0

1.分析页面结构

从上图分析页面结构，很明显，这是一个列表页，我们应该将详情页作为落地页

分析落地页，我们主要抓取内容和标题，但是在你实现的过程中可以发现，某些详情页是没有标题的。

思路：我们大致思路就是从抓取列表页的URL放入List中，然后进入详情页，将详情页作为落地页来抓取标题和文章内容

2.编码实现

import org.jsoup.Jsoup


//抓取列表页所有URL
def list = []
Jsoup.connect("http://daily.zhihu.com/").get().select("body > div.main-content > div > div.main-content-wrap > div > div > div > div > a").each {
    def url = it.attr("href")
    list.add("http://daily.zhihu.com"+url)
}

//遍历URL，抓取所需信息
list.each {it->
    def temp = Jsoup.connect(it).get()
    def title
    def text
    def url = it
    temp.each {
        title = temp.select("body > div.main-wrap.content-wrap > div.content-inner > div > h2").text()
        temp.select("body > div.main-wrap.content-wrap > div.content-inner > div > div > div.content > p").each {details->
            text += details.text()
        }
    }
    println "url:$url"
    println "title:$title"
    println "text:$text"
}

分析：

第一步，

Jsoup.connect(url).get().select(selector):选取列表中每个单项的选择器，得到<a>标签

遍历所有<a>标签，得到href属性，将其加入list

第二步，

遍历list，取到temp(Element类实例，查看Jsoup API可知)，遍历temp，根据相应的选择器，取得title，以及文本。

注意，这里的文本我们又进行了一次遍历，因为落地页上的文本内容是很多个<p>标签，我们需要取到所有<p>标签文本值。

3.结果

有些地方没有解释太清楚，见谅！

猜你喜欢

转载自blog.csdn.net/VP_19951105/article/details/72876234

第一个爬虫 Groovy + Jsoup(神器) 爬取知乎日报

爬虫爬取知乎的话题

Python爬虫--爬取知乎

Python爬取知乎文章（一）

一个简单的蟒蛇爬取知乎

IntelliJ IDEA创建第一个Groovy工程

groovy爬虫爬取城市历史天气数据

Java爬虫html解析神器Jsoup

java---网络爬虫爬取知乎图片

Python爬虫对知乎问题下的图片进行爬取

pyspider爬虫爬取知乎的话题

爬虫---Beautiful Soup 爬取知乎热榜

python爬虫7---爬取知乎文章

Python爬虫系列（四）：爬取腾讯新闻&知乎

python小爬虫，爬取文章（知乎专栏）片段

爬取每则知乎日报

Jsoup-简单爬取知乎推荐页面（附：get_agent()）

第一个爬虫，爬取腾讯课堂课名列表

第一个爬虫：爬取壁纸图片并自动分类存储

小菜鸟的第一个爬虫：豆瓣爬取电影信息

第一个python爬虫示例——爬取天气信息

第一个爬虫：爬取古诗中带有“月”字的诗句

爬虫：Scrapy爬取第一个网页实例解析

第一个爬虫——豆瓣新书信息爬取

第一个python网络爬虫-爬取图片

基于IntelliJ IDEA创建第一个Groovy工程

人生第一个java脚本-jsoup实例

python爬虫实战（一）--爬取知乎话题图片

使用Jsoup爬虫爬取相关图片

java爬虫——HttpClient爬取jsoup解析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)