爬取每则知乎日报 - 代码天地

爬取每则知乎日报

其他 2020-02-13 18:18:46 阅读次数: 0

#Python 3.5
#By A_lPha
#http://blog.csdn.net/a_lpha

from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
import re

URL = "http://daily.zhihu.com/"

def get_url(URL):
    bsobj = urlopen(URL)
    text = bsobj.read().decode("utf-8")
    return text

def get_reg(bsobj):
    html = str(bsobj)
    reg_url = re.compile(r'<a href="/story/(.*?)" class="link-button">')
    items = re.findall(reg_url, html)
    urls = []
    for item in items:
        urls.append("http://daily.zhihu.com/story/" + item)
    return urls

def get_contect(url):
    html = get_url(url)
    pattern = re.compile('<h1 class="headline-title">(.*?)</h1>')
    items = re.findall(pattern, html)
    print("**" + items[0] + "**")
    pass#需要写正则表达式获取正文内容


html = get_url(URL)
urls = get_reg(html)
for url in urls:
    try:
        get_contect(url)
    except:
        print("出错了")
        break

这是一个爬取知乎日报文章的脚本，算是半成品吧，因为这个脚本的最终目的是通过首页的URL获取每篇文章的URL然后在解析标题和正文内容，没错，还是得用到正则表达式。现在的功力用正则判断标题没问题，但是用来提取正文内容还是差点。不过这段代码的思路很重要。就是通过URL进入另一个URL并找出相关信息，当时这个问题还是困扰我一段时间的。现在解决了。

发布了72 篇原创文章 · 获赞 42 · 访问量 39万+

私信关注

猜你喜欢

转载自blog.csdn.net/A_lPha/article/details/54577099

爬取每则知乎日报

知乎live爬取

scrapy爬取知乎

第一个爬虫 Groovy + Jsoup(神器) 爬取知乎日报

Scrapy 爬取知乎用户信息

爬虫爬取知乎的话题

Scrapy爬取知乎用户信息

知乎问题图片爬取

pyquery爬取知乎发现

知乎用户爬取学习

Python爬虫--爬取知乎

Scrapy框架：爬取知乎

Python爬取知乎上的图片

Python爬取知乎文章（一）

scrapy爬取知乎问答

基于 webmagic 的知乎爬取[GitHub]

简单爬取知乎网的问答

python 爬取知乎图片

用python爬取知乎问答

知乎问答图片爬取

爬取知乎用户信息

利用selenium爬取知乎图片

使用scrapy爬取知乎图片

爬取知乎热榜

【iOS】知乎日报

仿知乎日报android

【API】知乎日报接口

Python爬取知乎专栏文章标题及URL

python爬取知乎（模拟登陆）

scrapy实战项目（简单的爬取知乎项目）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)