Python爬虫实战(六)：爬取糗事百科段子 - 代码天地

Python爬虫实战(六)：爬取糗事百科段子

编程语言 2018-06-19 07:02:26 阅读次数: 1

原文地址为： Python爬虫实战(六)：爬取糗事百科段子

直接上代码：

#coding=utf-8
import requests
from bs4 import Tag
from bs4 import BeautifulSoup

def getHtml(url):  
    page = requests.get(url)  
    html = page.text  
    return html

def getImg(html):
    get_text = Tag.get_text
    soup = BeautifulSoup(html, 'html.parser')
    
    info = soup.find_all('h2')
    user = (x.get_text() for x in info)   #使用生成器代替list(map(get_text,info))
                    
    info = soup.find_all('span',class_="stats-vote")
    vote = (x.get_text() for x in info)   #使用生成器代替list(map(get_text,info))  

    info = soup.find_all('div',class_="content")
    text = (x.get_text() for x in info)   #使用生成器代替list(map(get_text,info))  
    
    for x in zip(user,text,vote):         #zip函数同时遍历
        Enter = input()
        if Enter == 'Q' or Enter == 'q':
            return -1
        print("\n".join((s.strip() for s in x))) #使用生成器代替list(map(str.strip,x))
    return 1
 
if __name__=='__main__':
    url = "https://www.qiushibaike.com/hot/"
    html,i = getHtml(url),2
    print("开始读取数据，请按回车键...按Q键退出\n")
    while (getImg(html) == 1):
        print("\n第{}页\n".format(i))
        url = ("https://www.qiushibaike.com/hot/page/%s/" % str(i))
        html,i = getHtml(url),i+1

缺点：无法过滤掉既有文本，又有图片的内容。

待以后优化更新。

转载请注明本文地址： Python爬虫实战(六)：爬取糗事百科段子

猜你喜欢

转载自blog.csdn.net/wangchaoqi1985/article/details/80723842

Python爬虫实战(六)：爬取糗事百科段子

爬虫实战（二）：爬取糗事百科段子

芝麻HTTP:Python爬虫实战之爬取糗事百科段子

Python爬虫实战之爬取糗事百科段子【华为云技术分享】

Python多线程爬虫实战_爬取糗事百科段子的实例

爬取糗事百科段子

糗事百科段子爬取

Python 爬取糗事百科段子

利用Python爬取糗事百科段子信息

python爬取糗事百科段子

Python :爬取糗事百科段子

Python爬虫实现爬取糗事百科段子 (26行代码简单实现)

[爬虫]用python的requests模块爬取糗事百科段子

Python学习之爬虫07-糗事百科段子爬取

Python爬虫（二）之使用标准库爬取糗事百科段子

python网络爬虫-爬取糗事百科段子源码

Python爬虫框架Scrapy之爬取糗事百科大量段子数据

python爬虫-糗事百科段子

python爬虫（二）爬取糗事百科

爬虫：python爬取糗事百科网页信息

python爬虫1、~爬取糗事百科

用BeautifulSoup爬取糗事百科段子

Spider—糗事百科段子爬取

python爬虫入门实战（一）---爬糗事百科

一个简单的爬虫代码爬取糗事百科段子（selenium+ChromeDriver）

小白python爬虫入门实战（爬取糗事百科）

Python爬取糗事百科

自己手写使用python爬取糗事百科段子

python笔记之利用scrapy框架爬取糗事百科首页段子

python笔记之利用BeautifulSoup爬取糗事百科首页段子

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)