从零开始写Python爬虫 -1.3 爬虫实践：获取百度贴吧内容 - 代码天地

从零开始写Python爬虫 -1.3 爬虫实践：获取百度贴吧内容

其他 2019-05-01 15:50:59 阅读次数: 0

贴吧地址：http://tieba.baidu.com/f?kw=生活大爆炸&ie=utf-8
目标分析
1、从网上爬下特定页码到内容
2、对于爬下到页面内容进行简单到筛选分析
3、找到每一篇帖子到标题、发帖人、日期、楼层以及跳转链接
4、将结果保存到文本
根据第2页到网页地址发现&50，说明每一页都有50篇帖子

首先先写出抓取页面内人的函数：

import requests
from bs4 import BeautifulSoup

url = "https://www.baidu.com"
#首先我们写好抓取网页的函数
def get_html(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return "ERROR"

摘取其中到详细信息：

# 标题&帖子链接：
<a href="/p/4830198616" title="又重温一遍 第九季  这个侧脸给多少分" target="_blank" class="j_th_tit ">又重温一遍 第九季  这个侧脸给多少分</a>

#发帖人：
<span class="tb_icon_author " title="主题作者: Li欣远" data-field='{&quot;user_id&quot;:836897637}'><i class="icon_author"></i><span class="frs-author-name-wrap"><a data-field='{&quot;un&quot;:&quot;Li\u6b23\u8fdc&quot;}' class="frs-author-name j_user_card " href="/home/main/?un=Li%E6%AC%A3%E8%BF%9C&ie=utf-8&fr=frs" target="_blank">Li欣远</a></span>

#回复数量：
<div class="col2_left j_threadlist_li_left">
<span class="threadlist_rep_num center_text" title="回复">24</span>
</div>

#发帖日期：
 <span class="pull-right is_show_create_time" title="创建时间">2016-10</span>

猜你喜欢

转载自blog.csdn.net/strawqqhat/article/details/89366967

从零开始写Python爬虫 -1.3 爬虫实践：获取百度贴吧内容

Python爬虫实践：获取百度贴吧内容

爬虫-1.5获取百度贴吧内容

Python爬虫--- 1.5 爬虫实践：获取百度贴吧内容

从零开始写Python爬虫 --- 1.4 爬取生活大爆炸百度贴吧内容

利用爬虫爬取百度贴吧内容

[python]百度贴吧爬虫

Python爬虫-百度贴吧

从零开始写Python爬虫 --- 1.3 BS4库的解析器

爬虫-百度贴吧

百度贴吧爬虫

[GO]百度贴吧的爬虫

百度贴吧_爬虫

爬虫_百度贴吧图片

[Python爬虫之路2]爬取百度贴吧内容

Python爬虫之百度贴吧

Python爬虫实战：百度贴吧帖子

python爬虫爬取百度贴吧图片

python爬虫学习之百度贴吧抓取

Python爬虫(一)爬百度贴吧

python爬虫爬取百度贴吧帖子

Python实现百度贴吧数据爬虫

3-百度贴吧爬虫

go语言实现百度贴吧爬虫

爬虫10-百度贴吧

简单爬虫，爬去百度贴吧图片

爬虫学习（五）————百度贴吧的爬取

爬虫百度贴吧下载20页html

百度贴吧爬虫小程序源码

百度贴吧帖子图片爬虫

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)