从零开始写Python爬虫 -1.3 爬虫实践: 获取百度贴吧内容

贴吧地址:http://tieba.baidu.com/f?kw=生活大爆炸&ie=utf-8
目标分析
1、从网上爬下特定页码到内容
2、对于爬下到页面内容进行简单到筛选分析
3、找到每一篇帖子到标题、发帖人、日期、楼层以及跳转链接
4、将结果保存到文本
根据第2页到网页地址发现&50,说明每一页都有50篇帖子

首先先写出抓取页面内人的函数:

import requests
from bs4 import BeautifulSoup

url = "https://www.baidu.com"
#首先我们写好抓取网页的函数
def get_html(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        return "ERROR"

摘取其中到详细信息:

# 标题&帖子链接:
<a href="/p/4830198616" title="又重温一遍 第九季  这个侧脸给多少分" target="_blank" class="j_th_tit ">又重温一遍 第九季  这个侧脸给多少分</a>

#发帖人:
<span class="tb_icon_author " title="主题作者: Li欣远" data-field='{&quot;user_id&quot;:836897637}'><i class="icon_author"></i><span class="frs-author-name-wrap"><a data-field='{&quot;un&quot;:&quot;Li\u6b23\u8fdc&quot;}' class="frs-author-name j_user_card " href="/home/main/?un=Li%E6%AC%A3%E8%BF%9C&ie=utf-8&fr=frs" target="_blank">Li欣远</a></span>

#回复数量:
<div class="col2_left j_threadlist_li_left">
<span class="threadlist_rep_num center_text" title="回复">24</span>
</div>

#发帖日期:
 <span class="pull-right is_show_create_time" title="创建时间">2016-10</span>

猜你喜欢

转载自blog.csdn.net/strawqqhat/article/details/89366967