Python爬取贴吧内容-南华大学贴吧为例

# -*-encoding:utf-8 -*-
#---------------------------------------  
#   程序:南华大学贴吧获取器  
#   作者:ZZC  
#   日期:2017-03-21  
#   语言:Python 3.6
#   功能:爬取南华大学贴吧标题的内容。
#---------------------------------------  


import requests
from bs4 import BeautifulSoup
import re 


def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status() #检测状态
        print(r.encoding+"  "+r.apparent_encoding)
        #r.encoding = r.apparent_encoding
        return r.text
    except:
        return "getHTMLText"


def getTitleList(url):
    html = getHTMLText(url)
    soup = BeautifulSoup(html,'html.parser')
    #寻找符合条件的ul
    ul = soup.find_all('ul',attrs={'class':'threadlist_bright j_threadlist_bright'})
    count = 0
    print("第一页")
    for i in ul:
        liTop = i.find_all('li',attrs={'class':' j_thread_list thread_top j_thread_list clearfix'})
        print("有"+str(len(liTop))+"个置顶帖")
        print("-------------------------------------")
        for j in liTop:
            count = count + 1
            getMessage(count, j, 0)
        liList = i.find_all('li',attrs={'class':' j_thread_list clearfix'})
        print("-------------------------------------")
        print("有"+str(len(liList))+"个普通帖")
        print("-------------------------------------")
        for j in liList:
            count = count + 1
            getMessage(count,j,1)


def getMessage(count,j,top):
    huifu = j.find('span', attrs={'class': 'threadlist_rep_num center_text'})
    title = re.findall(r'<a .*?href="/p/\d{10}".*?>(.*?)</a>', str(j))
    author = j.find('span', attrs={'class': 'frs-author-name-wrap'})
    createTime = j.find('span', attrs={'class': 'pull-right is_show_create_time'})
    content = ""
    if top == 1:
        divCon = j.find('div', attrs={'class': 'threadlist_abs threadlist_abs_onlyline '})
        content = divCon.string.lstrip()
    print(count)
    print("标题:" + title[0])
    print("作者:" + author.string)
    print("时间:" + createTime.string)
    print("回复次数:" + huifu.string)
    print("内容:"+ content)
def main():
    url = 'http://tieba.baidu.com/南华大学'
    getTitleList(url)




#-------- 程序入口处 ------------------  
main()












运行结果:
UTF-8  ISO-8859-2
第一页
有2个置顶帖
-------------------------------------
1
标题:『南华大学2017年租房、寻租交易专贴』
作者:打人就是蛋疼
时间:1-1
回复次数:356
内容:
2
标题:《跳蚤市场》南华大学吧二手交易及兼职信息贴【2017年】
作者:打人就是蛋疼
时间:1-1
回复次数:627
内容:
-------------------------------------
有48个普通帖
-------------------------------------
3
标题:机械专业的大佬
作者:wx854295296
时间:3-17
回复次数:30
内容:
4
标题:南华复试
作者:This王道
时间:3-21
回复次数:10
内容:27号去南华复试,安全工程,请问我应该去哪个区复试?离衡阳东站远吗?复试难不难?有没有了解的解答
        
5
标题:在南华上了几年大学的学长学姐们,你们放小假都会去哪里玩啊?
作者:说谎的天真
时间:17:59
回复次数:23
内容:求推荐 
        
6
标题:好久不见你还好吗
作者:life风中奇葩
时间:11:47
回复次数:6
内容:好久不见你还好吗原谅我不能回答你所好奇的问题我只知道你一切安好便好 
        
7
标题:求spss分析大神
作者:Twinkie647
时间:19:52
回复次数:0
内容:吧里有没有会spss问卷分析的朋友??价格好商量 
        
8
标题:这场雨还要下多久?
作者:伊人何时归丶
时间:12:06
回复次数:22
内容:
9
标题:自己在北京当兵,想找个医学类的对象,讲真,只想衡阳本地的
作者:wangya2019
时间:3-9
回复次数:171
内容:
10
标题:寝室自力更生的蘑菇
作者:没心没肺不纠结
时间:2016-11
回复次数:204
内容:hhhhh 没想到凳子放在厕所居然长蘑菇了,有谁要买的吗~野生的,天然无添加的, 
        
11
标题:衡阳城区170万人以后住在哪,去哪购物、休闲…… 都在这了!
作者:新衡阳新石市
时间:19:50
回复次数:0
内容:新湖南新闻客户端 > 湖南 > 衡阳 [衡阳] 衡阳城区170万人以后住在哪,去哪购物、休闲…… 都在这了!
        
12
标题:肉友召集帖
作者:人有姸媸
时间:2-26
回复次数:36
内容:南华的肉友们,来吧,互相伤害吧 
        
13
标题:有没有同学想养狗狗
作者:安雨言永不言败
时间:3-20
回复次数:9
内容:价格好说,狗狗健康,只要你对它好。联系电话18684837500
        
14
标题:招个兼职小伙伴。
作者:射你一箭
时间:15:26
回复次数:4
内容:活简单,轻松 
        
15
标题:未来的小学妹
作者:Dwyan_
时间:2-16
回复次数:69
内容:现在高三 美术生 想具体了解了解南华的情况 有小哥哥小姐姐解答一下吗 
        
16
标题:请问南华大学得研究生好考吗
作者:萌微博名勋3鹿
时间:2016-07
回复次数:33
内容:我是南华毕业的,考本校研究生会容易些吗,哪个专业比较容易考呢,本校研究生留校任职(带编)可能
        
17
标题:为什么校外住宿不能减免住宿费呀
作者:狮子浅冈未绪
时间:17:09
回复次数:4
内容:反正也没有住,而且学院查晚归名单里又没有我名字,床铺还被同学给占了,这无疑加重了考研学子的负
        
18
标题:谁知道南华本部哪里有租正装的?
作者:看不见出口的海
时间:18:32
回复次数:1
内容:
19
标题:中交隧道工程局北京分公司春招
作者:野蛮丶珊珊
时间:18:18
回复次数:2
内容:中交隧道工程局北京分公司简介 中交隧道工程局有限公司北京分公司,隶属于中交隧道工程局有限公司,
        
20
标题:转眼就要毕业
作者:有可可丶
时间:14:32
回复次数:4
内容:大四,在签约公司实习快一个月了,以前没有来贴吧看过,现在没在学校,只能在这里看看同学们生活,
        
21
标题:想养只猫
作者:请叫我翅客
时间:3-20
回复次数:17
内容:RT,我毕业了,定居衡阳,父母也来,我妈想养只猫 有没有免费的奶猫可以送我养的,大了就算了,怕它
        
22
标题:【小王子】讲真,我真的不是水
作者:叫我暖贴小王子
时间:2-23
回复次数:53
内容:我只想看看有没有超过我的 顺便再交个PY啊 
        
23
标题:衡阳如何打造“湘南地区中心城市”?本社邀您发表高见
作者:新衡阳新石市
时间:11:15
回复次数:2
内容:衡阳如何打造“湘南地区中心城市”?本社邀您发表高见 来源:衡阳日报 编辑:王丹   五条途径欢迎
        
24
标题:大概这就是变态吧
作者:小胖不寂寞
时间:2016-11
回复次数:105
内容:
25
标题:这老哥玩的啥啊?还自带骑兵了
作者:南华外交部长
时间:09:32
回复次数:16
内容:猜出来算我输                    设使贴吧无有孤,不知几人卖鞋,几人开车。 
        
26
标题:头发护理与营养
作者:小姜妃
时间:3-21
回复次数:3
内容:1.正常的头发 数量:10万根左右 头发的生长:每月生长1cm左右 掉发:每日30~80根 2.头发的组成 基本成分:角质蛋
        
27
标题:想问一下今年的核单招
作者:ゝ淡写红尘
时间:09:50
回复次数:20
内容:宜宾812的,今年还有核单招。想问一下具体情况,比如试题难易,报考人数,收分什么的。谢谢啦
发布了37 篇原创文章 · 获赞 7 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/SkyFire1121/article/details/64938150