第一个爬虫项目的完善

原文见https://blog.csdn.net/yvonne_lu7/article/details/81097787

在昨天做完这个小项目后,今天又对它进行了完善

首先,之前的代码爬下来的数据没办法存在本地,并且最多只能爬3页,因此,对之前的代码进行了完善与修改,达到了可以存在本地文件并且可以爬完所有的功能。

先看代码:

from urllib.request import urlopen
from bs4 import BeautifulSoup


def getPage():
    pagelist = []
    basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
    for i in range(1, 255):
        new_page = basic_page+str(i)
        pagelist.append(new_page)
    return pagelist


def getLinks(url):
    phtml = urlopen(url)
    bsarticle = BeautifulSoup(phtml, 'html.parser')
    title = '标题:'+str(bsarticle.find(id="post-read").find("h3").get_text())+'\n'
    f.writelines(title)
    name = bsarticle.findAll('p', {'class': 'nickname text-line-limit'})
    for n in name:
        if n.text == '心理咨询师':
            postcard = n.parent.parent
            bsn = BeautifulSoup(str(postcard), 'html.parser')
            answer = bsn.find('div', {'class': 'body file-read image-click-view'}).p
            reply = '心理咨询师回复:'+str(answer.get_text())+'\n'
            f.writelines(reply)
    f.writelines('==================================\n\n')


filename = '心理.txt'
f = open(filename, 'w', encoding='utf-8')
for page in getPage():
    html = urlopen(page)
    bspage = BeautifulSoup(html, 'html.parser')
    articles = bspage.findAll('div', {'class': 'list-item-topic list-item'})
    b_url = 'https://bbs.pku.edu.cn/v2/'
    for art in articles:
        getLinks(b_url+art.a.attrs['href'])

最主要的区别在于新增加了一个getPage()函数,之前的项目中,对于每一页,我是通过爬虫获取每页的url做到的,但是这样对于爬虫负担比较大,而通过观察发现,每一页的url变化都不大,基本都是 

'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='

再加上页数,因此我们可以直接用for循环遍历得到每一页的url,而不用单独爬取每一页的Url


def getPage():
    pagelist = []
    basic_page = 'https://bbs.pku.edu.cn/v2/thread.php?bid=690&mode=topic&page='
    for i in range(1, 255):
        new_page = basic_page+str(i)
        pagelist.append(new_page)
    return pagelist

此时,getPage()这个函数返回的是一个列表,因此,在需要的时候直接遍历整个列表就好了 

猜你喜欢

转载自blog.csdn.net/Yvonne_Lu7/article/details/81117071