Python爬虫——爬取网站的实例化源码

版权声明:未经同意窃取和转载我的内容,如果涉及到权益问题,后果自负! https://blog.csdn.net/weixin_41605937/article/details/84325560
缺点:1爬了一个网站好几次以后不能再进行爬取。没有解决这个问题
      2在写入数据的时候还是存在很大问题。以后多加练习这个文件的保存的相关工作
import re
import urllib.request

def function():
    """需求:1 https://read.douban.com/把所有的出版社的信息提取出来 过滤掉无关信息既可以
        2 保存到本地文件的信息
    """
    #爬取得网站信息
    html="http://read.douban.com/kind/505"
    data=urllib.request.urlopen(html).read()
    data=data.decode('utf-8')
    #爬取得正则表达式
    bookname='<a href="/ebook/\d*/">(.*?)</a>'#找到书名
    bookauthor='<a href="/author/\d*/" class="author-item">(.*?)</a>'#找到作者名字
    booktype='<span itemprop="genre">(.*?)</span>'#小说的类型
    #爬去的信息数据
    bookname=re.compile(bookname).findall(data)
    bookauthor=re.compile(bookauthor).findall(data)
    booktype=re.compile(booktype).findall(data)
    #打印在控制台
    print("bookname:",bookname)
    print("bookauthor",bookauthor)
    print("booktype",booktype)
    
    #将爬取的数据写入文件中
    txtName = "codingWord.txt"
    file = open('./作业二的数据.txt', "w",encoding="utf-8")
    file.write(str(bookname)+"\n"+str(bookauthor)+"\n"+str(booktype))
    file.close()
    file.close()
    return

if __name__ == '__main__':
    function()

猜你喜欢

转载自blog.csdn.net/weixin_41605937/article/details/84325560
今日推荐