爬虫：python爬取糗事百科网页信息 - 代码天地

爬虫：python爬取糗事百科网页信息

编程语言 2018-09-29 04:51:57 阅读次数: 0

使用python爬虫爬取了糗事百科网站的网页的代码，这是一个比较简单的实现爬虫逻辑的代码，执行后会把爬取的内容按页保存为多个html文件中，并自动下载到download文件夹中。如在这里插入图片描述

"""练习爬虫：爬 糗事百科 网页"""

import requests
import codecs

class ScandalSpider:
    def __init__(self,spider_name):
        self.spider_name=spider_name
        # 糗事百科的网址 url
        self.url_base="http://www."+spider_name+"baike.com/8hr/page/{}/"
        # 模拟 User-Agent
        self.headers ={"User-Agent":"abc"}


    def make_url_lists(self):
        # 多个url形成的列表
        return [self.url_base.format(i) for i in range(1,7)]


    ''' 获取下载信息'''
    def download_url(self,url_str):
        info =requests.get(url_str,headers=self.headers)
        # 下载网页内容html
        return info.text


    ''' 设置保存下载内容地址'''
    def save_info(self,info,page_n):
        # 保存地址:同一文件目录下的download文件
        file_path="./download/{}-第{}页.html".format(self.spider_name,page_n)
        #保存文件函数
        with codecs.open(file_path,"wb","utf-8") as f:
            f.write(info)


    '''实现下载逻辑 按页保存'''
    def run(self):
        url_lists =self.make_url_lists()
        # 遍历每一个url
        for url_str in url_lists:
            info_str=self.download_url(url_str)
            # 页码 是单个url在列表中的索引下标id
            p_n=url_lists.index(url_str)+1
            self.save_info(info_str,p_n)


if __name__=="__main__":
    scandal=ScandalSpider("qiushi")
    scandal.run()

猜你喜欢

转载自blog.csdn.net/swan_tang/article/details/82831056

爬虫：python爬取糗事百科网页信息

利用Python爬取糗事百科段子信息

Python爬取糗事百科

python爬虫（二）爬取糗事百科

python爬虫1、~爬取糗事百科

糗事百科爬虫

爬虫糗事百科

爬虫学习之10：爬取糗事百科用户地址信息并用热力图展示

爬虫项目实战一：基于Scrapy+MongDB爬取并存储糗事百科用户信息

python3糗事爬取-------------------糗事百科

爬取糗事百科练习

爬取糗事百科

爬取糗事百科段子

爬取糗事百科案例

爬取糗事百科的页面

糗事百科段子爬取

糗事百科爬取

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

python爬去糗事百科

爬虫实战（二）：爬取糗事百科段子

爬虫多线程案例：爬取糗事百科

6 爬取微信搜索平台的微信文章保存为本地网页 5 使用ip代理池爬取糗事百科 5 使用ip代理池爬取糗事百科

python 糗事百科爬虫

python爬虫-糗事百科段子

python糗事百科爬虫

python-爬虫-糗事百科

python简单爬虫爬取百度百科python词条网页

基于python3 爬取糗事百科

Python 爬取糗事百科段子

python爬取糗事百科段子

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)