python 爬虫采集博客园 - 代码天地

python 爬虫采集博客园

其他 2019-09-21 17:16:07 阅读次数: 0

爬虫主要抓取首页文档列表中的信息如：作者、头像、文章标题、摘要、发布时间、推荐次数、评论次数、阅读次数。采用协程方式进行抓取页面，然后把信息保存到"博客园.csv"文件中。

采用了第三方库 aiohttp、beautifulsoup4

如图：

部分代码

import csv
import asyncio
from httprequest import Http
from blogs import Blogs

'''
生成采集列表
'''


def create_url_list(s, e):
    items = []
    for n in range(s, e):
        items.append('https://www.cnblogs.com/sitehome/p/%s' % n)
    return items


'''
异步
'''


async def async_task(urls: list):
    core = [Http.request(u) for u in urls]
    return await asyncio.gather(*core)


'''
采集
'''
urls = create_url_list(0, 20)
result = asyncio.run(async_task(urls))

'''
保存
'''
with open('博客园.csv', 'w', encoding='utf_8_sig', newline='') as f:

    fields = None

    '''
    写入信息
    '''
    for text in result:
        for t in Blogs(text).run():
            if not fields:                  # 写入字段
                fields = t.keys()
                w = csv.DictWriter(f, fields)
                w.writeheader()
            w.writerow(t)
print('采集完成')

百度网盘下载：

链接：https://pan.baidu.com/s/15QfNuUfb0mfURTGnoG0cIA
提取码：7iff

猜你喜欢

转载自www.cnblogs.com/whnba/p/11563683.html

python 爬虫采集博客园

Python爬虫爬取博客园作业

Python爬虫实战-统计博客园阅读量问题

Python爬虫入门教程 54-100 博客园等博客网站自动评论器

python3 BeautifulSoup模块使用与Python爬虫爬取博客园作业

【Python3 爬虫】爬取博客园首页所有文章

python3爬虫例子01（获取个人博客园的粉丝）

python3爬虫例子02（获取个人博客园的文章信息）

[Python] 爬取博客园博主标题网络爬虫 2020.2.8

页面数据采集——网络爬虫实战（ASP.NET Web 博客园为例）

Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy

【Python爬虫】爬了七天七夜，终于爬出了博客园粉丝数排行榜！

Python爬虫案例50篇-第16篇-使用无头浏览器抓取博客园列表信息

《【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」》【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」

『Python开发实战菜鸟教程』实战篇：爬虫快速入门——统计分析CSDN与博客园博客阅读数据

python线性回归（转载博客园）

初遇python，相识博客园

Python 增加博客园阅读量

python selenium 自动登录博客园

用python自动登录博客园

爬虫任务三：模拟登录博客园

爬虫框架-Scrapy项目（博客园spiders文件）

爬虫爬取博客园文章的文字【练手】

爬虫抓取博客园前10页标题带有Python关键字（不区分大小写）的文章

python爬虫采集

python爬虫与数据采集

python博客园示例,重点使用装饰器

python3: 博客园列表爬取；

Python 爬取博客园特定博主的文章

利用Python增加博客园阅读量

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)