python3: 博客园列表爬取； - 代码天地

python3: 博客园列表爬取；

其他 2018-07-16 22:50:48 阅读次数: 0

import  requests
from bs4 import BeautifulSoup as bs
import  html5lib


header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'
}

def download():
    """
     模拟浏览器进行访问；
    :param url:
    :return:
    """
    for pageIdx in range(1, 5, 1):
        #print(pageIdx)
        url = "https://www.cnblogs.com/sitehome/p/%s" % str(pageIdx)
        try:
            r = requests.get(url, timeout=30)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            data = r.text
        except:
            return
        content = bs(data, 'html5lib')
        for ctx in content.find_all('h3'):
            print(ctx.a['href'], ctx.a.string)


if __name__ == "__main__":
    download()

　　

猜你喜欢

转载自www.cnblogs.com/yinwei-space/p/9320784.html

python3: 博客园列表爬取；

python3 BeautifulSoup模块使用与Python爬虫爬取博客园作业

【Python3 爬虫】爬取博客园首页所有文章

Python 爬取博客园特定博主的文章

Python爬虫爬取博客园作业

Python爬取博客园浏览数据

Python爬取博客园首页内容信息，并写入excel表，最后导入Mysql

[Python] 爬取博客园博主标题网络爬虫 2020.2.8

python3 模拟博客园登录

python+scrapy 爬取西刺代理ip(一)（ubuntu环境下） -赖大大 -博客园

python3爬取博客浏览量

Python爬取博客园数据---环境准备

博客园皮肤3

博客园作业3

【Python3】列表

Python3 —— 列表

Python3 列表

Python3 - 列表

python3进阶开发-第一个仿博客园的项目（1）

python3爬虫例子01（获取个人博客园的粉丝）

python3爬虫例子02（获取个人博客园的文章信息）

博客园搜索爬取

Python3——爬取淘宝评论

python3爬取网页图片

python3爬取图片

python3爬取租房的信息

python3 爬取影像数据

使用Python3爬取美女

python3 爬取API数据

使用python3爬取小说

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)