利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式 - 代码天地

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

其他 2019-10-26 12:01:02 阅读次数: 0

还是设计模式的开卷考试，我想要多准备一点资料，于是写了个爬虫爬取代码与图片，有巧妙地进行格式化进一步处理，最终变为了markdown的格式

import requests 
from bs4 import BeautifulSoup

首先获得菜鸟教程-工厂模式这个页面的html，转为soup对象

r = requests.get("https://www.runoob.com/design-pattern/factory-pattern.html")
#获取反馈信息 200为正常
r.status_code
r.encoding = "utf-8"
soup=BeautifulSoup(r.text,'lxml')
print(soup.prettify())

通过观察可知需要爬取的链接都是以‘/design’开头的，所以利用startswith()筛选，得到url列表

html_list=[]
for a in soup.find_all('a'):
    if(a['href'].startswith('/design')):
        print(a['href'])
        html_list.append(a['href'])

写一个爬取每个页面的函数,先将markdown语言放在注释中，注释用三条斜杠，方便格式化。

+def fonepage(add):
    baseurl="https://www.runoob.com"
    url=baseurl+add
    r = requests.get(url)
    #获取反馈信息 200为正常
    r.status_code
    r.encoding = "utf-8"
    soup=BeautifulSoup(r.text,'lxml')
    lis=soup.find_all(attrs={'class':'example'})
    print('///## '+add)
    img=soup.find_all('img')
    print('///![]('+baseurl+img[0]['src']+')')
    print('///```')
    for son in lis:
        for a in son.find_all('span'):
            print(a.string,end=' ')
    print('\n')
    print('///```')

然后逐页爬取即可

for i in range(2,len(html_list)):
    fonepage(html_list[i])

最后进行加工，利用IDEA进行格式化，随后用notepad删除所有的'///'字符串，就转为markdown格式了。

结果如下：https://www.cnblogs.com/Tony100K/p/11741212.html

猜你喜欢

转载自www.cnblogs.com/Tony100K/p/11742333.html

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

python爬取数据保存为MySQl格式

python爬取数据保存为txt格式

python爬取数据保存为Json格式

python爬取数据保存为图片

用beautifulsoup，re，xpath爬取文章并保存为csv文件

【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件

Python爬虫之bilibili视频弹幕爬取并保存为JSON格式（详解分析+代码实现）

node爬虫：爬取csdn博客并保存为 markdown 文件

python爬取中国天气网天气并保存为word格式文件

python爬取中国天气网天气并保存为csv格式文件

python用akshare批量爬取金融数据并保存为excel格式

python 利用scrapy爬取豆瓣TOP250部电影信息分别保存为csv、json、存入mysql、下载海报图片

requests与BeautifulSoup爬取网页图片

Python 爬取数电教案并保存为pdf

python爬取多个网页表格并保存为csv

python爬取昵称并保存为vss

python代码红外温度矩阵、温度数据转为图片保存为PNG格式

读取视频帧保存为ppm格式图片

nrrd格式用Python读取并保存为png图片

canvas保存为图片

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片—代码完善

requests实例4:图片的爬取与保存

Bitamp保存为jpg和png格式的区别

保存为TUM和KITTI格式的位姿

利用python的requests和BeautifulSoup库爬取小说网站内容

tensorflow将图片保存为tfrecord和tfrecord的读取

python使用requests和BeautifulSoup包爬取Pixiv图片--指定tag下的所有作品

Android爬虫Jsoup爬取某招聘网站数据并保存为exceL文件

爬取某网站的所有乌云漏洞文章，保存为pdf文件

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)