爬虫入门第一章 - 代码天地

爬虫入门第一章

其他 2020-10-18 11:09:00 阅读次数: 0

什么是爬虫

简单理解就是获取网络上面的数据比如爬取视频，小说，图片，音乐等等

直接开始

为什么不介绍爬虫的历史，以及一些详细的东西，学习一个东西，为什么非要去学前面那么多没有用的呢？我们哪里不会学哪里，虽然听着不靠谱，但学起来节约时间

爬虫的核心

1.你要爬什么（好确定爬取界面的具体网址）
2.怎么只爬下来你想要的（专业术语，数据解析）
	有这三种方式（正则，xpath,BeautifulSoup）
3.爬下来的数据是直接打印还是存起来(数据存储)

基本思路

1.爬取的网页地址
	（1）可能是分页的，多页或整站的
2.如何从爬取到的网页中，筛选出想要的数据
	（1）正则表达式
	 （2）b4
	 （3）xpath
3.存储到本地还是数据库，是什么形式的
	（1）可以保存为txt
	（2）可以保存成excel
	 等多种格式

第一个案例爬取百度界面

import requests #导入要进行爬取的包
url='https://www.baidu.com'#既然要爬取那就要知道具体的位置
page=requests.get(url).text.encode('utf-8')#将爬取到的文本赋值给变量
print(page)#打印出来爬取的结果

爬取P站图片

import requests
import re
# 导入需要的包
url="http://acg17.com/65482.html"
#要爬取的地址
res=requests.get(url).text
#获取到爬取下来的页面内容
pic_url=re.findall(r"https:.+\.jpg",res)
#使用正则解析
add='https://ae01.alicdn.com/kf/HTB18ehESIfpK1RjSZFOq6y6nFXaf.jpg'

with open('nv.jpg','wb') as op:
    q=requests.get(add).content
    op.write(q)
#保存
for key in pic_url:
    print(key)
#输出

猜你喜欢

转载自blog.csdn.net/weixin_45079974/article/details/108556642

爬虫入门第一章

入门第一章

SpringBoot 入门第一章

Python《入门第一章》

Java基础入门第一章答案

Hadoop入门第一章

入门第一章线性规划

SpringBoot3入门第一章

[C] 第一章|C语言入门第一课

[C语言] 第一章|C语言入门第一课

java入门第一章——java开发入门

python-正则表达式入门第一章正则表

Java入门第一章知识点总结

Android入门第一章-虚拟机创建(3)

Android入门第一章——环境搭建(1)

Android入门第一章——目录结构(4)

SpringBoot 快速入门第一章（小白都能看得懂）

Gin 高性能web框架入门第一章

ES6快速入门第一章------解构赋值（可私信解惑）

liunx入门第一章~指令的了解与操作

Rt-thread入门第一章全局理解（个人理解）

webrtc 入门第一章基本设备操作

ROS高效入门第一章 -- ROS历史与现状

第一章：爬虫

爬虫第一章

第一章认识爬虫

第一章爬虫认知

Android入门第一章——创建第一个Android项目(2)

js 入门第一章

ElasticSearch入门--第一章

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)