爬虫入门第一章

什么是爬虫

简单理解就是获取网络上面的数据 比如爬取视频,小说,图片,音乐等等

直接开始

为什么不介绍爬虫的历史,以及一些详细的东西,学习一个东西,为什么非要去学前面那么多没有用的呢?我们哪里不会学哪里,虽然听着不靠谱,但学起来节约时间

爬虫的核心

1.你要爬什么(好确定爬取界面的具体网址)
2.怎么只爬下来你想要的(专业术语,数据解析)
	有这三种方式(正则,xpath,BeautifulSoup)
3.爬下来的数据是直接打印还是存起来(数据存储)

基本思路

1.爬取的网页地址
	(1)可能是分页的,多页或整站的
2.如何从爬取到的网页中,筛选出想要的数据
	(1)正则表达式
	 (2)b4
	 (3)xpath
3.存储到本地还是数据库,是什么形式的
	(1)可以保存为txt
	(2)可以保存成excel
	 等多种格式
第一个案例爬取百度界面
import requests #导入要进行爬取的包
url='https://www.baidu.com'#既然要爬取那就要知道具体的位置
page=requests.get(url).text.encode('utf-8')#将爬取到的文本赋值给变量
print(page)#打印出来爬取的结果

爬取P站图片

import requests
import re
# 导入需要的包
url="http://acg17.com/65482.html"
#要爬取的地址
res=requests.get(url).text
#获取到爬取下来的页面内容
pic_url=re.findall(r"https:.+\.jpg",res)
#使用正则解析
add='https://ae01.alicdn.com/kf/HTB18ehESIfpK1RjSZFOq6y6nFXaf.jpg'

with open('nv.jpg','wb') as op:
    q=requests.get(add).content
    op.write(q)
#保存
for key in pic_url:
    print(key)
#输出

猜你喜欢

转载自blog.csdn.net/weixin_45079974/article/details/108556642