爬虫爬取图库

在做深度学习的时候突然发现一个问题,除了一些网站提供的数据集之外,我该如何获取自己的数据集呢?于是我想到了爬虫,之前也没接触过爬虫,但是那有什么关系,算法的可是站在鄙视链顶端的存在,爬个图片还不是小case。于是我花了两天时间研究了下爬虫,原来天下的坑都是一般的深,我爬取的网站是“http://699pic.com/”,也就是下面这个摄图网。

在爬取这个网站的时候,首先你要找到你的‘user-Agent‘,然后把它作为请求网页的一个参数,不然人家不让你爬,在浏览器中输入“about://version”,然后就可以看见你的用户代理,复制下来就行

下面上代码,

import requests
import urllib
from bs4 import BeautifulSoup

headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36 QIHU 360SE"
 }
cookies={'cookies':''}

def getImage(word):
#这里拼凑成一个url
    url='http://699pic.com/tupian/'+word+'.html'
#这里获取网站的源码,源码主要是很长的一段html格式的字符串
    r=requests.get(url)
#BeautifulSoup这个库可以解析html格式的字符串,把网页的源码解析成一个个类,然后你就可以依次去访问它#的属性,比如head,div,src等等
    soup = BeautifulSoup(r.content,'html.parser')
#这里就是对BeautifulSoup的运用了
    all_a = soup.find_all('div',class_='list')
    for i in range(len(all_a)):
        imgurl=all_a[i].img.attrs['data-original']
#这里获得的imgurl是图片的网站,一个网站一张图片,然后通过urllib里面的urlretrieve的这个函数把图片下#载到本地
        urllib.urlretrieve(imgurl, 'D://img//%s.jpg'%i)

if __name__ == '__main__':
    getImage('feiji')

简单吧!比看网络简单吧O(∩_∩)O哈哈~,下面是我下的图

猜你喜欢

转载自blog.csdn.net/qq_37333087/article/details/81635351