pyhton 基础数据的爬取1

1. 什么是网络爬虫？

在大数据时代，信息的采集是一项重要的工作，而互联网中的数据是海量的，如果单纯靠人力进行信息采集，不仅低效繁琐，搜集的成本也会提高。如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题，而爬虫技术就是为了解决这些问题而生的。

网络爬虫（Web crawler）也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，可以自动采集所有其能够访问到的页面内容，以获取相关数据。

从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

2. 网络爬虫的作用

1.可以实现搜索引擎

我们学会了爬虫编写之后，就可以利用爬虫自动地采集互联网中的信息，采集回来后进行相应的存储或处理，在需要检索某些信息的时候，只需在采集回来的信息中进行检索，即实现了私人的搜索引擎。

如果想获取一个简单的网站信息该怎么做呢？

import requests

# 获取百度网站信息
r = requests.get('http://www.baidu.com')

# 查看状态码
print(r.status_code)


# 指定字符编码
r.encoding = 'utf-8'

print(r.text)

首先我们要导入requests 库并用 r.requests.get获取到百度网站的信息然后使用 r.status_code 查看到当前的状态码如果是200则表示获取成功

扫描二维码关注公众号，回复： 7955817 查看本文章

r.encoding 指定字符编码最后调用 r.text 将获取的内容输出出来

执行一下我们想要的结果就出来了

那想获取网站上的商品信息又该怎么办呢

首先我们找到一个网站搜索一件商品点击进去复制他的链接

然后进行程序的编写这里我们要用到 try 和 except 方法

import requests

url = 'https://item.jd.com/100008348542.html'

try:
    r = requests.get(url)
    r.raise_for_status()  # 检测状态码如果是200则不报错 如果不是200 则抛出异常
    # 获取字符编码
    r.encoding = r.apparent_encoding
    print(r.text[:1000])  

except:
    print("爬取失败")

显示结果

是不是很简单呢？

例2

import requests

url = 'https://www.amazon.cn/dp/B06XGXXDV9?ref_=Oct_DLandingSV2_PC_45268aee_0&smid=A26HDXW89ZT98L'

try:
    kv = {"User-Agent": 'Mozilla5.0'}
    r = requests.get(url, headers=kv)
    # headers=kv 将自己请求头部信息更改为 kv这个字典的数据
    # 若果不更改头部信息默认是以requests库的身份去访问的网站
    # 有时候会导致获取信息的获取异常 我们吧头部信息该为 Mozilla5.0
    # 就会让服务器认为我们是以用户的身份去访问的网站
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
    print(r.request.headers)
except:
    print("爬取失败")

如果访问一个网站信息时发现信息没有提取出来则有可能是访问的服务器通过判断你的头部信息拒绝了你的访问这时候我们就要更改自己请求头的信息了

修改前

修改后 User-Agent 被修改了

如果你想要输入一个内容查看百度返回的结果可以通过查看百度接口来进行获取

我们可以看到当你输入图片上面的wd会跟着输入的改变而改变我们通过这个可以得出只要修改wd的值就可以查看到相应的内容

下面我们通过代码来实现一下百度的搜索

import requests

keyword=input("请输入你要查找的内容：")

try:
    kv = {"wd":keyword,
          "User-Agent": 'Mozilla5.0'
          }
    r = requests.get('http://www.baidu.com',kv)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")

显示结果我们以len计算一下数据的长度就可以了

如果我们要获取网上的一张图片并将他保存在本地硬盘该怎么办呢？

首先我们鼠标右击复制图片地址

然后进行程序的编写

import requests
import os
#图片链接
url = 'http://b-ssl.duitang.com/uploads/item/201210/03/20121003220216_xTBdK.jpeg'
root = 'D://pics//'
path = root + url.split('/')[-1]

try:
    if not os.path.exists(root):  #判断是否有这个目录 如果没有则创建一个
        os.mkdir(root)
    if not os.path.exists(path):  #判断是否有这个文件如果没有 则从url链接上面获取
        r = requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)     #r.content 是文件的二进制返回内容 f.write(r.content) 将返回的二进制形式写到文件中
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except :
    print("爬取失败")

然后产看D盘是否有这个文件

然后你就会发现图片已经保存在了本地并且在pics目录下

pyhton 基础数据的爬取1

猜你喜欢