安装爬虫第三方的组件，简单学习爬虫（requests,bs4)

安装setuptools（安装包，需要解压）及pip
在百度上搜索
在这里插入图片描述

进入pypi的第三方模块组件
在这里插入图片描述

（开源的网站：github.com)

在这里插入图片描述

在 cd到setuptools安装的目录下
输入python setup.py install
在这里插入图片描述

在本地用户上创建一个文件夹为pip文件夹
在文件夹里创建pip.ini
pip.ini写入（需要跨网站下载源，使用阿里云下载更快，配置阿里云源）：
[global]
index-url=https://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=pypi.tuna.tsinghua.edu.cn

安装requests命令(cmd下全局调用）
C:\Users\Lenovo>pip install beautifulsoup4==4.9.3（或者pip 模块名称）

（局部调用）

在这里插入图片描述

这样就配置成功了。

pypi上有许多解释模块的用法和用法。（英语不好的也可以翻译成中文）
在这里插入图片描述

requests.get（抓取

）


import requests
url='https://www.csdn.net/'

a=requests.get(url)#获取网页请求
#print(type(a))#查看类型
#print(a.status_code)#查看请求状态200为正常，才能抓取网页内容
#print(a.text)#获取网页内容二进制表示
#print(a.content)#获取网页内容全部文本表示
#print(a.headers)#头部
print(a.cookies)

练习（二）

import requests

'''构建一个函数
    更改头的标题
    实现网页抓取
    抓取的内容写入文档

'''
url='https://www.csdn.net/'
def ask():
    headers = {'user-agent': 'my-app/0.0.1'}  # 修改头的标题参数
    r=requests.get(url,headers=headers)
    print(r)
    print('*'*20)
    t=print(r.text)
    return t
if __name__ == '__main__':
    wl=ask()

练习（二）

import requests
'''构建一个类
    更改头的标题
    实现网页抓取
    抓取的内容写入文档
    
'''
url = 'https://www.csdn.net/'
class Dxinag():
    def __next__(self,url):
        self.url=url
    def header(self):# 修改头的标题参数

        headers = {'user-agent': 'my-app/0.0.1'}
        t=requests.get(url, headers=headers)
        return t
    def zhuqu(self):#实现网页抓取
        s=requests.get(url)
        m=s.text
        return m
if __name__ == '__main__':
    a=Dxinag()
    print(a.header())
    print(a.zhuqu())

有空学习
学习一些HTTP的知识
htlm的相关知识

安装爬虫第三方的组件，简单学习爬虫（requests,bs4)

猜你喜欢