安装爬虫第三方的组件,简单学习爬虫(requests,bs4)

安装setuptools(安装包,需要解压)及pip
在百度上搜索
在这里插入图片描述

进入pypi的第三方模块组件
在这里插入图片描述

(开源的网站:github.com)

在这里插入图片描述

在 cd到setuptools安装的目录下
输入python setup.py install
在这里插入图片描述

在本地用户上创建一个文件夹为pip文件夹
在文件夹里创建pip.ini
pip.ini写入(需要跨网站下载源,使用阿里云下载更快,配置阿里云源):
[global]
index-url=https://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=pypi.tuna.tsinghua.edu.cn

安装requests命令(cmd下全局调用)
C:\Users\Lenovo>pip install beautifulsoup4==4.9.3(或者pip 模块名称)

(局部调用)在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这样就配置成功了。

pypi上有许多解释模块的用法和用法。(英语不好的也可以翻译成中文)
在这里插入图片描述

requests.get(抓取


import requests
url='https://www.csdn.net/'

a=requests.get(url)#获取网页请求
#print(type(a))#查看类型
#print(a.status_code)#查看请求状态200为正常,才能抓取网页内容
#print(a.text)#获取网页内容二进制表示
#print(a.content)#获取网页内容全部文本表示
#print(a.headers)#头部
print(a.cookies)

练习(二)

import requests

'''构建一个函数
    更改头的标题
    实现网页抓取
    抓取的内容写入文档

'''
url='https://www.csdn.net/'
def ask():
    headers = {'user-agent': 'my-app/0.0.1'}  # 修改头的标题参数
    r=requests.get(url,headers=headers)
    print(r)
    print('*'*20)
    t=print(r.text)
    return t
if __name__ == '__main__':
    wl=ask()
    

练习(二)

import requests
'''构建一个类
    更改头的标题
    实现网页抓取
    抓取的内容写入文档
    
'''
url = 'https://www.csdn.net/'
class Dxinag():
    def __next__(self,url):
        self.url=url
    def header(self):# 修改头的标题参数

        headers = {'user-agent': 'my-app/0.0.1'}
        t=requests.get(url, headers=headers)
        return t
    def zhuqu(self):#实现网页抓取
        s=requests.get(url)
        m=s.text
        return m
if __name__ == '__main__':
    a=Dxinag()
    print(a.header())
    print(a.zhuqu())

有空学习
学习一些HTTP的知识
htlm的相关知识

猜你喜欢

转载自blog.csdn.net/weixin_47514459/article/details/109959688