Instale los componentes de terceros del rastreador y simplemente aprenda el rastreador (solicitudes, bs4)

Instale setuptools (paquete de instalación, necesita descomprimir) y
busque pip en Baidu
Inserte la descripción de la imagen aquí

Ingrese los componentes del módulo de terceros de pypi
Inserte la descripción de la imagen aquí

(Sitio web de código abierto: github.com)

Inserte la descripción de la imagen aquí


Ingrese en cd al directorio donde está instalado setuptoolspython setup.py install
Inserte la descripción de la imagen aquí

Cree una carpeta en el usuario local como la carpeta pip
Cree pip.ini en la carpeta y
escriba pip.ini (requiere una fuente de descarga entre sitios, use Alibaba Cloud para descargar más rápido, configure la fuente de Alibaba Cloud):
[global]
index-url = https: //mirrors.aliyun.com/pypi/simple/
[instalar] servidor de
confianza = pypi.tuna.tsinghua.edu.cn

Instale el comando de solicitudes (llame globalmente bajo cmd)
C: \ Users \ Lenovo> pip install beautifulsoup4 == 4.9.3 (o nombre del módulo pip)

(Llamada parcial) Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí
Inserte la descripción de la imagen aquí

Esta configuración es correcta.

Hay muchas explicaciones sobre el uso y uso del módulo en pypi. (Si el inglés no es bueno, también se puede traducir al chino)
Inserte la descripción de la imagen aquí

request.get (buscar


import requests
url='https://www.csdn.net/'

a=requests.get(url)#获取网页请求
#print(type(a))#查看类型
#print(a.status_code)#查看请求状态200为正常,才能抓取网页内容
#print(a.text)#获取网页内容二进制表示
#print(a.content)#获取网页内容全部文本表示
#print(a.headers)#头部
print(a.cookies)

Práctica (dos)

import requests

'''构建一个函数
    更改头的标题
    实现网页抓取
    抓取的内容写入文档

'''
url='https://www.csdn.net/'
def ask():
    headers = {'user-agent': 'my-app/0.0.1'}  # 修改头的标题参数
    r=requests.get(url,headers=headers)
    print(r)
    print('*'*20)
    t=print(r.text)
    return t
if __name__ == '__main__':
    wl=ask()
    

Práctica (dos)

import requests
'''构建一个类
    更改头的标题
    实现网页抓取
    抓取的内容写入文档
    
'''
url = 'https://www.csdn.net/'
class Dxinag():
    def __next__(self,url):
        self.url=url
    def header(self):# 修改头的标题参数

        headers = {'user-agent': 'my-app/0.0.1'}
        t=requests.get(url, headers=headers)
        return t
    def zhuqu(self):#实现网页抓取
        s=requests.get(url)
        m=s.text
        return m
if __name__ == '__main__':
    a=Dxinag()
    print(a.header())
    print(a.zhuqu())

Gratis para aprender
Aprenda algunos conocimientos de
HTTP y conocimientos relacionados con htlm

Supongo que te gusta

Origin blog.csdn.net/weixin_47514459/article/details/109959688
Recomendado
Clasificación