La reducción a lo que estoy raspado de un sitio web utilizando Python - Code World

La reducción a lo que estoy raspado de un sitio web utilizando Python

Others 2022-04-28 18:11:43 views: 0

Anterthorp:

Estoy tratando de practicar mi pitón raspado de sitios web, pero estoy teniendo problemas para reducirla a un tamaño razonable sin pitón no reconocer lo que estoy pidiendo. Por ejemplo, aquí está mi código:

import bs4
import requests

url = requests.get('https://ballotpedia.org/Alabama_Supreme_Court')
soup = bs4.BeautifulSoup(url.text, 'html.parser')
y = soup.find('table')
print(y)

Estoy tratando de raspar los nombres de los jueces de la Corte Suprema del Estado de Alabama, pero con este código, consigo demasiada información. He tratado de cosas, tales como (en la fila 6)

y = soup.find('table',{'class':'wikitable sortable'})`

pero me sale un mensaje diciendo que la búsqueda no encuentra resultados.

Aquí está una imagen de la inspección de la página web. Mi objetivo es conseguir la culata en T a la obra en mi código, pero estoy fallando!

¿Cómo puedo especificar al pitón que quiero sólo los nombres de los jueces?

¡Muchas gracias!

aԋɱҽԃ aмеяicai:

Simplemente, voy a hacerlo de esta manera.

import pandas as pd

df = pd.read_html("https://ballotpedia.org/Alabama_Supreme_Court")[2]["Judge"]

print(df.to_list())

Output:

['Brad Mendheim', 'Kelli Wise', 'Michael Bolin', 'William Sellers', 'Sarah Stewart', 'Greg Shaw', 'Tommy Bryan', 'Jay Mitchell', 'Tom 
Parker']

Now Moving back to the original issue to solve it as I personally love to fix the real issue without navigating to alternative solutions.

there's difference between find which will return only the first element but find_all will return a list of elements. Check the Documentation.

import directly from bs4 import BeautifulSoup instead of import bs4 as it's the The DRY Principle of Python.

Leave bs4 to handle the content as it's one of it's tasks in the back-ground. so instead of r.text use r.content

Now, we will deep into the HTML to select it:

from bs4 import BeautifulSoup
import requests

r = requests.get("https://ballotpedia.org/Alabama_Supreme_Court")
soup = BeautifulSoup(r.content, 'html.parser')


print([item.text for item in soup.select(
    "table.wikitable.sortable.jquery-tablesorter a")])

Now, you have to read about CSS-Selection

Output:

['Brad Mendheim', 'Kelli Wise', 'Michael Bolin', 'William Sellers', 'Sarah Stewart', 'Greg Shaw', 'Tommy Bryan', 'Jay Mitchell', 'Tom Parker']

Supongo que te gusta

Origin http://43.154.161.224:23101/article/api/json?id=365662&siteId=1

La reducción a lo que estoy raspado de un sitio web utilizando Python

El sitio web oficial de Ant-Design siempre no se puede abrir, por lo que debemos usar la siguiente dirección espejo del sitio web oficial para abrirlo;

Mysql separa un determinado campo del resultado de la consulta con una coma, lo que se puede realizar utilizando la función group_concat (utilizada con group by)

Estoy tratando de formas de visualización utilizando tela y que no se muestran

¿El uso de un host virtual para construir un sitio web es adecuado para la optimización del sitio web?

La recopilación de información mediante el raspado

Un ejemplo simple de secuencias de comandos de Powershell para iniciar sesión automáticamente en un sitio web, utilizando la línea de comando para implementar solicitudes Http(s) GET y POST

Hacer un sitio web de confesión

Lo siento, estoy un millón al año, para todos a la vergüenza!

Estoy tratando de representar lo que esta declaración de impresión de Java “(((0xFF << (i * 8)) y la prueba))))“significa

Un sitio web de reclutamiento que se puede utilizar directamente, react django desarrolla un sitio web de reclutamiento, implementación de docker

Recuerde que se escaneó el puerto de un sitio web

Estoy frente a un problema con la selección de JTable

Tutorial de desarrollo secundario de Imperial CMS: prohibir que un grupo de usuarios inicie sesión para garantizar la seguridad del sitio web

¿Cómo puedo obtener y extraer un número del sitio web utilizando Java?

Recuerde la experiencia de la migración de un sitio web a wordpress

Lo que vale la pena práctico sitio un aspecto cada día los estudiantes

¿Cómo detecta un sitio web si un usuario está utilizando un complemento de bloqueo de anuncios?

La aplicación del sitio web springboot utiliza un inicio de sesión QQ de terceros

[Ejemplo de rastreador] Analice las ideas generales de escritura de los rastreadores de python de la estación B y un determinado sitio web en papel: para alguien

15 elementos para mejorar la persuasión de un sitio web

Deje a un lado sus prejuicios: pruebe el sitio web chatgpt de la "versión china"

Cinco trucos de Python que no conocías sobre la reducción de líneas de código

Estoy teniendo un problema que muestra los cambios en el uso de la superficie de pygame

[Creación de sitios web móviles] Penetración de la intranet Android Termux+cpolar, cree un sitio web al que se pueda acceder desde la red externa, sin IP de red pública

python reptil: rastrear un sitio web imágenes de alta resolución

python reptil: rastrear un sitio web imágenes de alta resolución

Estoy conectando a la base de datos MySQL utilizando JNDI, pero en la ejecución termina en lanzar excepciones

Los visitantes del sitio obtener un número de teléfono celular pertenece a lo que tipo de adquisición manera (CPA)

Sitio web de navegación | El diseño no tiene sensación, y los amigos que luchan por encontrar varias herramientas o materiales lo recopilarán.

Recomendado

Clasificación

Diario

Más

2024-05-14(10)

2024-05-13(7)

2024-05-12(22)

2024-05-11(31)

2024-05-10(32)

2024-05-09(31)

2024-05-08(18)

2024-05-07(35)

2024-05-06(4)

2024-05-05(0)