Tenemos que encontrar la cinta de etiquetas que se arrastra desde el código fuente HTML y configuración de rastreo de clase target = 'job_titile' y class = 'job_content'
Importación solicitudes de BS4 importación del BeautifulSoup importación BS4 importación PANDAS PD AS # Herramienta de referencia URL = ' http://fj.huatu.com/zt/2019zwb/diqu/1.html ' DEF Trabajo (S): # función -definida el try : cabeceras {= ' el Agente User-- ' : ' la Mozilla / 5.0 (Windows NT 6.3; Win64; x64-) AppleWebKit / 537.36 (KHTML, como el Gecko) la Chrome / 69.0.3497.100 Safari / 537.36 ' } R & lt = requests.get (S, timeout = 30, cabeceras = cabeceras) # petición de obtención de envío r.raise_for_status () r.encoding = r.apparent_encoding # Unicode sopa = BeautifulSoup (R.TEXT, ' LXML ' ) # usan la biblioteca BeautifulSoup retorno sopa de la excepción : el retorno "" # error, devuelve una cadena vacía sopa = el Trabajo ( URL) a = [] # definir dos lista vacía B = [] para Link1 en soup.find_all ( ' div ' , la class_ = ' job_content ' ): # uso find_all etiqueta función de búsqueda b.append (link1.get_text ()) para link2 en soup.find_all ( ' div ' , la class_ = ' JOB_TITLE ' ): (. link2.get_text () Strip ()) a.append Data = pd.DataFrame ([A , B], índice = [ " directorio " , " posición " ]) # uso trama de datos visual de impresión ( " datos de posición de Fuzhou Región: " , " \ n ' ) # utilizando la función de impresión para imprimir de impresión (datos)
Los resultados se muestran rastreo