El comienzo de pandas de formación para el procesamiento de datos

importar urllib.request;
de pandas importar trama de datos;
de pandas importar la serie;
de BS4 importación BeautifulSoup; 

respuesta = (urllib.request.urlopen ' file: /// F: /python/untitled1/core/do_data/2month.html ' ); 
html = response.read (); 
sopa = BeautifulSoup (html, " html.parser " ) 
trs = soup.find_all ( ' tr ' ) 
THS = trs [0] .find_all ( ' º ' );

index_d = []
 para ésimo en THS: 
    index_d.append (th.getText ()) 
de datos = trama de datos (columnas = index_d)
 de impresión (index_d) 

para tr en trs: 
    tds = tr.find_all ( ' td ' ) 
    td_datas = []
     para TD en TDS: 
        td_datas.append (td.getText ()) 
    si len (td_datas) =! 0: 
        datos = data.append ( 
            Series ( 
                td_datas,
                índice =  index_d
            ), ignore_index = Verdadero 
        ) 

de impresión (LEN (datos)) 

str2s = [] 

para i en gama (LEN (datos [ " 股票全码" ])): 
    str2 = str (datos [ " 股票全码" ] [ i]) 
    str2 = str2.replace ( " SZ " , " 0 | " ) 
    str2 = str2.replace ( " SH " , " 1 | ") 
    Str2 = str2 + " | " + Los datos [ " tiempo límite " ] [i] + "  " + los Datos [ " razones históricas limitan " ] [i] + "  " + los Datos [ " limitar las razones de la elección " ] [i] 
    str2s.append (str2) 

los Datos [ " nuevas nuevas " ] = str2s 
de datos = data.drop_duplicates (subconjunto = [ ' ticker ' ], = Mantener ' Última ' , InPlace = False)
 Imprimir (len (datos)) 
DF2 = datos [ " nueva nueva " ].
Los valores #imprimir (tipo (DF2))

archivo = open ( ' data.txt ' , ' w ' ) 
file.writelines ( " \ n " .join (DF2)); 
file.close ()

 

Supongo que te gusta

Origin www.cnblogs.com/rongye/p/12466584.html
Recomendado
Clasificación