ターゲットウェブサイト
http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html
テーブルのデータ形式は次のようになります
大まかなネットワーク構造
<table class="..." id="..." ...>
...
<tbody>
<tr>
<td>...</td>
</tr>
<tr>...</tr>
<tr>...</tr>
<tr>...</tr>
<tr>...</tr>
...
<tr>...</tr>
<tr>...</tr>
</tbody>
</table>
<table></table> 表示整体表格
<tr>...</tr>表示一行
<td>...</td>表示某一格的数据
コード
HTMLファイルからデータを読み取る
上に示したように、PandasはDataFrameを直接使用してHTMLテーブルを生成でき、HTMLファイルを読み取ることもできます。read_html()関数は、HTMLページを解析し、HTMLテーブルを探します。見つかった場合は、データ分析に直接使用できるDataFrameオブジェクトに変換されます。
テーブルが1つしかない場合でも、read_html()関数はDataFrameリストを返します。
import pandas as pd
dates=[201901,201902,201903,201904,201905,201906,201907,201908,201909,201910,201911,201912]
print(dates)# 构造出日期序列 便于之后构造url
for i in range(len(dates)):
df = pd.read_html(f'http://www.tianqihoubao.com/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]
print(df)
if i == 0:
df.to_csv('2019年万州天气预报数据.csv', mode='a+', index=False) # mode='a+'追加写入
i += 1
else:
df.to_csv('2019年万州天气预报数据.csv', mode='a+', index=False, header=False)
print('结束')
ウェブサイトを変更する
http://data.eastmoney.com/hsgt/top10.html
import pandas as pd
df = pd.read_html(f'http://data.eastmoney.com/hsgt/top10.html', encoding='gbk')[0]
print(df)
一部の複雑なWebサイトは読み取ることができません。
読める場合は読む、読めない場合はクロールしてみてください