[Python] パンダは表形式のデータを取得します

パンダは、read_html() を通じてインターネットから表形式のデータを読み取ることができます。

HTML では、<table> タグでテーブルを定義できます。

<thead> タグはヘッダーを定義するために使用されます。

<tbody> はテーブルのテーマを定義するために使用されます

<tbody> の <tr> は行を定義します

<tbody> の <th> はセルを定義します

read_html() のパラメータ設定:

1.IO設定:

io には、ローカル HTML ドキュメントのパスまたは URL を指定できます。

2、試合

一致値は正規表現です。正規表現に一致する文字列の形式のみが返されます。それ以外の場合はエラーが報告されます。

3、フレーバー

フレーバーに Web ページのソース コードのパーサーを指定する場合、デフォルトは通常 lxml です。

4、ヘッダー

header は、テーブル内の 1 つまたは複数の行をテーブルの列ラベルとして指定するために使用されます。デフォルトでは、None パラメーターは単一の整数または整数のリストです。

5、インデックス列

header は、テーブル内の行をテーブルの行ラベルとして指定するために使用されます。デフォルトは None です。

6、エンコーディング

エンコードはテーブルデータとデコード方法を指定するために使用されますが、通常は指定する必要はありません

おすすめ

転載: blog.csdn.net/weixin_39407597/article/details/126680560