パンダは、read_html() を通じてインターネットから表形式のデータを読み取ることができます。
HTML では、<table> タグでテーブルを定義できます。
<thead> タグはヘッダーを定義するために使用されます。
<tbody> はテーブルのテーマを定義するために使用されます
<tbody> の <tr> は行を定義します
<tbody> の <th> はセルを定義します
read_html() のパラメータ設定:
1.IO設定:
io には、ローカル HTML ドキュメントのパスまたは URL を指定できます。
2、試合
一致値は正規表現です。正規表現に一致する文字列の形式のみが返されます。それ以外の場合はエラーが報告されます。
3、フレーバー
フレーバーに Web ページのソース コードのパーサーを指定する場合、デフォルトは通常 lxml です。
4、ヘッダー
header は、テーブル内の 1 つまたは複数の行をテーブルの列ラベルとして指定するために使用されます。デフォルトでは、None パラメーターは単一の整数または整数のリストです。
5、インデックス列
header は、テーブル内の行をテーブルの行ラベルとして指定するために使用されます。デフォルトは None です。
6、エンコーディング
エンコードはテーブルデータとデコード方法を指定するために使用されますが、通常は指定する必要はありません