呉ユーキション - ノートを学んで生まれた自然のpython:パンダモジュールのインポートデータ

我々が通過して時には、データフレームのデータの手動生成されたパンダは、非常に面倒なことです
多くの場合、最初のデータは、データベースまたはExcelに格納され、その後、データパンダをインポートします。別のケースが逮捕されました
Webページ・テーブル・データの何千ものデータフレームのデータとして、パンダをインポートします。
パンダは、一般的にインポートデータにメソッドを使用します:

ここでは、この方法によって、HTMLページを読み込んだデータテーブルをフェッチ示しています。
パンダはhtml5libキットを使用することになるread_html方法は、コマンドでインストールすることができます:PIPがインストールhtml5lib
http://value500.com/に長年にわたって例えば中国のGDPデータテーブルのM2GDP.htmlページ、
説明:

今、私たちはテーブルのデータ・ページのすべてをキャッチすることができるようになります2行のコードが必要になります
 インポートPANDAS ASのPD
テーブル = PD。HTMLを読み込む(」http://value500.com/M2GDPの.html」)
これは、HTMLデータフレームメソッドが返すリストを読んで、各要素は、Webページのフォームです。ネット
、どのように我々はそれをつかむしたい形態である一つのテーブルで多くのページを知っていますか?これは、手動でのパーティーに私たちを必要とし
検索するには、「<表」でページのソースコードに入力し、ビューのテーブルには、キャプチャされるために、いくつかの最初のものです。手動
面倒で正確ではないが、以下の手順では、あらゆる形態の前に表示される 5行:
輸入PDとしてパンダ

tables = pd.read_html("http://value500.com/M2GDP.html")
n = 1
for table in tables:
    print("" + str(n) + " 个表格:")
    print(table.head())
    print()
    n += 1

 

............

 

浏览程序的执行结果,我们可以看到要抓取的表格是第20个表,系统自动编号
作为行、列标题,数据的第 l 行是标题行,第 2 行开始才是表格数据 。
了解了所抓表格的结构以后,即可抓取表格并将数据处理为需要的格式了!
在网页中抓取我国历年 GDP 数据
要求:先以 read htm l 方法抓取网页中包含我国历年 GDP 数据的表格,并删除1 行数据,然后重新设置行、列标题
import pandas as pd

tables = pd.read_html("http://value500.com/M2GDP.html")
table = tables[19]
table = table.drop(table.index[0:1])
table.columns = ["年份", "M2指标", "GDP绝对额", "M2/GDP"]
table.index = range(len(table.index))
print(table)

绘制图形
为了让表格数据看起来一 日了然,有时我们需要把表数据绘制成统计图 。
Pandas 提供了图形绘制的功能,语法为 :

 

 

import pandas as pd

datas = [[65,92,78,83,70], [90,72,76,93,56], [81,85,91,89,77], [79,53,47,94,80]]
indexs = ["林大明", "陈聪明", "黄美丽", "熊小娟"]
columns = ["语文", "数学", "英文", "自然", "社会"]
df = pd.DataFrame(datas, columns=columns,  index=indexs)
print(df)
df.plot()

 

 

 

おすすめ

転載: www.cnblogs.com/tszr/p/12031074.html