今日は2021年8月20日です。夜、家に座っていると、突然その2021福布斯排行榜
ニュースを見ました。それで、私はこの記事を書くように促されました。
ニュース:ランキング123ネットワークリッチチャネルは、2021年のフォーブスリッチリストを提供します。このリストには、世界で最も裕福な人々の2021年のリストと、世界のさまざまな国の最も豊富なランキングが含まれています。現在、ジェフ・ベゾスは世界で最も裕福な男性で1914億米ドルの富を持っており、中国で最も裕福な男性は次のとおりです。Zhong Suisui(価値:626億米ドル)
これは表形式のデータであるため、対策はありません。時間を節約するために、ライブラリに直接アップロードできpandas
ます。必要なコードは5行だけです。
import pandas as pd
import csv
for i in range(1,16): # 爬取全部页
tb = pd.read_html(f'https://www.phb123.com/renwu/fuhao/shishi_{
i}.html')[0]
tb.to_csv(r'福布斯排行榜.csv', mode='a', encoding='utf_8_sig', index=0)
結果は次のようになります。
恥ずかしすぎて、ヘッダー行がすべてそこにあり、14個のヘッダーがあります。それを読んで、重複する行を削除しましょう。
df = pd.read_csv("福布斯排行榜.csv",header=None)
df.drop_duplicates(inplace=True)
df.to_excel("福布斯排行榜.xlsx",index=None)
この関数を直接使用してdrop_duplicates()
、重複排除操作を実装し、新しいファイルを再保存します。
では、データ探索を始めましょう。
df1 = pd.read_excel("福布斯排行榜.xlsx",header=1)
df1
結果は次のとおりです。
1.世界のトップ10
x = df1.head(10)
x
結果は次のとおりです。
2.リストに最も多くの人がいる上位10か国
df1.groupby("国家/地区")["名字"].count().sort_values(ascending=False)[:10].to_frame().reset_index()
結果は次のとおりです。
3.中国のトップ10
y = df1[df1["国家/地区"] == "中国"]
y.head(10)
結果は次のとおりです
。実際、中国のトップ10であろうと世界のトップ10であろうと、基本的には一部の耳熟能详
企業です。リストに載っているアメリカ人の数は確かに多いと言わざるを得ません。
さて、それを知って、あなたの心にインスピレーションを与えてください!あなたが他の誰かになることができないなら、あなたは一生懸命働くべきです。週末のチキンスープと考えてください!