目次
方法 1: Anaconda ソフトウェアをインストールする
3. ファイルを読み取り、詳細なコードを含む簡単なグラフを描画します
序文
Xiaobai は Pythonon を使い始めた後、すでに Python の基本的な型と構文をいくつか知っています。今日は、Python がどのようにファイルを読み取り、視覚的なチャートを描画するかを詳しく説明しましょう
1. ファイルの読み取り手順:
Python でファイルを読み取るための標準ライブラリまたはサードパーティ ライブラリが多数あり、一般的に使用されるものは次のとおりです。pandas、Numpy、lxml、xml、xlwt、openpyxl、open等。
その中には、は組み込み関数でopen
あり、Python をダウンロードした後にコンパイラで直接呼び出すことができます。 Compile はPython の標準ライブラリであり、Python のインストール時に付属するデフォルトのライブラリです。Python のインストール ディレクトリにダウンロードしてインストールされますが、サードパーティのライブラリが異なれば、インストール方法や使用方法も異なります。本日共有した読書ファイルは ライブラリを使用しています。xml
;pandas、Numpy、lxml、xlwt、openpyxl 属于第三方库,
pandas
1.1 pandas
ライブラリのインストール
方法 1: Anacondaソフトウェアをインストールする
最も簡単な方法は、Pandas を直接インストールするのではなく、Python プログラミング プロセスで一般的に使用されるさまざまなサードパーティ ライブラリを統合するソフトウェア (クロスプラットフォーム (Linux、Mac OS X) である Anaconda) をインストールすることです。、Windows) Python の配布、データ分析と科学計算に使用されます。インストーラーを実行すると、ユーザーは他に何もインストールせずに、またソフトウェアのコンパイルを待たずに、新しいウィンドウのツールキットでPandas と SciPyopen のツールにアクセスできるようになり、非常に便利です。
方法 2: pip コマンドを使用してインストールする
cmd ウィンドウに コマンド「pip install pandas」を入力します。
1.2 pandas ライブラリの使用の概要
pandas ライブラリをダウンロードした後、まずコード ファイルのヘッダーにインポートします。パッケージをインポートするコマンドは、図に示すように[ import package name as simplified name ] です。
as の 後に エイリアスを追加すると、そのエイリアスを使用してライブラリのすべての関数を呼び出すことができます。以下に使用する機能を簡単に紹介します。
1. CSV または xlsx ファイルをインポートします。
df = pd.read_csv(r'name.csv')
df = pd.read_excel(r'name.xlsx'))
2. インポートした帳票ファイル情報を確認する
df.info()
3. テーブルオブジェクトのNULL値を表示する
df.isnull() #如果是空则为 ture ,非空为 false
df['列名'].isnull().sum() #统计指定列的空值个数
4. テーブルデータをクリーンアップする
#删除表中空值所在行,并覆盖原表
df = df.dropna()
#删除表中重复值所在行,默认保留第一行,并覆盖原表
df['列名'] = df['列名'].pd.drop_duplicates()
#将指定数替换掉表中空值,并覆盖原表
df = df['年龄'].fillna(df['年龄'].mean())
5. 表形式データのグループ化と集計
#将表中数据按城市分组,并且统计各个城市的数量
df_gop = df.groupby('城市').count()
#将表中数据按城市分组后再按性别,并且统计各个性别的数量
df_gop = df.groupby(['城市','姓别'])['姓别'].count()
6. テーブルデータのソート
#按照表中某列数据进行排序
df = df.sort_values(by=['订单量'])
#按照索引进行排序
df = df.sort_index()
7. テーブルのインデックスをリセットします
df = df.reset_index()
8. 表から特定の要件のデータを見つけます。
# loc 方法 查找df表格里面订单数大于等于3的数据
df1 = df.loc[df['订单数'] >= 3:]
# iloc 方法 查找df表格里面第4列到8列的数据
df2 = df.iloc[4:9]
# query 方法 查找df表格中地址为天津和南京的数据
df_inner.query('地址 == ["天津", "南京"]')
2. 視覚的なチャートを描く
Python はオープン ソース言語であるため、多くのサードパーティ ライブラリがあり、一般的に使用されるグラフ作成ライブラリには、pyechartsライブラリ、クエリライブラリ、plotlyライブラリ、matplotlibライブラリなどがあります。
Echarts は、Baidu がオープンソース化したデータ視覚化ツールで、優れたインタラクティブ性と絶妙なチャート デザインにより、多くの開発者に認められています。そして、Python は表現力豊かな言語であり、データ処理に非常に適しています。データ分析とデータ視覚化が出会ったとき、pyecharts が誕生しました。
Pyecharts は、v0.5 と v1 の 2 つのメジャー バージョンに分かれています。v0.5 と v1 の 2 つのバージョンには互換性がありません。V1 は新しいバージョンであるため、グラフを描画するプロセスを示すために、学習は v1 バージョンに基づいています。
文法形式は次の図に示すとおりです。
3. ファイルを読み取り、詳細なコードを含む簡単なグラフを描画します
描画するたびに要件が異なり、コードも異なりますので、このブログは参考程度に留めてください。ここでは、猫のダブル 12 の売上の上位 10 位の円グラフを描画する例を示します。
トピック:ダブル 12 の売上上位 10 位の商品カテゴリを数え、 商品カテゴリの 売上高比率の ドーナツ グラフを描く
データ フィールドの意味と部分的なデータの図:
最後に完成品を見てみましょう。
要約:
今日の共有はこれですべてです。内容は深くありません。Xiaobai 向けです。このブログが少しでもお役に立てましたら、ぜひコメントや転送をしていただければ、皆さんも自分の好きな道をどんどん進んでいただければ幸いです!