今日は、Pythonを使用したデータ分析のためのいくつかの一般的なヒントとコマンドをまとめました。

 

 

Pythonデータ分析の速度を向上させるための8つのヒント

01

Pandas Profilingでデータをプレビューする

このアーティファクトについては前の記事で詳しく説明しました。PandasProfilingを使用すると、データ分析の前にデータをすばやくプレビューできます。何度も使用したNBAデータセットを取得します。データセットをインポートした後

 

 

1行のコードでリッチなインタラクティブデータEDAレポートを生成

 

ご覧のとおり、以前に必要だったいくつかの説明的な統計に加えて、レポートには次の情報も含まれています。

  • 型推論:データフレーム内の列のデータ型を検出します。
  • 重要なポイント:タイプ、一意の値、欠損値
  • 最小、Q1、中央値、Q3、最大、範囲、四分位範囲などの四分位統計
  • 平均、最頻値、標準偏差、合計、中央絶対偏差、変動係数、尖度、歪度などの記述統計
  • 最も一般的に使用される値
  • ヒストグラム
  • 相関行列
  • 欠損値マトリックス、カウント、ヒートマップ、欠損値デンドログラム
  • テキスト分析:テキストデータ(大文字、スペース)、スクリプト(ラテン語、キリル文字)およびブロック(ASCII)のカテゴリを理解する

 

02

カフリンクスを使用してグラフを描画する

 

最後のアーティファクトであるPandas Profilingは、データをすばやくプレビューするのに役立ちます。次に、このアーティファクトカフリンクは、DataFrameを使用してインタラクティブなグラフをすばやく描画するのに役立ちます。seabornがmatplotlibをカプセル化するのと同じように、cufflinksは、統一された方法と簡単なパラメーター構成で、plotlyに基づいて追加のパッケージを作成します。

パンダに詳しい生徒は、パンダが.plot()を直接呼び出して描画できることを知っているかもしれません。

df.plot()

 

カフリンクスを使用して描画する場合、それもコード行です

df.iplot()

 

インタラクティブなグラフの方が人気がありますか?もちろん、DataFrameを直接使用して他の複雑なグラフを描画することもできます

 

データ分析でデータの視覚化が頻繁に必要な場合は、カフリンクの使用を検討してください!

 

03

ノートブックのマジックコマンドを使用する

 

Magicコマンドは、Jupyter Notebookの便利な機能のセットです。このコマンドを上手に使用すると、データ分析における一般的な問題を解決できます。すべてのMagicコマンドを表示するには、%lsmagicを使用します。以下では、一般的に使用されるいくつかのコマンドを紹介します

 

%ストア:異なるノートブック間で変数を渡す

1つのノートブックでデータの前処理、データのクリーニングやその他の関連作業、別のノートブックでの視覚化を経験したことがあるかどうかわかりません。描画するときに別のノートブックでデータを直接呼び出す方法はありますか?%ストアを使用して簡単に解決できます

%store 变量 #保存变量
%store -r 变量 #在另一个notebook中调用变量

 

 

%who:すべての変数を一覧表示します

大規模なデータ分析の過程で、定義されている変数を忘れたり、変数が割り当てられているかどうかを忘れたり、変数名を忘れたり、割り当てステートメントを削除したりすることはありませんか。このノートブックのすべての変数をリストするために%whoコマンドを使用することは重要ではありません

 

%debug:対話型デバッグ

実行してエラーを見つけるために大量のコードを作成することがありますが、現時点ではデバッグは比較的面倒なので、新しい行に%debugと入力して実行できます。これにより、インタラクティブなデバッグ環境が開き、例外が発生した場所を直接見つけることができます。プログラムで割り当てられた変数値を確認し、ここで操作を実行することもできます

 

ノートブックには、1つずつ紹介されていない魔法のコマンドがたくさんあります。興味がある場合は、クエリを実行して使用するか、公開番号「early python」のフォローアップ記事に注意してください。

 

04

jupyterショートカットを使用する

 

埋め込みコードを生成するための優れたエディターとして、Jupyterには多くのショートカットキーが付属しています。ショートカットキーを上手に使用すると、面倒なマウスクリック操作を大幅に節約できます。LinuxおよびWindowsでは、Cmd + Shift + PまたはCtrl + Shift + Pを使用できます。使用できるショートカットキーを確認します。

 

よく使われる

Tab : 代码补全或缩进
Shift-Tab : 提示
Ctrl-] : 缩进
Ctrl-[ : 解除缩进
Ctrl-Home : 跳到单元开头
Ctrl-Up : 跳到单元开头
Ctrl-End : 跳到单元末尾
Ctrl-Down : 跳到单元末尾
Ctrl-Left : 跳到左边一个字首
Ctrl-Right : 跳到右边一个字首

 

05

使用pprint

 

pprintは、プリティプリンターの略で、Pythonのデータ構造の印刷に使用されます。printと比較すると、印刷された構造の方が見やすく、読みやすくなっています。

最初に印刷物を見る

 

pprintを見てみましょう。読みやすいですか

 

 

06

外れ値を処理するための複数の方法をマスターする

 

データ分析にpythonを使用する場合、データセットに欠損値、null値、または外れ値がある場合、データのクリーニングは特に重要なステップです。したがって、Pythonを使用して外れ値を処理するさまざまな方法を習得し、データ分析の前に外れ値を前処理すると、データ分析の効率が大幅に向上します。

たとえば、欠落しているデータを「*」に置き換えます。.fillna( '*')を使用してすべての欠損値を*で置き換えるか、data.fillna(axis = 1、method = 'ffill')を使用して欠損値を水平/垂直に欠損値の前の値で置き換えることができます外れ値の処理方法については、Pythonデータ分析のクリーニングデータを参照してください:欠損値処理

 

07

-iを使用してPythonスクリプトを実行する

 

python filename.pyを使用してコマンドラインでpythonスクリプトを実行できることは誰もが知っています。このスクリプトを実行した後、pythonはコンパイラを終了しないため、python -i filename.pyを使用してpythonスクリプトを実行することをお勧めします。したがって、変数の値を確認するか、操作を続行できます。

そして、コードにエラーがある場合、コマンドはコードが異常な場所を直接特定し、コードをより便利に処理できるようになります。

 

 

08

データをバッチで読み取る

 

パンダを使用して非常に大きなデータファイルを読み取るときに、すべてのデータを一度に直接読み取ると、メモリが不足することがあるので、データをバッチで読み取り、それぞれを処理する必要があります。次に、バッチは各バッチの結果を保存し、最後にすべてのバッチの結果を要約します。

 

 

Pythonを学習したい場合、またはPythonを学習している場合は、Pythonのチュートリアルがたくさんありますが、最新ですか?おそらく、2年前に人々が学んだかもしれないことを学んだかもしれません。ここで、2020年の最新のPythonチュートリアルの波を共有します。入手方法は、プライベートレターの「お知らせ」を編集して無料で入手できます!

おすすめ

転載: www.cnblogs.com/python0921/p/12722234.html