最も簡単な方法は、Pythonとパンダを使用してデータをクリーンアップします

オリジナルリンク: https://www.marsja.se/easiest-data-cleaning-method-using-python-pandas-pyjanitor/

この記事では、Pythonパッケージを使用Pyjanitorデータ前処理を簡素化する方法を学びます。具体的には、我々はどのように学習します。

  • Pandasdataframe(データフレーム)に列を追加します

  • 欠損値を削除します。

  • 空の列を削除します。

  • クリーニング列名

それは、私たちはパンダのデータフレームをきれいにするPyjanitorを使用する方法を学習しますです。すべてのデータ操作Pythonの例では、我々はまた、これらの操作を実装するだけでパンダの機能を使用する方法について説明します。

何そのPyjanitor?

我々は、データセットをクリーンアップするためにパンダとPyjanitorを使用する方法を学習し続ける前に、その何ですか?Pyjanitor、我々はパッケージを検討します。PythonパッケージPyjanitor使用テキストベースのAPIは、パンダを拡張します。この使いやすいAPIは、便利なデータのクリーンアップ技術を提供してくれます。もちろん、それは管理人のRパッケージの先頭部分です。また、それはdplyr Rパッケージの表現力と使いやすさに触発されています。これらのメソッドを使用するには、いくつかの異なる方法があることに注意してください、それは(します。https://pyjanitor.readthedocs.io/ドキュメントを参照してください)すべての方法をカバーしています。

Pyjanitorのインストール方法

Pyjanitorをインストールするには、2つの比較的簡単な方法があります。

1.インストールPyjanitorピップ
ここに画像を挿入説明

2. CondaインストールPyjanitor:
ここに画像を挿入説明

今、私たちはPyjanitorが何であるかを知っていることと、このパッケージをインストールする方法、そして、我々はすぐに欠損値からパンダを削除する方法を学び、Pythonのデータをクリーンアップチュートリアルを学習し続けることができるようになります。このパンダチュートリアルでは、これを達成するためにパンダとPyjanitorを使用する方法について詳しく説明していることに注意してください。最後に、我々は唯一のデータクレンジングPyjanitorとJupyterノートブックへのリンクはすべてのコードが含まれているを使用しての完全な例があります。

パンダのデータ操作を使用します。簡潔なガイド(https://www.marsja.se/data-manipulation-pandas-tutorial/)

偽データ

第1操作データのPythonの例では、ダミーのデータセットを使用します。具体的には、私たちは、空の列および欠損値の数を持つデータフレームを作成します。この記事のこの部分では、我々はさらにPythonパッケージscipyのダウンロードとnumpyのを使用します。言い換えれば、我々はまた、これらのパッケージをインストールする必要があります。

件名、RT(応答時間)とDEG;この例では、我々は3つの列を作成します。応答時間の列を作成するには、scipyのダウンロードに標準正規分布を作成するためにデータを使用します。
ここに画像を挿入説明
scipyのダウンロードは、通常のPythonを使用して作成しました

次のコードブロックでは、我々は、正規分布が可変の応答時間のために使用される作成します。
ここに画像を挿入説明
リストを並べ替えや欠損値を追加します

また、我々はいくつかの欠損値を追加し、正常に配信されたデータのリストを並べ替える:
ここに画像を挿入説明
辞書からデータフレームを作成します

最後に、我々は、データフレームのパンダを作成するために使用することが我々の2つの変数、辞書、辞書を作成します。
ここに画像を挿入説明
ここに画像を挿入説明
辞書からデータフレームを作成します

PythonでパンダとPyjanitorデータクレンジングを使用します

パンダのデータフレームに列を追加する方法

今、私たちは辞書から私たちのデータフレームを作成したので、我々はそれに列を追加する準備が整いました。次の例では、我々はPandsaとPyjanitorsメソッドを使用します。

1パンダデータフレームに列を追加します

使用パンダは、データフレームに行を追加することは非常に簡単です。次の例では、我々は、ヌルデータフレームパンダの列を追加します:
ここに画像を挿入説明
ここに画像を挿入説明
データフレームに列を追加します

2. Pyjanitorは、パンダのデータフレームに列を追加します

现在,我们将使用add_column方法向该数据帧中追加一个列。添加一个空列不像使用上面的方法那么容易。然而,正如您将在本文末尾看到的,我们可以在创建我们的数据帧时使用所有方法:
ここに画像を挿入説明
ここに画像を挿入説明
向数据帧中追加列

如何删除Pandas Dataframe中的缺失值

我们的数据集远远不够完整,这是很常见的。这可能是由于测量仪器的错误,人们忘记或拒绝回答某些问题,以及许多其他事情。尽管缺失的信息背后有各种原因,但这些行被称为缺失值。在Pandas的框架中,缺失值由符号NA编码,这与在R统计环境中很像。Pandas有isna()函数来帮助我们识别数据集中的缺失值。如果我们想删除缺失值,Pandas有一个函数dropna()。

1.使用Pandas dropna方法删除缺失值

在下面的代码示例中,我们删除所有具有缺失值的行。注意,如果我们想修改该数据帧,我们应该添加inplace参数并将其设置为true。
ここに画像を挿入説明
ここに画像を挿入説明

2.使用PyJanitor从Pandas Dataframe中删除缺失值

使用Pyjanitor从Pandas Dataframe中删除缺失值的方法与上面的方法相同。也就是说,我们将使用dropna方法。但是,当我们使用Pyjanitor从该数据帧中删除缺失数据时,我们还会使用subset参数来选择要使用哪些列:
ここに画像を挿入説明
如何从Pandas Dataframe中删除一个空列

在下一个Pandas数据操作示例中,我们将从数据帧中删除空列。首先,我们将使用Pandas删除空列,然后,我们将使用Pyjanitor。请记住,在本文的最后,我们将有一个完整的示例,其中我们在实际创建Pandas Dataframe的同时对所有数据进行清理。

1. 从Pandas Dataframe中删除一个空列

当我们想删除一个空列(例如,带有缺失值)时,我们将再次使用Pandas的dropna方法。然而,我们还将使用axis方法并将其设置为1(针对列)。此外,我们还必须使用参数how并将其设置为’ all '。如果我们不这样做,它将删除任何带有缺失值的列。
ここに画像を挿入説明
ここに画像を挿入説明
删除空列

2. 使用Pyjanitor从Pandas Dataframe中删除一个空列

使用Pyjanitor删除一个空列要更容易一点:
ここに画像を挿入説明
如何在Pandas Dataframe中重命名列

现在我们知道了如何删除缺失值、向一个Pandas 数据帧中添加一个列以及如何删除一个列,我们将继续这个数据清理教程来学习如何重命名列。

例如,在我们学习了《如何将数据从一个JSON文件加载到一个Pandas数据帧》的文章中,我们重新命名了列,以便稍后更容易地使用该数据帧。在下面的示例中,我们将读取一个JSON文件,并使用Pandas 数据帧方法rename和Pyjanitor来重命名列。
ここに画像を挿入説明
ここに画像を挿入説明
更多关于将数据加载到数据帧的文章:

如何使用Python和Pandas读写JSON文件
https://www.marsja.se/how-to-read-and-write-json-files-using-python-and-pandas/

Pandas读取CSV教程 https://www.marsja.se/pandas-read-csv-tutorial-to-csv/

Pandas Excel教程:如何读写Excel文件
https://www.marsja.se/pandas-excel-tutorial-how-to-read-and-write-excel-files/

1.在Pandas Dataframe中重命名列

如上图所示,我们想要删除一些空格和特殊字符。在第一个重命名列的例子中,我们将使用Pandas的 rename方法和正则表达式一起来重命名列(即,我们将用下划线替换空格和)。
ここに画像を挿入説明

2. 如何使用Pyjanitor和clean_names重命名列

使用Pyjanitor重命名一个列(或多个列)要容易得多。实际上,当我们导入了这个Python包之后,我们就可以使用clean_names方法,它将给出与使用Pandas的rename方法相同的结果。事实上,使用clean_names,我们还可以将列名称中的所有字母转换为小写:
ここに画像を挿入説明
当从磁盘加载数据时,如何清理数据

使用Pyjanitor清理我们的数据的一个很酷的地方是,我们可以在加载数据时使用上述所有方法。例如,在最后一个数据清理示例中,我们将向该数据帧添加一个列,删除空列,删除缺失的数据,并清理列名称。这就是与Pyjanitor一起工作使我们的生活更容易的原因。
ここに画像を挿入説明
ここに画像を挿入説明
使用Pyjanitor聚合数据

在最后一个例子中,我们将使用Pandas方法agg、groupby和reset_index,以及Pyjanitor方法collapse_levels来计算每个扇区的平均值和标准:
ここに画像を挿入説明

更多关于使用Python和Pandas对数据进行分组和聚合的文章:

Python Pandas分组教程
https://www.marsja.se/python-pandas-groupby-tutorial-examples/

使用Python进行描述性统计
https://www.marsja.se/pandas-python-descriptive-statistics/

结论

この記事では、データのクリーンアップ方法のいくつかを学びました。具体的には、我々は、パンダのデータに列を追加し、フレーム空の列を削除し、欠損値を処理し、カラム(すなわち、より優れたカラム名)の名前を変更する方法を学びました。私たちはパンダとPyjanitor使用する場合もちろん、より多くのデータクリーニング方法がありますがあります。

要約すると、方法dplyrパッケージ管理人とRとPythonパッケージを増大させるこの方法は同様です。データの処理を事前にすると、これらの方法では、私たちの生活が容易になります。

データクリーニングおよび/またはパッケージのお気に入りの方法は、あなたがR、Pythonや他のプログラミング言語を使用するかどうか?何です。以下のコメントを残してください!

英語のテキストします。https://www.marsja.se/easiest-data-cleaning-method-using-python-pandas-pyjanitor/
翻訳:野生のパンダ

おすすめ

転載: blog.csdn.net/qdPython/article/details/102744374