データ分析は、Python第7章データクリーニング及び準備を用いて行きました

学習時間:午前22時30分金曜日の夜を開始2019/10/25。

学習目標は:Page188-Page217、30の合計、6日、5日の完成目標は、1029年完成を期待しました。

実際のフィードバック: 1.5時間6を学んX-の集中学習。XXX実際の完了、N日数がかかり、M H

 

データ準備:ロード、クレンジング、変換および通常整形するのは時間のアナリスト以上の80%を占めます!効率的なデータクリーニングと準備、絶対的な生産性の向上を学ぼう!この章では、不足しているデータを扱う、重複データツール、文字列操作やその他の分析データの変換について説明します。次の章では、データ・セットを再構築するには、連結、いくつかの方法に焦点を当てます。

 

7.1ハンドル欠落したデータ

何らかの方法でパンダに提示欠落したデータは、完璧ではないが、ほとんどのユーザーのための正常な機能を確保することができます。

数値データの場合は、 PANDAS浮動小数点は、NaN(非数)が不足しているデータを示している値。センチネル値と呼ばれ、容易に検出することができます。

 

 

パンダでは、欠損値が利用できない表し、NA(使用のR言語)として表されます。NAデータは、データであるか、または観測されない存在するが存在しないことがあります。(データクリーニングは、欠落データは、好ましくは、データ収集を決定するために、分析を容易にするために直接分析されるか、または欠落したデータは、偏差のHuにつながり得る場合)。

組み込みオブジェクトのデータ値なしPythonはNAとして使用することができます。

 

 

表7-1に関して、一部欠落しているデータ処理機能に

 

 

 7.1.1データの欠落フィルタリング

より実用的なdropnaと、欠落したデータを濾過し(また、手動の方法またはブール指標によって調製することがpandas.isnull)

シリーズのために、 dropnaはnull以外のデータを返し、唯一のインデックス値のシリーズを含みます:

 

 

それはと同等です。

 

 

データフレームのオブジェクトの場合、欠損値を持つすべての行を破棄dropnaデフォルト:

 

 

  1)=「のすべてが」唯一のフルラインをドロップする方法着信NAです。

  

 

 

  2)着信軸= 1、NAを含むすべての列を破棄しながら入ってくる場合、どのよう=「すべて」列全体のNAが破棄されます。

  

 

 

  3)另一个滤除DataFrame行的问题涉及时间序列数据。假设需要留下一部分观测数据,可用 thresh=N 参数实现此目的(丢弃前N行含有NA的行,对于列如何处理???):

  

7.1.2 填充缺失数据

如果不想滤除缺失数据,而是希望通过其他方式填补哪些缺失数据,则fillna方法是最主要的函数。通过一个常数调用fillna就会将缺失值替换为该常数:

 

 

通过一个字典调用fillna,可实现对不同列填充不同的值:

 

 

fillna默认会返回新对象,如果想对现有对象进行就地修改,则可以通过传入 inplace = True实现:

 

 

对reindex(书中为reindexing,是否有误?)有效的插值方法,同样适用于fillna:

 

 

 

 

 

 

7.2 数据转换

7.2.1 移除重复数据

7.2.2 利用函数或映射进行数据转换

7.2.3 替换值

7.2.4 重命名轴索引

7.2.5 离散化和面元划分

7.2.6 检测和过滤异常值

7.2.7 排列和随机采样

7.2.8 计算指标和哑变量

 

7.3 字符串操作

7.3.1 字符串对象方法

7.3.2 正则表达式

7.3.3 pandas的矢量化字符串函数

 

7.4 总结

高效的数据准备,可以为数据分析留出更多时间。下一章,将学习pandas的聚合与分组。

 

おすすめ

転載: www.cnblogs.com/ElonJiang/p/11741216.html