第 5 章 Pandas データのロードと前処理

1: 多肢選択問題

1: データ内の異常な点を見つけるために使用できる視覚的な図は次のうちどれですか?

A. 密度プロット
B. ヒストグラム
C. 箱ひげ図

D. 確率グラフの知識点の分析

密度グラフ: データ値に対応する境界または領域オブジェクトを表現する理論的なグラフ表現方法
ヒストグラム: 数値データの分布を正確にグラフで表現したもの
箱ひげ図:視覚的モデリング
確率グラフ: グラフを使用して変数の確率依存関係を表す理論


2: 欠損値の検出に関する以下の記述のうち、正しいものは、
A.null と notnull は欠損値を処理できます
B.dropna メソッドは観測記録と特徴を削除できます
C.fillna メソッドは欠損値を置き換えるために使用されます。データ フレームのみである
D. Pandas ライブラリの interpolate モジュールには、さまざまな補間メソッドが含まれています
** ナレッジ ポイント分析:
欠損値を処理するための 3 つのメソッド: isnull()、notnull()、isna()


3: 現実世界のデータでは欠損値が一般的であり、一般的な処理方法は

A. 無視
B. 削除
C. 平均値の埋め込み
D. 最大値の埋め込み


2: 正誤質問

1: マージ関数を使用して Pandas のデータ テーブルをマージする場合、デフォルトの内部結合方法が  正しいです。


2: Pandas の記述統計には通常、データ欠損  エラーが含まれます


3: ステートメント dataframe.dropna(thresh=len(df)*0.9,axis=1) は、列の欠損値が 90% を超える場合、その列を削除することを意味します。エラー ナレッジ ポイント分析: 形式: DataFrame.dropna(self 、  axis
=
0、how='any'、thresh=None、subset=None、inplace=False)
目的: 欠損値を削除します。
thresh : int、オプションで多くの非 NA 値が必要です。
axis: 0 または 'index'、1 または 'columns'、デフォルトの 0 は、欠損値を含む行または列を削除するかどうかを決定します。
0 または 'index': 欠損値を含む行を削除します。1 または 'column': 欠損値を含む列を削除します。
質問は次のとおりです。列内の欠損値の 90% 未満が欠落している場合、その列を削除します。


4: merge メソッドを使用してデータを結合する場合、結合された DataFrame 間に接続キー  エラーは発生しません。


5: ダミー変数 (ダミー変数とも呼ばれます) は、定性的属性を反映するために使用される人工変数です  。


6: Pandas で isnull().sum() を使用すると、欠損値を  正しくカウントできます。


7: Pandasのdropnaでthresh=Nの場合、 NaN値がN個連続した場合 のみデータ   を保持できることを示します。
8: DataFrame の Duplicates メソッドを使用して、重複データ   エラーを削除できます
9: ネットワークの関連付けは、ビッグ データにおける一般的な関係です   。

3: 空白を埋める

1: Pandas の Drop メソッドのパラメーター how の値が ___ の場合、行に欠損値がある限り、どの行も変更されて破棄されることを意味します  


2: Pandas の Drop メソッドのパラメータ how が値 ___ を取る場合、それは行内のすべての行に欠損値があり、すべての行が破棄されることを意味します。  


3: Pandas は read_json 関数を通じて ___ データJSONを読み取ります  


4: Pandas を使用して MySQL のデータを読み取るには、まず ___ パッケージをインストールしてから、Mysqldbからデータ ファイルを読み取る必要があります  


5: Pandas を使用して SQL サーバーのデータを読み取るには、最初に ___ パッケージをインストールし、次にpymssqlを使用してデータ ファイルを読み取る必要があります。  


4: 短答式の質問

1: Pandas の削除メソッド Dropna でのパラメーター thresh の使用法を簡単に説明します。dropna のパラメーター
  thresh 。thresh = N が渡されると、行が存続するには少なくとも N 個の非 NaN が必要であることを意味します。


2: Python の統計手法を使用して外れ値を検出する一般的な方法と原理を簡単に説明します
  : a. 散布図法の観察 b. 箱ひげ図分析 c. 3σ ルールの原理
  : 標準正規分布の下の曲線は釣鐘型の曲線です。期待値 μ によってその位置が決まり、その標準偏差 σ によって分布の大きさが決まります。μ = 0、σ = 1 のときの正規分布が標準正規分布です。したがって、一連のデータが正規分布に従えば、経験則により外れ値を検出することができ、同図では、測定値の68.2%がプラスまたはマイナスの範囲内に収まっていることがわかります。 μ値において標準偏差σが1つ、かつ95.4%の範囲に測定値が収まる μ値において標準偏差σが2つプラスマイナスの範囲内に測定値が収まり、かつ、値の99.7%がプラスマイナスの範囲内に収まるμ 値における 3 つの標準偏差 σ。したがって、正規分布に従うデータの場合、μ値から標準偏差σが3以上離れた値であれば、その値は異常データに属すると判断できる。


3: データ分析におけるデータ標準化の主な理由を簡単に説明します。
  特徴が異なれば次元も異なることが多く、その結果、値に大きな違いが生じます。したがって、フィーチャ間の寸法や値の範囲の違いによる影響を排除するには、データを標準化する必要があります。


4: Pandas でのデータの離散化におけるカット メソッドの使用について簡単に説明します。
  データの値の範囲は、同じ幅の区間に分割されます。区間の数は、データ自体の特性によって決定されるか、ユーザーによって指定されます。Pandas は、連続データを等幅離散化できる Cut 関数を提供します。Cut 関数の基本的な構文形式は次のとおりです:
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)


おすすめ

転載: blog.csdn.net/qq_52331221/article/details/128178231