1. 以下に示すように、DataFrame 型のデータ df のセットがあります。データ内のインデックス ラベルが 'b' と 'd' である行を削除する必要があります。次のオプションでどちら (B) が間違っています。
インデックス/コラム |
バツ | Y | Z |
ある | 0 | 5 | 10 |
b | 1 | NaN |
11 |
c | 2 | 7 | 12 |
d | 3 | 8 | NaN |
e | 4 | 9 | 14 |
A.df.drop(['b','d'])
B.df.drop(df.index[[2,4]])
C.df.drop(['b','d'],axis=0)
D.df.ドロップナ()
解析:
drop() 関数はデータ クリーニング、dataFrame 内の行または列の削除に使用される操作であり、dropna() 関数はデータ内の空の値を持つ行または列を削除するために使用されます。
オプション A は、インデックス名に従ってデータ行を削除することであり、A の説明は正しいです。
オプション B はインデックス値を使用してデータを削除することですが、DataFrame データ内の行のインデックス番号は 0 からカウントされるため、正しい書き方は .df.drop(df.index[[1,3]] ) となります。 ) したがって、項目 B の説明は誤りです。
C オプションと A オプションは同じ意味を説明しています。drop() 関数のデフォルトの axis パラメータは 0 なので、C の説明は正しいです。
オプション D は空の値を含む行を削除するものであるため、オプション D の説明は正しいです。
2. 相関分析で相関させる必要がある 2 つの変数 (A)。
A. 従属変数はランダム量であり、独立変数もランダム量です
B. 従属変数はランダム量であり、独立変数は制御量です
C. 従属変数は制御された量であり、独立変数はランダムな量です
D. 従属変数は制御量であり、独立変数も制御量です
解析:
相関分析を行う場合、どちらが独立変数でどちらが従属変数であるかを事前に決める必要はなく、相関分析における両変数は確率変数です。
3. numpy.ndarrry 型データの集合 a=np.array([1,2,3,4]) と各値の重み w=np.array([4,3,2,1]) 、重み平均を求める方法は次のどれですか (C)
A.np.mean()
B.np.nanmean()
C.np.average()
D.np.std()
解析:
A. means() の機能は平均値を計算することです。
B. nanmean() の機能は、NaN 値を無視して配列の平均値を計算することです。配列に NaN 値が含まれる場合、NaN 値の影響を受けない平均を見つけることができます。
C.mean() と Average() は両方とも平均を取ることを意味します。加重平均を考慮しない場合、2 つの出力は同じですが、重みを考慮すると、 np.average(a,weights=w ) は、加重平均;
D.std() は行列または配列の標準偏差を計算します。
ということで、正解はCです。
4. データの前処理を実行する場合、pandas モジュールの重複排除関数 Drop_duplicates を使用します。コードは次のとおりです。オプションの間違ったステートメントは (B) です。
df.drop_duplicates(subset=['A','B','C'],keep= ,inplace= )
A. パラメータのサブセットは、繰り返す列名を指定するために使用されます。
B.keep は行を保持することを指定します。最初と最後の 2 つのオプションのパラメータがあります。
C.inplace は、元のデータを操作するか、コピーとして保存するかを示します。
D. 重複排除後、行ラベルは変更されません。変更する必要がある場合は、df.reset_index() を使用してインデックスをリセットできます。
解析:
サブセット: 重複排除する列の名前を示します。項目 A は正しいです。
keep: first、last、False の 3 つのオプションのパラメータがあります。デフォルトは first で、最初に発生した重複のみが保持され、残りは削除されることを意味します。last は、最後に発生した重複のみが保持されることを意味します。 False はすべての重複を削除することを意味し、項目 B は間違っています。
inplace: ブール値パラメータ。デフォルトは False で、重複を削除した後にコピーを返すことを意味します。True の場合は、元のデータの重複を直接削除することを意味します。項目 C は正しいです。
インデックスのリセット関数はreset_index()であるため、Dは正解です。
ということで正解はBです。
5. sklearn の train_test_split 関数に関する次の記述は正しいです (D)。
A. データセットの分割比率は固定です
B. サンプルからトレーニング セット、検証セット、テスト セットを比率に応じてランダムに選択します
C. train_test_split 関数はサンプルをランダムに選択するため、データが毎回同じであるという保証はありません
D. データの不均衡に対処するために階層化パラメータを設定する
解析:
項目 A では、データセットの分割比率を test_size サンプル比率パラメーターで指定できます。
項目 B では、train_test_split 関数はトレーニング セットとテスト セットを 2 つのセットにのみ分割できます。
項目 C、train_test_split 関数はサンプルからトレーニング データとテスト データを比例的にランダムに選択しますが、random_state 乱数のシード パラメータで固定的に分割することができます。
項目 D では、パラメーター stratify は、データ型の不均衡の問題に対処できます。ラベル y によると、元のデータ y 内のさまざまな型の割合に応じて、学習とテストに割り当てられるため、さまざまな型の割合がトレーニングとテストのデータの種類は元のデータセットと一致します。
したがって、正解は D です。