1. 次のオプションのうち、データ分散 (D) の度合いを表すものはどれですか。
①範囲 ②四分位間偏差 ③分散 ④標準偏差 ⑤平均偏差 ⑥変動係数 ⑦モデル
A.①②③④
B.①②③④⑤⑦
C.①③④⑤
D.①②③④⑤⑥
解析:
データの分散度を測定するために使用される指標には、範囲、四分位偏差、分散、標準偏差、平均偏差、変動係数が含まれます。オプション A と C は不完全であるため、間違っています。モードは、データの分散度を示す指標ではありません。データの分散の度合いなので、選択肢 B は間違っています。
2. Python Pandas は欠損値を処理します。欠損値 NaN を前のデータ セットで埋めるには次のオプションがあります (C)。
A.df.fillna(0)
B.df.フィルナ(1)
C.df.fillna(method='ffill')
D.df.fillna(method='bfill')
解析:
Python Pandas の欠損値操作では、fillna() 関数を使用して空の値 NaN を埋めます。Fillna(0) と fillna(1) は、空の値をそれぞれ 0 と 1 で埋めることを示します。fillna() のメソッド パラメーターは、NaN の前方埋め込みと後方埋め込みを制御するために使用されます。method='ffill' は前方埋め込みを意味します。 bfill() は逆方向にフィルすることを意味します。したがって、オプション C を選択します。
3. データ処理の過程で、DataFrame データを並べ替える必要があります。値の大きい順に並べ替える方法は次のどれですか (B)。
A.sort_index(, ascending=False)
B.sort_values(, ascending=False)
C.sort_index(, ascending=True)
D.sort_values(, ascending=True)
解析:
Pands は、ラベルによる並べ替えと値による並べ替えという 2 つの並べ替え方法を提供します。sort_index() 関数はラベルによる並べ替えに使用され、sort_values() 関数は値による並べ替えに使用されます。両方の関数には昇順の制御並べ替え順序パラメーターがあり、ascending=False の場合は大きいものから小さいものへ、昇順の場合は小さいものから小さいものに並べ替えられます。 =大局的には真実です。したがって、オプション B を選択します。
4. 箱ひげ図の四分位範囲 (IQR) を使用して異常を検出します。次のステートメントのうち間違っているものはどれですか (D)。
A. 第 1 四分位と第 3 四分位の差は、四分位範囲と呼ばれます。
B. 上位四分位 + 1.5*IQR より大きい値は異常値です
C. 「下位四分位 -1.5*IQR」より小さい値は外れ値です
D. 中央値は、第 3 四分位と第 1 四分位の算術平均と等しくなければなりません。
解析:
項目 A、四分位範囲 (IQR) の定義: 第 1 四分位と第 3 四分位の間のギャップは四分位範囲と呼ばれます。
項目BとCは、異常値に対処する場合、一般的にIQRの1.5倍を基準とし、上位四分位+1.5*IQRより大きい値が異常値、下位四分位-1.5*より小さい値が異常値となります。 「IQR」は異常値です。
項目 D: 対称的に分散されたデータの場合、中央値は第 3 四分位数と第 1 四分位数の算術平均と等しくなければなりません。オプションの説明の前提条件が不完全であるため、D を選択してください。
5. numpy ライブラリ (B) のステッチ機能は次のオプションのどれですか。
A.join()
B.concatenate()
C.concat()
D.merge()
解析:
join() メソッド、concat() メソッド、merge() メソッドはすべて pandas ライブラリのスプライシング関数に属し、concatenate() メソッドは numpy ライブラリのスプライシング メソッドに属します。ライブラリには、 .append() 、 np.stack() 、 np.Hstack() 、 np.vstack() 、 np.vstack() などの np オペレーションもあります。