参考:https://www.cnblogs.com/xxswkl/p/11009059.html
ユニークな1()
別の統計リストと戻り、配列内の値を。それは3つのパラメータを持って、統計が異なる量だった、配列が返されます。
リストの要素がリストである場合は、この方法を使用しないようにしてください。
AS NP numpyのインポート A = [1,5,4,2,3,3,5] #はアレイ返す プリント(np.unique(A)) #[2. 3. 4. 5. 1] リストの最初の要素に戻る#最初の出現のインデックス 印刷(np.unique(return_index = TRUE)) #(配列([1、2 ,. 3 ,. 4 ,. 5])、アレイ([0 ,. 3 ,. 4,2 ,. 1])) 新しいリストインデックスの各要素に対応する元のリストに#リターン 印刷(np.unique(return_inverse = TRUE))#( 配列([1、2 ,. 3 ,. 4 ,. 5])、アレイ([0 、4、3、1、2、2、4])) #は、リスト内の時間要素が出現の数を返す プリント(np.unique(return_counts = TRUE)) #(配列([1、2、3、4 、5])、アレイ([1 ,. 1,2 ,. 1,2])) #パラメータが添加された場合、UNIQUE()タプルを返し、本明細書で使用タプル特性は、すなわち、要素の数が割り当てられることができます変数の対応する数に P、Q、M、N-np.unique =(return_index =真、return_inverse =真、return_counts = TRUE) (P、Q、M、N-)印刷 #[2. 3. 4. 5. 1] [2 4 3 1 0] [0 4 31224] [11212] #注ときに、リストの要素ではなく、数値のリスト、出力データ型その長さに関連する要素のリスト のリスト要素又は良好な方法ではないシーク重元素にこの方法を使用しての番号#を、エラープローン
統計値、戻り値Arrayの異なるシリーズは、それは他のパラメータはありません
PDとしてインポートパンダ SE = pd.Series([1,3,4,5,2,2,3]) プリント(se.unique()) #[1 2 3 4 5]
2.nunique()
異なる値の数が、各列の直接データフレームの統計であってもよいし、シリーズもなく、リストのために、使用することができます。異なる値の数を返します。
DF = pd.DataFrame({ 'A':[0,1,1]、 'B':[0,5,6]}) プリント(DF) プリント(df.nunique()) #AB #0 0 #1 5 #2 1 6 #A 2 #B 3 #DTYPE:int64モード
使用は、各ブロックの異なる値の数をカウントし、GROUPBYと組み合わせることができます。
all_user_repay = all_user_repay.groupby([ 'USER_ID'])[ 'listing_id'] AGG([ 'nunique'])。reset_index() #USER_ID nunique #0 40 1 #1 56 1 #2 98 1 #3 103 1 # 4 122 1