パイソン - ユニーク()とnunique()関数

参考:https://www.cnblogs.com/xxswkl/p/11009059.html

ユニークな1()

別の統計リストと戻り、配列内の値を。それは3つのパラメータを持って、統計が異なる量だった、配列が返されます。

リストの要素がリストである場合は、この方法を使用しないようにしてください。

AS NP numpyのインポート
A = [1,5,4,2,3,3,5] はアレイ返す
プリント(np.unique(A))
#[2. 3. 4. 5. 1] 

リストの最初の要素に戻る#最初の出現のインデックス
印刷(np.unique(return_index = TRUE)) 
#(配列([1、2 ,. 3 ,. 4 ,. 5])、アレイ([0 ,. 3 ,. 4,2 ,. 1]))

新しいリストインデックスの各要素に対応する元のリストに#リターン
印刷(np.unique(return_inverse = TRUE))#(
配列([1、2 ,. 3 ,. 4 ,. 5])、アレイ([0 、4、3、1、2、2、4])) 
は、リスト内の時間要素が出現の数を返す
プリント(np.unique(return_counts = TRUE)) 
#(配列([1、2、3、4 、5])、アレイ([1 ,. 1,2 ,. 1,2])) 
パラメータが添加された場合、UNIQUE()タプルを返し、本明細書で使用タプル特性は、すなわち、要素の数が割り当てられることができます変数の対応する数に
P、Q、M、N-np.unique =(return_index =真、return_inverse =真、return_counts = TRUE) 
(P、Q、M、N-)印刷
#[2. 3. 4. 5. 1] [2 4 3 1 0] [0 4 31224] [11212]
注ときに、リストの要素ではなく、数値のリスト、出力データ型その長さに関連する要素のリスト
のリスト要素又は良好な方法ではないシーク重元素にこの方法を使用しての番号#を、エラープローン 

統計値、戻り値Arrayの異なるシリーズは、それは他のパラメータはありません

PDとしてインポートパンダ
SE = pd.Series([1,3,4,5,2,2,3])
プリント(se.unique())
#[1 2 3 4 5]

2.nunique()

異なる値の数が、各列の直接データフレームの統計であってもよいし、シリーズもなく、リストのために、使用することができます。異なる値の数を返します。

DF = pd.DataFrame({ 'A':[0,1,1]、 'B':[0,5,6]})
プリント(DF)
プリント(df.nunique())
#AB 
#0 0 
#1 5 
#2 1 6 
#A 2 
#B 3 
#DTYPE:int64モード

使用は、各ブロックの異なる値の数をカウントし、GROUPBYと組み合わせることができます。

all_user_repay = all_user_repay.groupby([ 'USER_ID'])[ 'listing_id'] AGG([ 'nunique'])。reset_index()
#USER_ID nunique 
#0 40 1 
#1 56 1 
#2 98 1 
#3 103 1 
# 4 122 1

  

おすすめ

転載: www.cnblogs.com/jiaxinwei/p/11982192.html