4つのステップは、ユーザクラスタ分析分析によって実装します!

クラスター分析(クラスター分析)データマイニングの一般的な方法であり、主な仮定は、データ間の類似性があることです。および類似性は、貴重な、従って値を生成するためにデータの特性を調査するために使用されています。一般的なアプリケーションが含まれます:

ユーザセグメンテーション:異なるユーザーをグループに分割し、特性に応じてプッシュ異なる広告詐欺検出クラスタ:正常および異常がユーザデータで発見された、前記識別詐欺

上記では、データは、赤、青、緑の三つの異なるクラスタ(クラスタ)に割り当てることができ、各クラスタは、その独特の特性を有するべきです。明らかに、クラスター分析が前提のラベルの下に分類モデルが存在しない場合に、教師なし学習です。私たちは、クラスタデータおよびクラスタに戻って取得すると、より詳細な結果を得るために、各クラスタ内の詳細な分析のために、通常は別途。

以下のような一般的なクラスタリング手法、多くのがありますK-手段(K-手段)、スペクトラルクラスタリング(スペクトラルクラスタリング)、階層的クラスタリング(あなたの階層的クラスタリング)、機械学習で最も参考書が導入されているが、ここではそれらを繰り返すことはしません。今日は、実際に分析をクラスタリングいくつかのヒントについて説明します。

01適切なクラスタリングアルゴリズムを選択する方法

最も重要な選択基準は、多くの場合で、多くの場合、高い、ので、運用コストのクラスタリングアルゴリズムデータの量。

しかし、このような10万の以上のデータとして、ある程度までのデータの量は、ほとんどのクラスタリングアルゴリズムを使用することはできません。最近、私は非常に興味深いです[1]異なるアルゴリズムの性能データの変化量との比較をお読みください。データの量がある程度のみK-手段とHDBSCAN利用可能を超える著者のデータ・セットです。

私の経験では、ある50,000以上のデータへのデータの量は、後に、K-手段アルゴリズムはより実用的かもしれとき。それは効果は多くの場合、非常に良いではありませんK-手段、ということは注目に値するです。しかし、私は正しい「クラスタリングK-手段」の使用方法で働いていましたか?平均Kで要約されて:

K平均アルゴリズムの最大の利点は、大量のデータを処理し、かつ理解しやすいことができ、高速であり、見ることは難しいことではありません。しかし、欠点も明らかにされている、高次元のかもしれない上の限られたアルゴリズムの性能が最良の選択肢ではないです。

一个比较粗浅的结论是,在数据量不大时,可以优先尝试其他算法。当数据量过大时,可以试试HDBSCAN。仅当数据量巨大,且无法降维或者降低数量时,再尝试使用K均值。

一个显著的问题信号是,如果多次运行K均值的结果都有很大差异,那么有很高的概率K均值不适合当前数据,要对结果谨慎的分析。

另一种替代方法是对原始数据进行多次随机采样得到多个小样本,并在小样本上聚类,并融合结果。比如原始数据是100万,那么从中随机采样出100个数据量等于1万的样本,并在100个小数据集上用更为复杂的算法进行聚类,并最终融合结果。

此处需要注意几点问题:

随机采样的样本大小很重要,也不能过小。需要足够有代表性,即小样本依然可以代表总体的数据分布。如果最终需要划分很多个簇,那么要非常小心,因为小样本可能无法体现体量很小的簇。

在融合过程中要关注样本上的聚类结果是否稳定,随机性是否过大。要特别注意不同样本上的簇标号是否统一,如何证明不同样本上的簇结果是一致的。

因此我的经验是,当数据量非常大时,可以优先试试K均值聚类,得到初步的结果。如果效果不好,再通过随机采样的方法构建更多小样本,手动融合模型提升聚类结果,进一步优化模型。

02 聚类分析时需要使用什么变量?

这个是一个非常难回答的问题,而且充满了迷惑性,不少人都做错了。举个简单的例子,我们现在有很多客户的商品购买信息,以及他们的个人信息,是否该用购买信息+个人信息来进行聚类呢?

未必,我们需要首先回答最重要的一个问题:我们要解决什么问题?

如果我们用个人信息,如性别、年龄进行聚类,那么结果会被这些变量所影响,而变成了对性别和年龄的聚类。所以我们应该先问自己,“客户购物习惯”更重要还是“客户的个人信息”更重要?

如果我们最在意的是客户怎么花钱,以及购物特征,那就应该完全排除客户的个人信息(如年龄性别家庭住址),仅使用购买相关的数据进行聚类。这样的聚类结果才是完全由购买情况所驱动的,而不会受到用户个人信息的影响。

那该如何更好的利用客户的个人信息呢?这个应该被用在聚类之后。当我们得到聚类结果后,可以对每个簇进行分析,分析簇中用户的个人情况,比如高净值客户的平均年龄、居住区域、开什么车。无关变量不应该作为输入,而应该得到聚类结果后作为分析变量。

一般情况下,我们先要问自己,这个项目在意的是什么?很多时候个人信息被错误的使用在了聚类当中,聚类结果完全由个人信息所决定(比如男性和女性被分到了两个簇中),对于商业决策的意义就不大了。一般来说,应该由商业数据驱动,得到聚类结果后再对每个簇中的用户个人信息进行整合分析。

但值得注意的是,这个方法不是绝对的。在聚类中有时候也会适当引入个人信息,也可以通过调整不同变量的权重来调整每个变量的影响。

03 如何分析变量的重要性?

首先变量选择是主观的,完全依赖于建模者对于问题的理解,而且往往都是想到什么用什么。因为聚类是无监督学习,因此很难评估变量的重要性。介绍两种思考方法:

考虑变量的内在变化度与变量间的关联性:一个变量本身方差很小,那么不易对聚类起到很大的影响。如果变量间的相关性很高,那么高相关性间的变量应该被合并处理。直接采用算法来对变量重要性进行排序:比如 Principal Feature Analysis [2],网上有现成的代码 [3]。

另一个鸡生蛋蛋生鸡的问题是,如果我用算法找到了重要特征,那么仅用重要特征建模可以吗?这个依然不好说,我觉得最需要去除的是高相关性的变量,因为很多聚类算法无法识别高相关性,会重复计算高相关性特征,并夸大了其影响,比如K均值。

4 证明聚类的结果有意义?如何决定簇的数量?

聚类分析是无监督学习,因此没有具体的标准来证明结果是对的或者错的。一般的判断方法无外乎三种:

人为验证聚类结果符合商业逻辑。比如我们对彩票客户进行聚类,最终得到4个簇,其中分为:

“高购买力忠实客户”:花了很多钱的忠实客户,他们可能常年购买且花费不菲

“普通忠实客户”:常年购买,但每次的购买额度都不大

“刺激性消费单次购买者”:只购买了几次,但是一掷千金

“谨慎的单次购买者”:只购买了几次,每次买的都很谨慎

我们可以用通过商业逻辑来解释聚类结果,结果应该大致符合行业专家的看法。最终你的聚类结果需要回归到现实的商业逻辑上去,这样才有意义。

预先设定一些评估标准,比如簇内的紧凑度和簇间的疏离度,或者定义好的函数如Silhouette Coefficient。一般来说设定一个好的评估标准并不容易,所以不能死板的单纯依赖评估函数。

通过可视化来证明不同簇之间的差异性。因为我们一般有超过两个变量,所以会需要先对数据进行压缩,比如很多流形学习的方法多维缩放(multi-dimensional scaling)。

以下图为例,我把数据分成了四个簇,并用T-SNE压缩到二维并绘制出来。从直观上看,不同簇间有了一定区别。类似的可视化也可以在变量间两两绘制,或者直接画pairplot。

所以如何定义一个好的聚类结果?我认为应该符合几个基本标准:

符合商业常识,大致方向上可以被领域专家所验证可视化后有一定的区别,而并非完全随机且交织在一起如果有预先设定的评估函数,评估结果较为优秀

因此决定簇的数量也应该遵循这个逻辑,适当的数量应该满足以上三点条件。如果某个簇的数量过大或者过小,那可以考虑分裂或者合并簇。

当然,聚类作为无监督学习,有很多模棱两可的地方。但应时时牢记的是,机器学习模型应服务商业决策,脱离问题空谈模型是没有意义的。

文章参考:

[1] Benchmarking Performance and Scaling of Python Clustering Algorithms

[2] Lu, Y., Cohen, I., Zhou, X.S. and Tian, Q., 2007, September. Feature selection using principal feature analysis. In Proceedings of the 15th ACM international conference on Multimedia (pp. 301-304). ACM.

[3] Methods in R or Python to perform feature selection in unsupervised learning

End.

来源:阿萨姆谈AI

零基础学 Python,来这里

 只需7天时间,跨进Python编程大门,已有3800+加入

【基础】0基础入门python,24小时有人快速解答问题;
【提高】40多个项目实战,老手可以从真实场景中学习python;
【直播】不定期直播项目案例讲解,手把手教你如何分析项目;
【分享】优质python学习资料分享,让你在最短时间获得有价值的学习资源;圈友优质资料或学习分享,会不时给予赞赏支持,希望每个优质圈友既能赚回加入费用,也能快速成长,并享受分享与帮助他人的乐趣。
【人脉】收获一群志同道合的朋友,并且都是python从业者
【价格】本着布道思想,只需 69元 加入一个能保证学习效果的良心圈子。

【赠予】价值109元 0基础入门在线课程,免费送给圈友们,供巩固和系统化复习

发布了88 篇原创文章 · 获赞 18 · 访问量 11万+

おすすめ

転載: blog.csdn.net/lovenankai/article/details/104285045