精细化营销和客户分群

昨天听的一场报告，感觉不错，整理一下。

（电脑死机，本来都快整理好了，哭）

1.什么是精细化营销

精细化营销就是恰当地、贴切根据客户的差异将客户分群，采取不同的营销策略。比较有名的有天猫的千人千面，亚马逊的图书推荐系统……推荐《大数据时代》，挺不错的科普书。

2.什么是客户分群

客户分群的解读三个角度

客户需求：需求决定市场
客户价值：客户有大客户、小客户、新客户、老客户等划分，他们对企业的利益价值不等。
企业资源和能力：适合企业规模的措施

以互联网电商为例，可以关注以下数据：

客户人口统计学特征
客户接触企业的渠道（通过什么渠道？）
客户购买的频次
客户购买的金额
场景不一样，收集的数据不同
客户作为某品牌顾客的时间周期
购买某种品牌的频数
购买该产品的平均贡献
客户购买该品牌的概率
R（Recency）最近一次的消费

F(Frequency)消费频率

M(Monetary)消费资源

要解决的问题不同，收集的数据不同，解决方案也不同。

3.精细化营销的数据处理流程

商业理解---数据理解---数据预处理----构建模型---模型评估---模型发布（反复的过程）机器学习和人的学习很像。

4、机器学习算法

主要分为：有监督学习、无监督学习、半监督学习、强化学习

1、有监督学习

关键词：分类学习、预测模型

第一次，小孩指着狗说：“妈妈妈妈这是猫” 妈妈说：“不对，这是狗”；

第二次，小孩指着狗说：“妈妈妈妈这是猪” 妈妈说：“不对，这是狗”；

第一次，小孩指着狗说：“妈妈妈妈这是狗” 妈妈说：“对，这是狗”；

…………

妈妈知道正确答案，可以给小孩纠正，小孩在不断纠正中知道了什么是狗，这种模式就是有监督学习。

特点是——结论是已知的，已知样本的结果，对算法模型进行训练。

2、无监督学习

关键词：关联模型、聚类分析

来到新的班级，大家都很陌生，一段时间之后就三五成群了，整个过程是没有人干预的，自动形成了一个个小群体。每个小群体的成员必定有相似之处，人以群分么。这就是无监督学习。没有训练之前，我们无法确定结果会分为几组，哪些会成为一组。

聚类：无监督学习的一种，是将一组对象划分成簇cluster，是簇类内的对象相似度尽量大，簇间尽量小。客户分群用的就是聚类。

3、聚类的简单算法——KMeans

KMeans算法：，

第一步：设置分类K值

第二步：设置初始质心簇的位置

第三步：不断迭代，计算距离，寻找新分类簇的簇心点（这个距离欧者马式）

第三步：收敛完成聚类（收敛标准，比如0.001）

过程的第三步有数学公式。学大数据不是学算法也不是学数学，只需了解算法的思路和数学公式的含义即可，不必细究。

有人造车，有人开车，大数据是开车。车自然有算法工程师和数学家造。

优点：

（1）、是解决聚类问题的一种经典算法，简单、快速（谁近跟谁，逻辑很简单）

（2）、对处理大数据集，该算法保持可伸缩性和高效性

（3）、当簇接近高斯分布时，它的效果较好。

缺点：

1)、在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用；
(2)、在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适；
(3)、在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果；
(4)、该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的；
(5)、若簇中含有异常点，将导致均值偏离严重（即:对噪声和孤立点数据敏感）；

5、大数据学习方法

学习是，遵循这个顺序：“是什么、怎么用，用的更好。”

技术的落点是业务，为了解决问题采取学技术。

技术和应用结合，由面到点的提升。用到什么学什么，做的事开发，做的不是语言，不要受限于语言。

编程语言、工具没有优劣之分，取决于使用场景。合适的才是最好的。

java一定要学好，必须学好一门静态语言才能在IT行业走得更远。

当下python比较火，但Java在大数据中的地位还是无可撼动，python脚本语言简单高效，但太轻量级了，对大数据处理中的高并发、多线程等优化还是不行，它更主要的作用是胶水。

当下流行的Hadoop生态系统，几乎全是java写的；Spark虽然用Scala开发，但Scala是运行在JVM中的；

Flink也用java。学习大数据，更像是学习java框架。

不断清空自己，空杯心态，不断学习才能不被淘汰。大数据发展很快，各种框架会越来越多。

初学者应该尽快把握整个业务流程，先着重于应用层，业务处理流程熟悉后再去深入研究底层，考虑优化等问题。

6、其他

有些东西不是不能做，而是没必要做：

语音识别，技术上难度并不大。但是以目前的算法，即使大公司资源充足，训练模型也需要上万小时（对模型训练时长有了点认知），这还是基于模型足够成熟的情况下。所以没必要自己去做，调别人做好的就行。

然后阿里云平台，以前只用过服务器。发现它提供的算法平台啊、云数据库啊、各种场景的解决方案啊……大为惊叹

大数据时代，大数据时代……似乎对这五个字多了一些感悟和思考。生态体系、智能时代、解决方案……一扇新的大门。

循着阿里云这条线，拓展自己的知识面吧。