大数据可以统计到媳妇的喜好吗？

今天媳妇问我一个问题：“大数据可以统计到媳妇的喜好吗？”
正确的标准答案是：利用大数据技术统计媳妇的喜好是一个相当不靠谱的事情，因为程序员再牛、使用再炫酷的技术去统计媳妇的喜好，都不如离开电脑陪媳妇聊会天、一起做个饭、拉拉家常、用心去感受媳妇的喜怒哀乐，给予所需。

既然非得要去使用技术手段得出点结论，那么就立项做个规划吧。

统计喜好这个工作大体分为以下几个步骤：

1、数据采集

2、数据存储

3、数据分类建模

4、数据分析、统计、预测

5、结果展示

接下来分步详细介绍各个阶段的过程和使用到的技术栈：

1、数据采集

想用大数据来进行分析，首先得有大数据，要将相关的数据全部采集集中起来进行统一管理，再进行分析。

那么有哪些数据可以采集呢，可以根据衣、食、住、行、吃、喝、玩、乐为线索，将可以用的数据全部采集过来。比如用爬虫爬去类似以下数据：
（1）淘宝京东订单数据、购物车数据、浏览足迹数据
（2）滴滴打车订单数据
（3）美团外卖订单数据、美团订单数据
（4）微博关注数据、发微博信息、评论信息
（5）朋友圈评论数据

主要用到的技术是爬虫技术，可以使用python的Scrapy包进行数据爬取。

2、数据存储

数据可以存储在关系型数据库MySQL、MSSQL，甚至文本文件中，如果要使用大数据技术，可以使用Hadoop，将数据存储在Hadoop的HDFS上。

3、数据分类建模

上一步中将采集的数据放入HDFS上存储了，但是因为数据来源不同，格式散乱，也只是各自代表了不同的方面的含义，需要将数据进行整合，形成信息全面、格式统一，量纲统一的数据，这就需要对数据进行分类建模，创建一系列的数据模型，能够对数据进行有效管理。数据建模非常重要，这决定了是否可以在后续过程中进行有效的数据分析。

数据模型确定好后，在数据进入模型前，需要对数据进行清洗，去除无用数据，整理数据格式。

数据模型创建和数据清洗可以使用Hive、MapReduce技术，最终形成一系列的规整的Hive表。

4、数据分析、统计、预测

现在规整的有效数据有了，下一步就要对数据进行挖掘，提取出有效信息、从数据中找出规律、得出结论并且还可以根据现有数据对以后发生的事情进行预测。

这一阶段可以是分为两类技术：使用hive sql、spark等技术可以进行数据汇总统计，得出已有数据的信息价值；另一类技术就是使用传统机器学习、深度学习的技术进行预测，机器学习可以使用python机器学习库sklearn、spark MLLib机器学习库、深度学习库Tensorflow等。

5、结果展示

数据分析的结果，最终应该展示出来，使得更加直观。

数据分析的结果可以存储到MySQL等关系数据库中，也可以存储在HBase、Elasticsearch工具中，他们的共同特点是可以快速读取。

可以使用Python UI或者Web UI将结果进行展示，常用的Web UI控件有表格、柱状图、饼图、折线图等图表。

以上内容纯属瞎扯，希望大家多多交流！

鸣宇淳博客专家

发布了74 篇原创文章 · 获赞 74 · 访问量 5万+

私信关注