大数据可以统计到媳妇的喜好吗?

今天媳妇问我一个问题:“大数据可以统计到媳妇的喜好吗?
正确的标准答案是:利用大数据技术统计媳妇的喜好是一个相当不靠谱的事情,因为程序员再牛、使用再炫酷的技术去统计媳妇的喜好,都不如离开电脑陪媳妇聊会天、一起做个饭、拉拉家常、用心去感受媳妇的喜怒哀乐,给予所需。

既然非得要去使用技术手段得出点结论,那么就立项做个规划吧。

统计喜好这个工作大体分为以下几个步骤:

1、数据采集
2、数据存储
3、数据分类建模
4、数据分析、统计、预测
5、结果展示

接下来分步详细介绍各个阶段的过程和使用到的技术栈:

1、数据采集

想用大数据来进行分析,首先得有大数据,要将相关的数据全部采集集中起来进行统一管理,再进行分析。

那么有哪些数据可以采集呢,可以根据衣、食、住、行、吃、喝、玩、乐为线索,将可以用的数据全部采集过来。比如用爬虫爬去类似以下数据:
(1)淘宝京东订单数据、购物车数据、浏览足迹数据
(2)滴滴打车订单数据
(3)美团外卖订单数据、美团订单数据
(4)微博关注数据、发微博信息、评论信息
(5)朋友圈评论数据

主要用到的技术是爬虫技术,可以使用python的Scrapy包进行数据爬取。

2、数据存储

数据可以存储在关系型数据库MySQL、MSSQL,甚至文本文件中,如果要使用大数据技术,可以使用Hadoop,将数据存储在Hadoop的HDFS上。

3、数据分类建模

上一步中将采集的数据放入HDFS上存储了,但是因为数据来源不同,格式散乱,也只是各自代表了不同的方面的含义,需要将数据进行整合,形成信息全面、格式统一,量纲统一的数据,这就需要对数据进行分类建模,创建一系列的数据模型,能够对数据进行有效管理。数据建模非常重要,这决定了是否可以在后续过程中进行有效的数据分析。

数据模型确定好后,在数据进入模型前,需要对数据进行清洗,去除无用数据,整理数据格式。

数据模型创建和数据清洗可以使用Hive、MapReduce技术,最终形成一系列的规整的Hive表。

4、数据分析、统计、预测

现在规整的有效数据有了,下一步就要对数据进行挖掘,提取出有效信息、从数据中找出规律、得出结论并且还可以根据现有数据对以后发生的事情进行预测。

这一阶段可以是分为两类技术:使用hive sql、spark等技术可以进行数据汇总统计,得出已有数据的信息价值;另一类技术就是使用传统机器学习、深度学习的技术进行预测,机器学习可以使用python机器学习库sklearn、spark MLLib机器学习库、深度学习库Tensorflow等。

5、结果展示

数据分析的结果,最终应该展示出来,使得更加直观。

数据分析的结果可以存储到MySQL等关系数据库中,也可以存储在HBase、Elasticsearch工具中,他们的共同特点是可以快速读取。

可以使用Python UI或者Web UI将结果进行展示,常用的Web UI控件有表格、柱状图、饼图、折线图等图表。

以上内容纯属瞎扯,希望大家多多交流!

发布了74 篇原创文章 · 获赞 74 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/chybin500/article/details/80502712