数据抓取、数据挖掘和数据可视化的基本介绍

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/duozhishidai/article/details/89791051

数据沉淀

用大白话说就是数据抓取。目前有四大方式获取数据:

1.网络爬虫

用Python及Go等开发自己的爬虫平台,对几十个网站进行每日抓取获得相关信息(详见:能利用爬虫技术做到哪些很酷很有趣很有用的事情?-何明科的回答)

2.Wi-Fi接入方案

比如我们自己就开发了一套完整的软硬件方案,优势是高ROI(投资回报比),且免费提供给物业管理者,帮助其实现靠网费赚钱以及推广费赚钱。在与其协商的基础上,获得用户数据。这主要是OpenWRT的开发以及一些智能硬件和客户端的开发。

3.提供一些图像方面的API,进行图片搜索及人脸搜索,满足客户在图像处理和图像识别方面的一些需求,同时获取相关的图像数据。涉及到一些MachineLearning和DeepLearning的算法,使用C++/OpenCV/Matlab等工具或模块。

4.数据服务需求方自行提供。

这部分是按照数据销售的方式向客户收费。

数据挖掘

用大白话说,就是利用数据分析产生深层次有价值的理解。

基于以上各种方式获得的数据,我们可以做最简单的统计分析、用户及品牌理解、用户画像、各品牌或各产品型号之间的关系等等,了解现在和历史并争取预测未来。

常用的工具是Python/R/SPSS等,算法包括最简单的统计、稍微复杂一些的MachineLearning、现在被捧上天的DeepLearning以及CollaborativeFiltering等等,也需要使用到Hive等大数据处理平台。

这部分类似于咨询服务,向有需求的客户按照项目收费。

数据呈现

用大白话说,就是把分析结果用最美观和最容易理解的方式(图标或者图形)展现出来。

目前,行业大概有几种玩法。

网站(兼容PC端和移动端):提供给付费的B端客户,不对外公开,大致形式如下:

开专栏和做公众号:都是纯免费的,将一些不敏感的数据和分析分享出去,攒人品赚口碑。

提供一个SaaS的公有云平台,方便大家把自己的数据制作成为便于在网上特别是移动端传播的图文报表。[大数据魔方]产品的逻辑很简单:读数读图的需求越来越强烈,但是却缺乏这样的工具或者平台来制作图文并茂的内容,即使是Excel,也不能制作出适合于网络传播的图文内容。

常使用的技术是JS+Node.JS+MongoDB等等。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
未来三到五年,云计算将成企业大数据业务发展核心推动因素
http://www.duozhishidai.com/article-3394-1.html
通过数据的采集、挖掘和可视化,深入了解大数据业务?
http://www.duozhishidai.com/article-1566-1.html
大数据究竟是什么,怎么才能快速实现从数据到业务决策呢?
http://www.duozhishidai.com/article-930-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台

猜你喜欢

转载自blog.csdn.net/duozhishidai/article/details/89791051
今日推荐