B05 - 001、大数据时代Ⅰ

0、本章学习目录大纲 - 大数据时代Ⅰ

初学耗时:4h

注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

一、数据分析定义
  1.1  什么是数据?
  1.2  什么是数据分析?
  1.3  数据分析的目的。
  1.4  数据分析的应用。
  1.5  数据分析的划分。

二、数据分析作用
    2.1  现状分析(离线分析)。
    2.2  原因分析(实时分析)。
    2.3  预测分析。

三、数据分析基本步骤
  3.1  明确分析目的和思路。
  3.2  数据收集。
  3.3  数据处理。
  3.4  数据分析。
  3.5  数据展现。
  3.6  报告撰写。

四、数据分析行业前景
    4.1  蓬勃发展的趋势。
    4.2  数据分析师的职业要求。

五、科技发展带来的挑战
  5.1  分布式系统。
  5.2  海量数据处理。

六、大数据时代
    6.1  概述。
    6.2  大数据分析。

七、大数据分析系统
  7.1  概念、分类。
  7.2  网站流量日志数据分析系统。


本章涉及到的知识拓展:
  B05 - 020、大数据时代Ⅱ
  B05 - 021、数据分析方法论


ギ 舒适区ゾ || ♂ 累觉无爱 ♀





一、数据分析定义

  1.1 ~ 什么是数据?

  • 数据(data):是对客观事物的符号表示,是用于表示客观事物的未经加工的原始素材,如图形符号、数字、字母等。或者说,数据是通过物理观察得来的事实和概念,是关于现实世界中的地方、事件、其他对象或概念的描述。
  • 数据是什么?
    数据来自于对客观事件的记录和计量,需要计量工具技术的介入。
  • 数据分析离不开数据,计量记录一起促成了数据的诞生。

    扫描二维码关注公众号,回复: 6505367 查看本文章
  • 数据记录:是指对应于数据源中一行信息的一组完整的相关信息。例如,客户邮件列表中的有关某位客户的所有信息为一条数据记录。

  • 计算机出现带来的数字测量,极大地提高了数据化的效率,因此人们的重点也逐渐移向了记录下来的庞大数据,对这些数据进行研究、分析,以期获取更大的利益。

结构化数据、非结构化数据:


所谓的结构化通俗解释指的是利于程序解读处理的数据。

数据预处理本质:


经过清洗、转换、抽取等工作,把非结构化数据、杂乱无章的数据变成格式规整统一结构化的数据。

  1.2 ~ 什么是数据分析?

  • 数据分析是指用适当的统计分析方法对收集来的数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。

  1.3 ~ 数据分析的目的。

  • 数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。

  1.4 ~ 数据分析的应用。

  • 商业领域中,数据分析能够给帮助企业进行判断和决策,以便采取相应的策略与行动。例如,企业高层希望通过市场分析和研究,把握当前产品的市场动向,从而指定合理的产品研发和销售计划,这就必须依赖数据分析才能完成。
  • 生活中最著名的例子便是天气专家通过对气象数据进行分析,并且制作出天气预报,根据预报,我们会做出相应的策略,是带伞还是加件毛衣。

  1.5 ~ 数据分析的划分。

  • 数据分析可划分为:描述性数据分析、探索性数据分析、验证性数据分析。
  • 描述性数据分析属于初级数据分析,另两个属于高级数据分析。
  • 其中探索性分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪证明。我们日常学习和工作中所涉及的数据分析主要是描述性数据分析。
数据分析是什么?


使用技术软件寻找出数据中隐藏的规律和价值,最终作用于某个地方。



紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


二、数据分析作用

  • 我们都知道方向比努力更重要,针对性比广撒网更有效,数据分析就能帮助我们做到这一点。

在商业领域中,数据分析的目的是把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。

数据分析在企业日常经营分析中主要有三大作用。

  2.1 ~  现状分析(离线分析)。

  • 简单来说就是告诉你当前的状况。具体体现在:
  • 第一,告诉你企业现阶段的整体运营情况,通过各个指标的完成情况来衡量企业的运营状态,以说明企业整天运营是好了还是坏了,好的程度如何,坏的程度又到哪里。
  • 第二,告诉你企业各项业务的构成,让你了解企业各项业务的发展以及变动情况,对企业运营状况有更深入的了解。

离线分析:分析历史数据,已经产生的数据。

  2.2 ~  原因分析(实时分析)。

  • 简单来说就是告诉你某一现状为什么发生。
  • 经过现状分析,我们对企业的运营情况有了基本了解,但不知道运营情况体好在哪里,差在哪里,是什么原因引起的。这时就需要开展原因分析,以进一步确定业务变动的具体原因。
  • 例如 2016 年 2 月运营收入下降 5%,是什么原因导致的呢?是各项业务收入都出现下降,还是个别业务收入下降引起的,是各个地区业务收入都出现下降,还是个别地区业务收入下降引起的?这就需要我们开展原因分析,进一步确定收入下降的具体原因,对运营策略做出调整与优化。

实时分析:分析当下数据,实时产生的数据。

  2.3 ~  预测分析。

  • 简单来说就是告诉你将来会发生什么。
  • 在了解企业运营现状后,有时还需要对企业未来发展趋势做出预测,为制订企业运营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展。
  • 预测分析一般通过专题分析来完成,通常在制订企业季度、年度等计划时进行,其开展的频率没有现状分析及原因分析高。

机器学习(关联、预测、分类、聚类):通过数据结合数学知识预测未来。



紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




三、数据分析基本步骤

alt

  3.1 ~ 明确分析目的和思路。

    3.1.1 .  明确分析目的。
  • 决策者提供目的,分析者提供思路。
  • 明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集、处理及分析提供清晰的指引方向。
  • 目的是整个分析流程的起点。目的不明确则会导致方向性的错误。
  • 即思考:为什么要开展数据分析,通过这次数据分析要解决什么问题?
    3.1.2 .  确定分析思路。
  • 当明确目的后,就要校理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。
    3.1.3 .  如何明确分析目的?
  • 只有明确了分析目的,分析框架才能跟着确定下来,最后还要确保分析框架的体系化,使分析更具有说服力。
  • 体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。
  • 避免不知从哪方面入手以及分析的内容和指标被质疑是否合理、完整。
  • 所以体系化就是为了让你的分析框架具有说服力。
    3.1.4 .  如何让分析框架体系化?
  • 要想使分析框架体系化,就需要一些营销、管理等理论为指导,结合着实际的业务情况进行构建,这样才能保证分析维度的完整性,分析结果的有效性以及正确性。
  • 比如以用户行为理论为指导,搭建的互联网网站分析指标框架如下:

alt

    3.1.5 .  什么是数据分析方法论?
  • 把跟数据分析相关的营销、管理等理论统称为数据分析方法论。
  • 比如用户行为理论、PEST 分析法、5W2H 分析法等等,详细请浏览另一篇博文:

    B05 - 021、数据分析方法论

  3.2 ~ 数据收集。

    3.2.1 .  什么是数据收集?
  • 数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。
  • 这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,第二手数据主要指经过加工整理后得到的数据。
    3.2.2 .  一般数据来源有哪些?
1、数据库:


每个公司都有自己的业务数据库,存放从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源,需要有效地利用起来。

2、公开出版物:


可以用于收集数据的公开出版物包括《中国统计年鉴》《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。

3、互联网:


随着互联网的发展,网络上发布的数据越来越多,特别是搜索引擎可以帮助我们快速找到所需要的数据,例如国家及地方统计局网站、行业组织网站、政府机构网站、传播媒体网站、大型综合门户网站等上面都可能有我们需要的数据。

4、市场调查:


进行数据分析时,需要了解用户的想法与需求,但是通过以上三种方式获得此类数据会比较困难,因此可以尝试使用市场调查的方法收集用户的想法和需求数据。

市场调查就是指运用科学的方法,有目的、有系统地收集、记录、整理有关市场营销的信息和资料,分析市场情况,了解市场现状及其发展趋势,为市场预测和营销决策提供客观、正确的数据资料。

市场调查可以弥补其他数据收集方式的不足,但进行市场调查所需的费用较高,而且会存在一定的误差,故仅作参考之用。

  3.3 ~ 数据处理。

    3.3.1 .  什么是数据处理?
  • 数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。
  • 数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
    3.2.2 .  数据处理主要包括哪些?
  • 数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。
  • 一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”’的原始数据也需要先进行一定的处理才能使用。
  • 数据处理是数据分析的基础。
  • 通过数据处理,将收集到的原始数据转换为可以分析的形式,并且保证数据的一致性和有效性。

alt

  3.4 ~ 数据分析。

    3.4.1 .  什么是数据分析?
  • 数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
  • 由于数据分析多是通过软件来完成的,这要求数据分析师不仅要掌握各种数据分析方法,还要熟悉数据分析软件的操作数据挖掘其实是一种高级的数据分析方法,就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求。
    3.4.2 .  什么是数据挖掘?
  • 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。
  • 一般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在于寻找模式和规律。
    3.4.3 .  数据分析和数据挖掘的区别?
  • 数据分析与数据挖掘的本质是一样的,都是从数据里面发现关于业务的知识。
  • 数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,也就是我们数据分析师系统成长之路的“更上一楼”。
  • 数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
  • 数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。
  • 举个例子说明:你揣着50元去菜市场买菜,对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜,想荤素搭配,你逐一询问价格,不断进行统计分析,能各自买到多少肉,多少菜,大概能吃多久,心里得出一组信息,这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估,根据自己的偏好,营养价值,科学的搭配,用餐时间计划,最有性价比的组合等等,对这些信息进行价值化分析,最终确定一个购买方案,这就是数据挖掘。
  • 数据分析与数据挖掘的结合最终才能落地,将数据的有用性发挥到极致。
  • 关于数据挖掘,涉及的主要方法主要有:数据分析的方法、可视技术、关联法则、神经网络、决策树、遗传算法等。
  • 主要使用的工具有:R语言,SAS,weka,SPSS Modeler(Clementine)等。

  3.5 ~ 数据展现。

  • 一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。
  • 常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图等。
  • 大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析所要表达的观点。
  • 记位,一般情况不能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。

  3.6 ~ 报告撰写。

  • 数据分析报告其实是对整个数据分析过程的一个总结与呈现。
  • 通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。
  • 一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼 ,提供视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
  • 另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
  • 最后,好的分析报告一定要有建议或解决方案。
  • 作为决策者,需要的不仅仅是找出问题,更重要的是建议或解决方案,以便他们做决策时作参考。
  • 所以,数据分析师不仅需要掌握数据分析方法,而且还要了解和熟悉业务,这样才能根据发现的业务问题,提出具有可行性的建议或解决方案。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




四、数据分析行业前景

  4.1 ~ 蓬勃发展的趋势。

alt

  • 从 20 世纪 90 年代起,欧美国家开始大量培养数据分析师,直到现在,对数据分析师的需求仍然长盛不衰,而且还有扩展之势。
对于中国数据分析行业前景和特点,一面网络创始人何明科指出:


1、市场巨大,许多企业(无论是互联网的新锐还是传统的企业)都在讨论这个,也有实际的需求并愿意为此付钱,但是比较零碎尚不系统化。目前对数据需求最强烈的行业依次是:金融机构(从基金到银行到保险公司到 P2P 公司),以广告投放及电商为代表的互联网企业等;

2、尚没出现平台级公司的模式(这或许往往是大市场或者大机会出现之前的混沌期);

3、企业技术外包的氛围在国内尚没完全形成,对于一些有能力的技术公司,如果数据需求强烈的话,考虑到自身能力的健全以及数据安全性,往往不会外包或者采用外部模块,而倾向于自建这块业务;

4、未来 BAT 及京东、58 和滴滴打车等企业,凭借其自身产生的海量数据,必然是数据领域的大玩家。
     但是整个行业很大而且需求旺盛,即使没有留给创业公司出现平台级巨型企业的机会,也将留出各种各样的细分市场机会让大家可以获得自己的领地。

  4.2 ~ 数据分析师的职业要求。

    4.2.1 .  懂业务。
  • 从事数据分析工作的前提就是需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独特见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的实用价值。
  • 从另外一个角度来说,懂业务也是数据敏感的体现。不懂业务的数据分析师,看到的只是一个个数字;懂业务的数据分析师,则看到的不仅仅是数字,他明白数字代表什么意义,知道数字是大了还是小了,心中有数,这才是真正意义的数据敏感性。
    4.2.2 .  懂管理。
  • 一方面是搭建数据分析框架的要求,比如数据分析第一步确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,那你如何指导数据分析框架的搭建,以及开展后续的数据分析呢?
  • 懂管理另一方面的作用是针对数据分析结论提出有指导意义的分析建议,如果没有管理理论的支撑,就难以确保分析建议的有效性。
    4.2.3 .  懂分析。
  • 是指掌握数据分析的基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效地开展数据分析。
    4.2.4 .  懂工具。
  • 是指掌握数据分析相关的常用工具。
  • 数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,依靠计算器进行分析是不现实的,必须利用强大的数据分析工具完成数据分析工作。
  • 同样,应该根据研究的问题选择合适的工具,只要能解决问题的工具就是好工具。
    4.2.5 .  懂设计。
  • 是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。
  • 图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等,都需要掌握一定的设计原则。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




五、科技发展带来的挑战

在科技的快速发展推动下,在 IT 领域,企业会面临两个方面的问题。


1、如何实现网站的高可用、易伸缩、可扩展、高安全等目标。
为了解决这样一系列问题,迫使网站的架构在不断发展。
从单一架构迈向高可用架构,这过程中不得不提的就是分布式。

2、用户规模越来越大,由此产生的数据也在以指数倍增长,俗称数据大爆炸。
海量数据处理的场景也越来越多。技术上该如何面对?

  5.1 ~ 分布式系统。

    5.1.1 .  概述。
  • 分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。

  • 简单来说就是一群独立计算机集合共同对外提供服务,但是对于系统的用户来说,就像是一台计算机在提供服务一样。

  • 分布式意味着可以采用更多的普通计算机(相对于昂贵的大型机)组成分布式集群对外提供服务。

  • 计算机越多,CPU、内存、存储资源等也就越多,能够处理的并发访问量也就越大。

  • 初代的 web 服务网站架构往往比较简单,应用程序、数据库、文件等所有的资源都在一台服务器上。
    alt
    alt

  • 从分布式系统的概念中我们知道,各个主机之间通信和协调主要通过网络进行,所以,分布式系统中的计算机在空间上几乎没有任何限制,这些计算机可能被放在不同的机柜上,也可能被部署在不同的机房中,还可能在不同的城市中,对于大型的网站甚至可能分布在不同的国家和地区。

    5.1.2 .  特征。
1、分布性:


分布式系统中的多台计算机之间在空间位置上可以随意分布,系统中的多台计算机之间没有主、从之分,即没有控制整个系统的主机,也没有受控的从机。

2、透明性:


系统资源被所有计算机共享。每台计算机不仅可以使用本机的资源,还可以使用分布式系统中其他计算机的资源(包括 CPU、文件、打印机等)。

3、同一性:


同一性:系统中的若干台计算机可以互相协作来完成一个共同的任务,或者说一个程序可以分布在几台计算机上并行地运行。

4、通信性:


系统中任意两台计算机都可以通过通信来交换信息。

    5.1.3 .  常用分布式方案。
1、分布式应用和服务。


将应用和服务进行分层和分割,然后将应用和服务模块进行分布式部署。

这样做不仅可以提高并发访问能力、减少数据库连接和资源消耗,还能使不同应用复用共同的服务,使业务易于扩展。

比如:分布式服务框架 Dubbo。

2、分布式静态资源。


对网站的静态资源如 JS、CSS、图片等资源进行分布式部署可以减轻应用服务器的负载压力,提高访问速度。

比如:CDN。

3、分布式数据和存储。


大型网站常常需要处理海量数据,单台计算机往往无法提供足够的内存空间,可以对这些数据进行分布式存储。

比如 Apache Hadoop HDFS。

4、分布式计算。


随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。

这样可以节约整体计算时间,大大提高计算效率。

比如 Apache Hadoop MapReduce。

    5.1.4 .  分布式、集群。

分布式(distributed)是指在多台不同的服务器中部署不同的服务模块,通过远程调用协同工作,对外提供服务。

集群(cluster)是指在多台不同的服务器中部署相同应用或服务模块,构成一个集群,通过负载均衡设备对外提供服务。

分布式和集群的区别?


共同点:都是多台机器。

分布式:模块功能不一样。
集群:模块功能一样。

  5.2 ~ 海量数据处理。

    5.2.1 .  海量数据的公司及格局。
  • 公开数据显示,互联网搜索巨头百度 2013 年拥有数据量接近 EB 级别。
  • 阿里、腾讯都声明自己存储的数据总量都达到了百 PB 以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百 PB级别。
  • 全球数据量以每两年翻倍的速度增长,在 2010 年已经正式进入 ZB 时代,到 2020 年全球数据总量将达到 44ZB。

alt

    5.2.2 .  海量数据带来的问题。
  • 数据分析的前提是有数据,数据存储的目的是支撑数据分析。
  • 究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
  • 传统的数据存储模式存储容量是有大小限制或者空间局限限制的,怎么去设计出一个可以支撑大量数据的存储方案是开展数据分析的首要前提。
  • 当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。
  • 以目前互联网行业产生的数据量级别,要处理这些数据,就需要一个更好、更便捷的分析计算方式了。
  • 传统的显然力不从心了,而且效率也会非常低下。
  • 这正是传统数据分析领域面临的另一个挑战,如何去分析、计算。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




六、大数据时代

  6.1 ~ 概述。

  • 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
  • 随着互联网快速发展、智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。
  • 这些新技术推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从 Byte、KB、MB、GB、TB 发展到 PB、EB、ZB、YB 甚至 BB 来衡量。
  • 大数据到底是什么?如果简单来理解大数据就是 4V 的特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),即数据体量巨大、数据类型繁多、价值密度低、处理速度快。
  • 但是这样理解会显得太浅显,要想更加全面了解大数据概念可以查看另一篇博文:

  B05 - 020、大数据时代Ⅱ

  6.2 ~ 大数据分析。

    6.2.1 .  大数据分析的由来。
  • 当数据分析遇到大数据时代,于是就产生了完美的契合:大数据分析。
  • 你可以理解大数据分析是指对规模巨大的数据进行分析。
  • 大数据被称为当今最有潜质的 IT 词汇,接踵而来的数据挖掘、数据安全、数据分析、数据存储等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。
  • 随着大数据时代的来临,大数据分析也应运而生。
    6.2.2 .  大数据分析的具体含义。

1、大数据分析可以让人们对数据产生更加优质的诠释,而具有预知意义的分析可以让分析员根据可视化分析和数据分析后的结果做出一些预测性的推断。

2、大数据的分析与存储和数据的管理是一些数据分析层面的最佳实践。通过按部就班的流程和工具对数据进行分析可以保证一个预先定义好的高质量的分析结果。

  • 此外需要注意的是:传统的数据分析就是在数据中寻找有价值的规律,这和现在的大数据在方向上是一致的。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -




七、大数据分析系统

  7.1 ~ 概念、分类。

    7.1.1 .  数据分析主要功能。
  • 数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中。
  • 系统内部对所有的原始数据通过一系列处理转换之后,存储到数据仓库的基础库中;然后,通过业务需要进行一系列的数据转换到相应的数据集市,供其他上层数据应用组件进行专题分析或者展示。
    7.1.2 .  数据的流转流程。
  • 根据数据的流转流程,一般会有以下几个模块:数据收集(采集)、数据存储、数据计算、数据分析、数据展示等等。
  • 当然也会有在这基础上进行相应变化的系统模型。
    7.1.3 .  数据分析的时效性。
  • 按照数据分析的时效性,我们一般会把大数据分析系统分为实时、离线两种类型。
  • 实时数据分析系统在时效上有强烈的保证,数据是实时流动的,相应的一些分析情况也是实时的。
  • 而离线数据分析系统更多的是对已有的数据进行分析,时效性上的要求会相对低一点。时效性的标准都是以人可以接受来划分的。

离线计算(处理):处理历史数据,面向过去分析。称之为批(batch)处理。

实时计算(处理):处理当下实时产生的数据,称之为流(stream)式处理。

  7.2 ~ 网站流量日志数据分析系统初识。

alt

  • 网站流量数据统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。
  • 从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。
    7.2.1 .  技术上。

可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如:
1、辅助改进网络的拓扑设计,提高性能。
2、在有高度相关性的节点之间安排快速有效的访问路径。
3、帮助企业更好地设计网站主页和安排网页内容。

    7.2.2 .  业务上。

1、帮助企业改善市场营销决策,如把广告放在适当的 Web 页面上。
2、优化页面及业务流程设计,提高流量转化率。
3、帮助企业更好地根据客户的兴趣来安排内容。
4、帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。

  • 终极目标是:改善网站的运营,获取更高投资回报率(ROI)。也就是赚更多的钱。


紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

^ 至此,大数据时代Ⅰ完成。


- - - - - - - - - - - - - - - - - - - - - - - - - - - -


※ 世间诱惑何其多,坚定始终不动摇。

在N个乱序数字中查找第k大的数字,时间复杂度可以减小至?


A、O(N*logN)
B、O(N)
C、O(1)
D、O(2)

B
alt



紧追时代,成就自我。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -


注:CSDN手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。

我知道我的不足,我也知道你的挑剔,但我就是我,不一样的烟火,谢谢你的指指点点,造就了我的点点滴滴:)!



紧追时代,成就自我。


猜你喜欢

转载自blog.csdn.net/weixin_42464054/article/details/92062518