1.数据分析

数据分析

1.数据分析定义

数据: 计量和记录一起促成了数据的诞生

数据分析:是指用适当的同级分析方法对手机来的数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。

数据分析的目的:是把隐藏在一大批砍死杂乱无章的数据背后的信息几种提炼出来,总结出所研究对象的内在规律

数据分析的分类:描述性数据分析、探索性数据分析、验证性数据分析。

2.数据分析的作用

数据分析的作用:在商业领域中,数据分析能够帮助企业进行判断和决策,一遍采取相应的策略与行动。生活中的应用如天气预报。

在商业领域中,数据分析的目的是把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在。数据分析在企业日常经营分析中主要有三大作用 :

  • 现状分析:告诉你当前的状况
  • 原因分析:某一现状为何发生
  • 预测分析:将来会发生什么

3.数据分析的基本步骤

  1. 明确分析目的和思路
  2. 数据采集
  3. 数据处理
  4. 数据分析
  5. 数据展现
  6. 报告撰写

 3.1明确分析目的和思路

明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据采集\处理及分析提供清晰的指引方向。

  • 目的明确 目的是整个分析流程的起点
  • 整理分析思路,搭建分析框架,把分析目的拆解成若干个不同分析要点,如何具体开展数据分析,需要从那几个角度进行分析,采用哪些分析指标,确保分析框架的体系化,使分析更具有说服力

把数据分析相关的营销、管理等理论统称为数据分析方法论

常见数据分析方法:PEST分析法、5W2H分析法

3.2数据收集

数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据

数据来源:

  • 数据库
  • 公开出版物
  • 互联网
  • 市场调查 (费用较高)

3.3数据处理

数据处理:对手机到的数据进行加工整理,形成适合数据分析的样式。它是数据分析前不可少的阶段

数据处理的目的:从大量的、杂乱无章、难以理解的数据中,抽取并退导出对解决问题有价值,有意义的数据

数据处理包括:数据清洗数据转化数据提取数据计算等处理方法

数据处理是数据分析的基础。通过数据处理,将收集到的原始数据转换为可以分析的形式,并且保证数据的一致性和有效性

3.4数据分析 (过程中的重点,必须确保正确)

数据分析:是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。

数据挖局是一种搞基的数据分析方法,从大量的数据中挖掘出有用的信息。

3.5数据展现

一般情况下,数据通过表格和图形的方式来呈现的。

3.6报告撰写

数据分析报告是对整个数据分析过程的一个总结与呈现。

  1. 首先需要一个好的分析框架,层次明细,主次分明。
  2. 数据分析报告要有明确的结论
  3. 有建议或者解决方案

 4.数据分析行业前景

4.1蓬勃发展的趋势

中国数据分析行业前景和特点:

  1. 市场巨大 但比较零碎且尚不系统化
  2. 尚没出现平台级公司
  3. 外包的氛围国内尚没完全形成
  4. 整个行业很大而且需求旺盛

4.2数据分析师职业要求

  • 懂业务 熟悉行业知识、公司业务及流程,对数据敏感
  • 懂管理 确定分析思路就需要用到营销、管理等理论知识来指导 针对数据分析结论提出有指导意义的分析建议
  • 懂分析 掌握数据分析的基本原理与一些有效的数据分析方法
  • 懂工具 掌握数据分析相关的常用工具 根据研究的问题选择合适的工具
  • 懂设计 运用图标有效表达数据分析师的分析观点

比较好的一款数据分析图表化工具 echarts

5.随着科技发展带来的挑战

  1. 为了实现网站的高可用、易伸缩、可扩展、高安全等目标 的 单一架构向高可用架构的发展 分布式
  2. 用户规模增大 产生的数据以指数倍增长,数据大爆炸。解决海量数据处理的场景越来越多,技术上如何面对

5.1分布式系统

分布式系统:一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调系统
一群独立计算机集合共同对外提供该服务,但是对于系统的用户来说,就像是一台计算机在提供服务一样

分布式系统的特征:

  • 分布性 分布式系统中的多态计算机之间在空间位置上可以随意分布
  • 透明性 系统资源被所有计算机共享
  • 同一性 系统中的若干台计算机可以互相协作来完成一个共同任务,或者说一个程序可以分布在几台计算机上并行地运。
  • 通信性 系统中任意两台计算机都可以通过信来交换息。 系统中任意两台计算机都可以通过信来交换息。

常用分布式方案

  • 分布式应用和服务 如dubbo
  • 分布式静态资源 如CDN
  • 分布式数据和存储 如Apache Hadoop HDFS
  • 分布式计算 如Apache Hadoop Mapreduce

分布式和集群的区别

分布式:是指在多台不同的服务器部署不同的服务模块,通过远程调用协同工作,对外提供服务

集群:是指在多台不同的服务器中部署相同应用或服务模块。构成一个集群,通过负载均衡设备对外提供服务

5.2海量数据处理

  1. 解决海量数据的存储 数据分析的前提是有数据,数据存储的目的是支撑数据分析
  2. 解决海量数据的计算问题

猜你喜欢

转载自www.cnblogs.com/Luckyness/p/9013095.html