什么是大数据？你需要知道的每件事

本文为翻译的文章，作者Bob Violino，原文：

https://www.infoworld.com/article/3220044/big-data/what-is-big-data-everything-you-need-to-know.html

分析大量的数据，只是大数据分析区别于以前数据分析的一方面。来学习一下大数据的其他方面。

大数据定义
大数据通常是指数据集的容量非常大且非常复杂，以至于传统的数据处理软件产品不能在合理的时间内对这些数据进行抓取，管理和处理。

这些海量的数据集可以包括结构化，非结构化和半结构化的数据，每一种都能被挖掘出来以便洞悉这些数据。

多少数据才真正组成了大数据，这还有待讨论，但典型的是PB的倍数-----那些最大的项目，数据级别可能在EB范围了【译者注：1EB = 1024PB, 1PB = 1024TB】。

通常，大数据具有以下3V的特点：
Volumn：海量的数据
Variety：多种多样的数据类型
Velocity：数据处理和分析的速度快

大数据中的数据来源包括网站，社会媒体，桌面和移动应用，科学实验，以及日益增长的传感器和其他IoT中的设备【译者注：IoT指物联网】。

大数据的概念伴随着一组相关联的组件而产生，它们使得组织能够把数据进行实际的运用，并且解决许多商业上的问题。这些组件包括支持大数据的IT基础设施；运用在数据上的分析；大数据工程所需要的技术；相关的技术集；对大数据有意义的实际应用案例。

大数据及分析
对于组织所收集的大数据，真正有价值的是对于这些数据的分析。没有分析，它们就是一堆商业用途非常有限的数据而已。

通过大数据分析，公司能够受益于销售的增长，客户服务的提升，效率的增加，以及竞争力的整体提升。

数据分析包括检查数据集以获得洞察力，或者得出一些关于这些数据集内涵的结论，比如未来活动的趋势和预测。

通过分析这些数据，组织能够做出更明智的商业决策，比如什么时候在什么地方举办一场介绍新产品或者新服务的市场活动。

分析可以指基础的商业智能应用或者更高级的预测分析，比如科学机构所使用的那些。数据分析最高级的类型是数据挖掘，分析师评估大型数据集以便识别出关系，模式和趋势。

数据分析可以包含探索式的数据分析（识别数据中的模式和关系）和确定性的数据分析（应用统计技术来找到对于特定数据集的假设是否正确）。

另外一种区分是定量数据分析（或者说是数值数据的分析，数值数据有可量化的变量，而这些变量能够从统计学的角度进行比较）和定性数据分析（聚焦于非数值数据，比如视频，图片和文本）。

支撑大数据的IT基础设施
要让大数据的概念落地，组织需要有适当的基础设施来收集和存放数据，提供访问数据的方式，并且在存储和传输信息的时候保护他们。

从一个较高的角度来看，这些基础设施包括存储系统以及为大数据设计的服务器，数据管理和集成软件，商业智能和数据分析软件，以及大数据应用程序。

大部分的基础设施将会在内部部署，因为公司希望继续利用他们对于数据中心的投资。但越来越多的组织依赖云计算服务来处理很多他们关于大数据方面的需求。

数据收集需要有来源。很多数据来源已经存在：比如web应用，社交媒体渠道，移动应用，以及邮件归档。但是随着IoT变得根深蒂固，公司可能需要在所有类型的设备、汽车、产品上部署传感器来收集数据，同时部署生成用户数据的新型应用（物联网导向的大数据分析有它自己独特的技术和工具）。

要存储所有的输入数据，组织需要有充足的数据存储空间。这些存储选项包括传统的数据仓库，数据湖，以及基于云的存储。

安全相关的基础设施工具可能包括数据加密，用户认证和其他访问控制，监控系统，防火墙，企业移动化管理，以及其他保存系统和数据的产品。

大数据特定的技术
除了前面提到的通用数据处理的IT基础设施外，还有一些大数据独有的IT基础设施需要支持的技术。
Hadoop生态系统
Hadoop是一种与大数据最紧密相关的技术。Apache Hadoop项目开发开源软件，用于可伸缩的分布式计算。

Hadoop软件库是一种框架，它使用简单的编程模型，能够跨计算机集群对大数据集进行分布式处理。它被设计成一台服务器到上千台服务器的扩展，每一台都提供了本地计算和存储。

这个项目包括几个模块：
Hadoop Common，通用的支持其他Hadoop模块的工具包
Hadoop分布式文件系统（HDFS），对于程序数据提供了高吞吐量的访问
Hadoop MapReduce，一种基于YARN的用于对大数据集进行并行处理的系统
Apache Spark
Apache Spark是一种开源的集群计算框架，作为Hadoop范围内的一种大数据处理引擎，它是Hadoop生态系统的一部分。Spark已经成为关键性的大数据分布式处理框架之一，并且能够以多种方式进行部署。它提供以下语言的本地绑定：Java， Scala， Python（特别是Anaconda Python发行版），以及R编程语言（R非常适合大数据），Spark也支持SQL，流数据，机器学习和图像处理。
数据湖
数据湖是存储了极其大量的本地格式原始数据（直到被商业用户所需要）的存储仓库。刺激数据湖增长的是数字化转换的动机和IoT的增长。数据湖被设计成当需求增长时，让用户更容易地访问大量的数据。
NoSQL数据库
传统的SQL数据库被设计成可靠的事务和即席查询，但它们有许多限制比如严格的schema，这使得他们不太适合某些类型的应用。NoSQL数据库解决了这些限制，并且以很高的处理速度和很大的灵活性来存储和管理数据。已经有很多被公司开发出来，用来寻求一种更好的存储内容或者处理大量网站数据的方式。与SQL数据库不同，许多NoSQL数据库能够在数百台或者上千台服务器上进行水平扩展。
内存数据库
内存数据库是一种主要依赖内存而不是磁盘来存储数据的数据库管理系统。内存数据库比磁盘优化过的数据库要快，对于大数据分析的使用，以及数据仓库和数据集市的创建，这是很重要的一个考量。

大数据技能
对于大数据和大数据分析的追求需要特定的技能，不管他们是来自于组织内部还是通过外部的专家。很多这种技能都与关键的大数据技术组件有关，比如Hadoop，Sparck，NoSQL数据库，内存数据库和分析软件。

其它特定于这个学科的技能有数据科学，数据挖掘，统计和定量分析，数据可视化，通用编程，以及数据结构和算法。同时也需要人们具备综合的管理技能以使大数据项目能够顺利完成。

考虑到大数据分析项目变得如此的普遍，并且具备这种类型技能的人是如此地缺乏，组织要找到有经验的专业人才可能是最大的挑战之一。

大数据应用案例
大数据和分析可以运用到很多的商业问题和案例上。下面是一些例子：

客户分析。公司能检查客户数据以提升客户体验，提高转化率，增加留存

运营分析。提升运营效率，并且对于公司资产加以更好的利用，是许多公司的目标。大数据分析能够帮助企业找到高效运营及效能提升的方法。

反欺诈。数据分析可以帮助组织识别可能预示着欺诈行为的活动和模式，并降低风险。

价格优化。公司可以使用大数据分析来优化他们给产品和服务所做的定价，帮助他们提升收入。

原创文章，欢迎转载，但请注明出处。
欢迎大家关注微信公众号互联网全栈架构。
在这里插入图片描述

什么是大数据？你需要知道的每件事

猜你喜欢