大数据概念、初解

大数据

*大数据概念指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,传统 据库无法处理的数据,一般以亿级为单位。


*小微量数据 几千-几万条数据量

*企业级数据 十万、百万、千万数据量

*大数据 亿级以上数据量

*天文级超大数据 兆亿数据 1M=1024K 1024*1024=100万

*兆亿100万亿数据

*传统数据库Access、mysqlServer、mysql、orcal

*大数据5V特性:

*大量(Volume)

*高速(Velocity)

*多样(Variety) 

*低价值密度(Value)

*真实性(Vercity)

*什么是大数据?

*传统数据库在一定时间内,无法捕捉,处理的数据,称之为大数据。一般以亿级以上数据为分界线。

*为什么学习大数据?

*现今,大数据技术为当今社会的主流,是计算机行业的中流砥柱,未来5年、10年甚至更久,都会是大数据时代!而我深知一句话:不跟随时代的脚步,就会被时代淘汰,而我本身又对大数据比较感兴趣,想研究、探讨有关大数据的知识,所以,我对大数据充满信心!

*什么是分布式系统和hadoop?

*分布式系统又包括分布式数据库与分布式框架;分布式系统的好处是可以横向延伸,从而进行大数据的简单化处理。

*分布式数据库,可以理解为在一台或多台服务器上配置多个分布式数据库,进行数据的分布式处理;

*分布式框架,现在以Hadoop为主流,因为Hadoop有三大特性:

*1.高可用

*2.可靠性(安全)

*3.可扩展性(当新数据进入,只需加几台服务器与相应节点简单配置即可)

*同时Hadoop又是一个开源免费框架,可以为处理大数据或者天文级数据提供很好的处理思想与框架工具。

*有十亿数据如何处理?

*京东有上万台服务器,每台服务器布置着多个分布式节点,不论是十亿或是更多,都可以引用分布式系统来处理。分布式系统又分为分布式数据库和分布式框架,分布式数据库相对于新增数据的处理,并没有分布式框架那么灵活,所以,我会采取以Hadoop分布式治理框架为本的处理方法。

*大数据的特点?

*大数据有5V特性:

*大量(Volume)

*数据量庞大,一般亿级以上的数据量

*高速(Velocity)

*数据量庞大的同时,处理速度快

*多样(Variety) 

*传入方式与输出方式多种多样,物理性可操作的(例如图片/视频/文档等)称之为数据

*低价值密度(Value)

*一般亿级数据,但对本身有用的数据可能只占10%(并不是说其余都是无用数据,而是相对于所需要者的需求来说)

*真实性(Vercity)

*数据都是通过各种各样的渠道获取的,可用目前所获取的数据,推测未来发生的事情的概率等。

*为什么要用大数据处理复杂问题?

*因为复杂问题往往需要进行复杂的运算,而大数据具有的特性:高速性,恰好为复杂问题提供了相符合的方法。但应用大数据也要有相应的前提,数据量是否达到了大数据的要求,以及处理方式,也需要进行推敲,是选择分布式数据库来做,还是分布式框架来做。

*sql与Nosql的区别:

*传统sql是以行为存储单位

*当大量数据中,有个别字段没有值,sql数据库会把相应字段内容空出来或者null,更占内存。

*Nosql是以列为存储单位

*当大量数据中,有个别字段没有值,Nosql数据库会更节省空间。

*为什么不用Nosql开发轻量级数据?

*Nosql数据库(例如:mongodb),基本可操作性没有传统数据库mysql强,而且微量数据使用Nosql数据库,会有一种杀鸡用牛刀的感觉,不趁手,又不方便。

猜你喜欢

转载自blog.csdn.net/debugbugbg/article/details/80458757