聊聊数据

作为‘大数据与架构’ 的开篇,笔者想了很久该从哪里下手呢,既然是‘大数据’ 那肯定离不开数据,那咱们今天就聊聊数据吧。

一、数据到底有多重要?

这里直接引用马总的两句话:

(1)“人类正从IT时代走向DT时代

(2)“未来30年,计算会是生产力,数据将成为生产资料”。

可见数据对于一家科技公司未来发展的重要性。


二、如何度量数据?

数据度量的最小单位为bit(位), 一个bit能表示0和1两种状态。8个二进制位构成一个字节Byte,

它是存储空间的基本计量单位,其它单位换算如下:

B—>KB(2^10B)—>MB(2^20B)—>GB(2^30B)->TB(2^40B)—>PB(2^50B)—>EB(2^60B)—>ZB(2^70B)—>YB(2^80B)—>BB(2^90B)—>NB(2^100B)—>DB(2^110B)—>CB(2^120B)—>XB(2^130B)

扫描二维码关注公众号,回复: 3210994 查看本文章


那么现实中到底有多少数据呢?IDC报告称 2020年的时候,全球的数据总量将达到40ZB,目前全球数据的增长速度在每年40%左右“2018中国国际大数据产业博览会开幕式上工信部副部长陈肇雄表示,预计到2020年,我国数据总量全球占比将达20%

40ZB的数据到底有多大呢?我们打个比方让大家有个更深刻的了解:


每个汉字的GBK编码占2个字节,一张普通A4纸间距小点可以写800汉字,正反两面都写,则一张A4纸的数据含量为:2B*800*2=3200B,则40ZB的数据能写 2^70/3200 A4

假设一张A4纸厚度为1/8毫米=0.000125米,则40ZB的数据写的所有A4纸叠起来的厚度为(2^70/3200)*0.000125。到底有多厚呢?
(1)
地球的赤道周长为40076千米=40076,000米,则40ZB的数据写的所有A4纸叠起来的厚度可绕地球赤道((2^70/3200)*0.000125)/40076,000 约为:115万圈
(2)
火星到地球的最近距离约为5500万公里,则40ZB的数据写的所有A4纸叠起来的厚度是火星到地球最近距离的

((2^70/3200)*0.000125)/5500,0000,000
约为838

(3)
真空中光速为:299792458米/秒,则40ZB的数据写的所有A4纸叠起来的厚度按光速从底部飞到顶部需要
((2^70/3200)*0.000125)/299792458=153829
 

约为119个小时


三、数据处理的一般流程

数据处理的一般流程包括:数据源生产-->  数据收集-->数据存储-->数据清洗-->数据应用


数据源生产:数据的来源通常包括(1) 自己公司系统产生的数据,除了一般的业务数据(如:用户的基本信息、订单信息)外,用户的行为日志数据(如登陆ip、设备号等)也是比较常见的有价值的数据(2)从互联网上爬取的数据,包括公开的数据,如维基百科;以及需要用户授权的数据,如征信数据(3)从第三方购买的数据,不过国家规定有些用户的隐私数据是禁止买卖


数据收集:通常需要考虑以下几个问题(1)从哪里收集数据,如:前端埋点、后端日志、业务从库 (2)何时收集以及收集的频率,是每天凌晨收集一次?每隔一小时收集一次?数据一产生就立即收集? 这个问题决定了数据的时效性、同时可能影响系统的稳定性  (3)是增量式收集还是全量覆盖式收集?


数据存储:这里所说的存储是指数据的统一存储的地方,当前最流行的莫过于hdfs。不过根据数据的使用场景,如低延迟、线上接口业务通常使用Hbase、Cassandra、ES等。数据存储通常需要考虑的问题有:副本数量、副本放置的策略、压缩等。


数据清洗:数据的清洗主要是为上层分析提供一个更干净、更可靠、更易用的中间层数据。数据清洗内容通常包括:剔除测试及错误数据、记录并补全缺失的数据、去除重复数据、简单去关联


数据应用:通常包括简单取数、汇总分析、趋势分析、异常查找,更高级一点采用法模型挖掘更深入的价值。


这里盗用一张网上笔者比较喜欢的图,展示从信息中提取价值的过程:



以上就是今天聊得内容,水平有限,欢迎留言吐槽!


猜你喜欢

转载自blog.csdn.net/wodwl/article/details/80870187