聊聊数据

作为‘大数据与架构’ 的开篇，笔者想了很久该从哪里下手呢，既然是‘大数据’ 那肯定离不开数据，那咱们今天就聊聊数据吧。

一、数据到底有多重要？

这里直接引用马总的两句话：

（1）“人类正从IT时代走向DT时代”

（2）“未来30年，计算会是生产力，数据将成为生产资料”。

可见数据对于一家科技公司未来发展的重要性。

二、如何度量数据？

数据度量的最小单位为bit（位），一个bit能表示0和1两种状态。8个二进制位构成一个字节Byte，

它是存储空间的基本计量单位，其它单位换算如下：

B—>KB(2^10B)—>MB(2^20B)—>GB(2^30B)->TB(2^40B)—>PB(2^50B)—>EB(2^60B)—>ZB(2^70B)—>YB(2^80B)—>BB(2^90B)—>NB(2^100B)—>DB(2^110B)—>CB(2^120B)—>XB(2^130B)

扫描二维码关注公众号，回复： 3210994 查看本文章

那么现实中到底有多少数据呢？IDC报告称 2020年的时候，全球的数据总量将达到40ZB，目前全球数据的增长速度在每年40%左右。“2018中国国际大数据产业博览会” 开幕式上工信部副部长陈肇雄表示，预计到2020年，我国数据总量全球占比将达20%

40ZB的数据到底有多大呢？我们打个比方让大家有个更深刻的了解：

每个汉字的GBK编码占2个字节，一张普通A4纸间距小点可以写800汉字，正反两面都写，则一张A4纸的数据含量为：2B*800*2=3200B，则40ZB的数据能写 2^70/3200 张A4纸。

假设一张A4纸厚度为1/8毫米=0.000125米，则40ZB的数据写的所有A4纸叠起来的厚度为(2^70/3200)*0.000125米。到底有多厚呢？
（1）
地球的赤道周长为40076千米=40076,000米，则40ZB的数据写的所有A4纸叠起来的厚度可绕地球赤道((2^70/3200)*0.000125)/40076,000 约为：115万圈
（2）
火星到地球的最近距离约为5500万公里，则40ZB的数据写的所有A4纸叠起来的厚度是火星到地球最近距离的

((2^70/3200)*0.000125)/5500,0000,000
约为838倍

（3）
真空中光速为：299792458米／秒，则40ZB的数据写的所有A4纸叠起来的厚度按光速从底部飞到顶部需要
((2^70/3200)*0.000125)/299792458=153829秒

约为1天19个小时

三、数据处理的一般流程

数据处理的一般流程包括：数据源生产--> 数据收集-->数据存储-->数据清洗-->数据应用

数据源生产：数据的来源通常包括（1）自己公司系统产生的数据，除了一般的业务数据（如：用户的基本信息、订单信息）外，用户的行为日志数据（如登陆ip、设备号等）也是比较常见的有价值的数据（2）从互联网上爬取的数据，包括公开的数据，如维基百科；以及需要用户授权的数据，如征信数据（3）从第三方购买的数据，不过国家规定有些用户的隐私数据是禁止买卖的

数据收集：通常需要考虑以下几个问题（1）从哪里收集数据，如：前端埋点、后端日志、业务从库（2）何时收集以及收集的频率，是每天凌晨收集一次？每隔一小时收集一次？数据一产生就立即收集？这个问题决定了数据的时效性、同时可能影响系统的稳定性（3）是增量式收集还是全量覆盖式收集？

数据存储：这里所说的存储是指数据的统一存储的地方，当前最流行的莫过于hdfs。不过根据数据的使用场景，如低延迟、线上接口业务通常使用Hbase、Cassandra、ES等。数据存储通常需要考虑的问题有：副本数量、副本放置的策略、压缩等。

数据清洗：数据的清洗主要是为上层分析提供一个更干净、更可靠、更易用的中间层数据。数据清洗内容通常包括：剔除测试及错误数据、记录并补全缺失的数据、去除重复数据、简单去关联。

数据应用：通常包括简单取数、汇总分析、趋势分析、异常查找，更高级一点采用算法模型挖掘更深入的价值。

这里盗用一张网上笔者比较喜欢的图，展示从信息中提取价值的过程：

以上就是今天聊得内容，水平有限，欢迎留言吐槽！

猜你喜欢