随着大数据与云计算的应用十分广泛,在这里写一下我对大数据的基本认识与了解;
一、大数据是啥?
1.
(1) 举例子:商品推荐 问题(1)、大量订单如何存储 (2)、大量的订单如何计算
(2) 天气预报 问题 (1)、大量天气数据如何存储 (2)、大量天气数据如何计算
2.核心问题 数据的存储 与数据的计算
3、Hadoop 要解决的问题就是上面两个问题
4. IBM提出大数据的定义5个v ,就是关于数据量大单词
二、如何学习大数据Hadoop
1.重要:原理与运行机制
2.操作: 开发程序(Java程序)
三、Google的基本思想;
3篇论文:
1.GFS (Google file system) : 分布式的文件系统(类似与网盘)----数据的存储----HDFS(Hadoop Distribute file system )
2.Page rank (搜索排名) 算法: Google向量矩阵 大---小 -----数据的计算 Mapreduce 计算模型
3.Big Table (大表 ------) NoSql 数据库 Hbase ( Hadoop DataBase) 不支持事物
分布式文件系统 :思想来源:Google论文
问题:1、数据不够安全 冗余度:Hadoop 默认是3 2、硬盘不够大 (多几块硬盘)
管理员:namNode 1+1 DataNode(具体存储