我所了解的大数据 - 代码天地

我所了解的大数据

其他 2018-05-17 17:13:02 阅读次数: 2

大数据如今越来越热，数据量再大不会用，放到那里也是存储垃圾。所以随着数据量的越来越大，对数据的各种处理和挖掘需求也很多。这就促进分布式存储和计算软件的快速发展，集群的规模也越来越大。从以前的某家公司的服务器规模一万台都让人吃惊，到现在的BAT的大型分布式集群的总服务器规模在几万到几十万之间也不觉得匪夷所思。

我现在接触的也是一些云平台集群的搭建和一些算法的并行化处理（一般是基于Mapreduce编程模型）没有用MPI编程模型具体为什么我也不太清楚。记得听人说在2010年的时候，360还仅仅刚搭建了第一个6台服务器的Hadoop集群，规模小的可怜。可是到后来的4年的时间里，自己的Hadoop集群的总规模已经突破一万台。HDFS这种分布式平台，它不适合大量小文件，因此存储海量小的如小图片、小文档就非常不适合直接存储到HDFS上，相对他的HBase就比较好。例如像M/R这样技术平台不适合处理有大量迭代的计算任务（因为每次迭代数据都要写入HDFS并从HDFS读出来，效率很低），因此机器学习相关的计算不适合在M//R平台上运行，采用数据都基于内存的计算平台就会比M/R平台更合适。

猜你喜欢

转载自blog.csdn.net/mbskyhan/article/details/40900315

我所了解的大数据

我所了解的 DBFlow

我所了解的https

我所了解的 debounce

我所了解的JDBC

我所了解的老板

我所了解的婚姻

我所了解的svn与git

[大数据]了解大数据

我所了解的js闭包

C++指针(我所了解的)

《我所了解的Java》——总体目录

谈一谈我所了解的https

1.我所了解的内网渗透

关于埃航，我所了解的

我所了解的Linux运维技术

MySQL 关于索引我所了解的

了解大数据动态

大数据基础了解

大数据我们真的了解吗?大数据的常见误解你知道吗?

你所不知的大数据时代

常用的正则表达式，我所了解的几种

我所了解的数学家--冯·诺伊曼（1）

深度评测——我所了解的优罗EULO

python3中我所了解的print()的用法

小众领域：我所了解的编辑器

大数据画像 | 爬下十万产品经理信息，我了解到...(多图表）

我的大数据之路

我对大数据的看法

我对大数据的认识

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)