Java内容的复习-大数据 - 代码天地

Java内容的复习-大数据

其他 2018-05-30 17:40:00 阅读次数: 1

Spark

Spark streaming和storm的区别是（两者都是分布式流处理框架）http://www.jdon.com/46591 ：

1.Spark支持保持状态

2.Spark有数据平滑窗口（sliding window），而后者需要自己去维护这个窗口

3.Spark是需要到一个duration才开始处理数据，storm是实时处理数据，有数据就处理。Storm只有秒内的延迟

4. 在Storm中,每个单独的记录当它通过系统时必须被跟踪，所以Storm能够至少保证每个记录将被处理一次，但是在从错误中恢复过来时候允许出现重复记录。这意味着可变状态可能不正确地被更新两次。另一方面，Spark Streaming只需要在批级别进行跟踪处理，因此可以有效地保证每个mini-batch将完全被处理一次，即便一个节点发生故障。简而言之,如果你需要秒内的延迟，Storm是一个不错的选择，而且没有数据丢失。如果你需要有状态的计算，而且要完全保证每个事件只被处理一次，Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易，因为它类似于批处理程序(Hadoop)，特别是在你使用批次(尽管是很小的)时

5. Spark Streaming一个好的特性是其运行在Spark上. 这样你能够你编写批处理的同样代码，这就不需要编写单独的代码来处理实时流数据和历史数据

Storm

storm框架 http://storm.incubator.apache.org/documentation/Concepts.html

storm保证消息不丢

扫描二维码关注公众号，回复： 1161072 查看本文章

http://xumingming.sinaapp.com/127/twitter-storm%E5%A6%82%E4%BD%95%E4%BF%9D%E8%AF%81%E6%B6%88%E6%81%AF%E4%B8%8D%E4%B8%A2%E5%A4%B1/

Storm分布式实时流计算框架相关技术总结

http://www.cr173.com/html/18637_1.html

Storm的

http://www.blogjava.net/killme2008/archive/2011/11/17/364112.html

HBase

Hadoop是一个能够对大量数据进行分布式处理的软件框架 http://baike.baidu.com/view/908354.htm?fr=aladdin

Hadoop的优缺点介绍：

（一）优点：

（一）高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;

（二）高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

（三）高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

（四）高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

（二）缺点：

（一）不适合低延迟数据访问。

（二）无法高效存储大量小文件。

（三）不支持多用户写入及任意修改文件（支持删除文件）

·Scribe

http://www.cnblogs.com/brucewoo/archive/2011/12/13/2285482.html

实时分布式日志收集系统的比较 http://www.kankanews.com/ICkengine/archives/89351.shtml

Scribe示例 http://blog.csdn.net/amuseme_lu/article/details/6328013

·Hive

·Pig

·Zookeeper

·Flume

猜你喜欢

转载自frankfan915.iteye.com/blog/2105070

Java内容的复习-大数据

大数据考试复习内容（仅供参考）

Java内容的复习-数据库

Java内容的复习-数据结构

大数据复习指导

大数据复习

大数据复习总结

（期末复习）大数据

大数据复习课Day01_java基础

大数据学习内容

Java内容的复习-线程同步

Java内容的复习-网络IO

Java内容的复习-其它知识

Java总复习内容

个人：大数据复习清单

大数据基础期末复习

大数据导论复习笔记

大数据期末复习重点

大数据期末总结复习

行业大数据复习

JAVA方向的大数据包含啥内容？

大数据-数据内容分类

大数据开发零基础需要学习什么内容？（1）Java、大数据基础

没有基础能学大数据吗？Java大数据都学什么内容？

大数据精品内容分享

关于大数据架构的内容

大数据学习内容记录

前端，数据库，Java 相关内容复习计划表

Java内容的复习-Performance 调优

Java内容的复习-OI项目面试

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)