Kafka是如何实现高吞吐率的 - 代码天地

Kafka是如何实现高吞吐率的

企业开发 2018-05-10 03:30:50 阅读次数: 0

Kafka是分布式消息系统，需要处理海量的消息，Kafka的设计是把所有的消息都写入速度低容量大的硬盘，以此来换取更强的存储能力，但实际上，使用硬盘并没有带来过多的性能损失

kafka主要使用了以下几个方式实现了超高的吞吐率

顺序读写

kafka的消息是不断追加到文件中的，这个特性使kafka可以充分利用磁盘的顺序读写性能

顺序读写不需要硬盘磁头的寻道时间，只需很少的扇区旋转时间，所以速度远快于随机读写

Kafka官方给出了测试数据(Raid-5，7200rpm)：

顺序 I/O: 600MB/s

随机 I/O: 100KB/s

零拷贝

先简单了解下文件系统的操作流程，例如一个程序要把文件内容发送到网络

这个程序是工作在用户空间，文件和网络socket属于硬件资源，两者之间有一个内核空间

在操作系统内部，整个过程为：

在Linux kernel2.2 之后出现了一种叫做"零拷贝(zero-copy)"系统调用机制，就是跳过“用户缓冲区”的拷贝，建立一个磁盘空间和内存的直接映射，数据不再复制到“用户态缓冲区”

系统上下文切换减少为2次，可以提升一倍的性能

文件分段

kafka的队列topic被分为了多个区partition，每个partition又分为多个段segment，所以一个队列中的消息实际上是保存在N多个片段文件中

通过分段的方式，每次文件操作都是对一个小文件的操作，非常轻便，同时也增加了并行处理能力

批量发送

Kafka允许进行批量发送消息，先将消息缓存在内存中，然后一次请求批量发送出去

比如可以指定缓存的消息达到某个量的时候就发出去，或者缓存了固定的时间后就发送出去

如100条消息就发送，或者每5秒发送一次

这种策略将大大减少服务端的I/O次数

数据压缩

Kafka还支持对消息集合进行压缩，Producer可以通过GZIP或Snappy格式对消息集合进行压缩

压缩的好处就是减少传输的数据量，减轻对网络传输的压力

Producer压缩之后，在Consumer需进行解压，虽然增加了CPU的工作，但在对大数据处理上，瓶颈在网络上而不是CPU，所以这个成本很值得

http://it.dataguru.cn/article-9855-1.html

猜你喜欢

转载自aoyouzi.iteye.com/blog/2322673

Kafka是如何实现高吞吐率的

Kafka学习笔记 --- Kafka是如何实现高吞吐率的？

【Kafka】Kafka如何实现高吞吐量

【Kafka】（十）Kafka 如何实现高吞吐量

Kafka如何实现高吞吐量低延迟

Kafka Partition存储机制与高吞吐率原理

kafka高吞吐

RocketMq是如何实现高性能(高吞吐)的？

kafka高吞吐、低延时、高性能的实现原理

Kafka 高吞吐量性能揭秘

解密Kafka吞吐量高的原因

kafka 高吞吐量的因素

Kafka高吞吐低延迟原理

kafka高吞吐量的原因

美团二面：Kafka 高吞吐架构设计在生产端是如何体现的？

如何让Kafka在保证高性能、高吞吐的同时通过各种机制来保证高可用性？

Kafka高可用、高吞吐背后的秘密（含问题）

Spring Boot与Apache Kafka实现高吞吐量消息处理：解决大规模数据处理问题

百万TPS高吞吐、秒级低延迟，阿里搜索离线平台如何实现？

kafka高吞吐量之消息压缩

揭开Kafka高吞吐量神秘面纱

Spring boot 实现高吞吐量

推广着陆页：如何实现高转化率？

如何设计高并发时高吞吐量的架构

【26】Superscalar和VLIW：如何让CPU的吞吐率超过1？

Kafka如何实现每秒上百万的高并发写入

Kafka如何实现每秒上百万的高并发写入？

WLAN吞吐率测试

kafka学习总结011 --- kafka为什么有如此高的吞吐量和性能

Web服务器如何实现高吞吐低延迟？Dropbox从操作系统到应用层优化指南

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)