Kudu学习笔记 --- Kudu与Impala集成的特性梳理

版权声明:学习交流为主,未经博主同意禁止转载,禁止用于商用。 https://blog.csdn.net/u012965373/article/details/82462673

CREATE/ALTER/DROP TABLE

Impala 支持使用 Kudu 作为持久层来 creating(创建),altering(修改)和 dropping(删除)表。这些表遵循与 Impala 中其他表格相同的  Internal / external(内部 / 外部)方法,允许灵活的数据采集和查询。

INSERT

数据可以使用与那些使用 HDFS 或 HBase 持久性的任何其他 Impala 表相同的语法插入 Impala 中的 Kudu 表。

UPDATE / DELETE

Impala 支持 UPDATE 和 DELETE SQL 命令逐行或批处理修改 Kudu 表中的已有的数据。选择 SQL 命令的语法与现有标准尽可能兼容。除了简单 DELETE 或 UPDATE 命令之外,还可以 FROM 在子查询中指定带有子句的复杂连接。

Flexible Partitioning(灵活分区)

与 Hive 中的表分区类似,Kudu 允许您通过 hash 或范围动态预分割成预定义数量的 tablets,以便在集群中均匀分布写入和查询。您可以通过任意数量的 primary key(主键)列,任意数量的 hashes 和可选的 list of split rows 来进行分区。参见模式设计

Url: http://kudu.apache.org/docs/schema_design.html

Parallel Scan(并行扫描)

为了在现代硬件上实现最高的性能,Impala 使用的 Kudu 客户端可以跨多个 tablets 扫描。

High-efficiency queries(高效查询)

在可能的情况下,Impala 将谓词评估下推到 Kudu,以便使谓词评估为尽可能接近数据。在许多任务中,查询性能与 Parquet 相当。

有关使用 Impala 查询存储在 Kudu 中的数据的更多详细信息,请参阅 Impala 文档。

猜你喜欢

转载自blog.csdn.net/u012965373/article/details/82462673
今日推荐