SQL 查询的分布式执行与调度

作者:张茄子算法、 分布式技术和函数式编程爱好者


OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

这些算法和模型将主要在 SQL 和关系模型的语境之内讨论, Spark 和 Flink 这类基于 DAG 的处理系统内也有很多相似的概念,在本文中将不会赘述。

基础模型

Volcano 模型

《SQL 查询优化原理与 Volcano Optimizer 介绍》中,我们已经对以关系代数为基础的 SQL 查询优化算法进行了介绍,本文的很多内容也将建立在前文内容的基础之上。首先我们来介绍在单线程执行环境下广为人知的经典模型——Volcano 模型。(值得注


猜你喜欢

转载自yq.aliyun.com/articles/743505