Presto与Spark SQL查询性能比较 - 代码天地

Presto与Spark SQL查询性能比较

其他 2018-11-01 08:51:36 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yiifaa/article/details/82788727

1. 数仓环境

指标名称	指标值
数据总量	24T
分区数量	24
存储类型	Text
Spark SQL版本	2.2.0-218
Pres同版本	Presto CLI 04fb3c3-dirty

2. 分页查询

所有的计算时间都以秒为单位，执行的SQL语句如下：

select * from mydb where year='2018' and month='09' and day='09' and remote_addr='117.136.68.11' and host like '%poi%'  limit 10;

执行环境	limit 10	limit 100	limit 200
Presto	2	23	42
Spark SQL	34.08	237.395	120
Hive	4413	忽略	忽略

另外，我注意到Presto自带分页功能，所以在执行查询命令时感觉更快，几乎就是刚输入命令，结果就呈现出来了，交互性领先。

3. 全量结果

相对于分页查询，这次去掉了limit限制，以及增加了计数查询，如下：

#   测试1
select * from mydb where year='2018' and month='09' and day='09' and remote_addr='117.136.68.11' and host like '%poi%';
#   测试2
select count(*) from mydb where year='2018' and month='09' and day='09' and remote_addr='117.136.68.11' and host like '%poi%';

执行结果，如下表所示：

执行环境	全量数据
Presto	2080
Spark SQL	661.493

4. 其他

相比于Spark SQL，Presto有着更快的启动时间。

相比于Presto，Spark SQL更容易指定执行节点的数量，速度提升更容易，下表是Spark SQL节点数量的速度变化情况。

 spark-sql --num-executors 10

节点数量	执行时间
100	661.493
24	662.734
10	625.403

从上表可以看出，Spark SQL所需的执行节点应尽可能与分区数量相等(正在做进一步详尽的测试，请稍等)，再多也只是资源浪费。

跟Presto相比，Spark SQL即使在执行节点数量相等时(10个)，Spark SQL的速度也大幅领先。

5. 结论

在执行分页查询时，Presto具有明显的优势，但需要全量数据与统计时，Spark SQL则将Presto远远甩在身后。

猜你喜欢

转载自blog.csdn.net/yiifaa/article/details/82788727

Presto与Spark SQL查询性能比较

Impala与Presto性能比较

Hadoop与spark性能比较试验

Hadoop和spark的性能比较

大数据SQL交互查询 presto/spark/mapreduce 计算引擎对比

Spark SQL和 presto 访问数据源的对比分析

Spark VS Presto VS Impala

好程序员技术解析Hadoop和spark的性能比较

分页查询写法性能比较

常用sql函数及高效性能比较

Presto on Spark：扩展 Presto 以支持大规模 ETL

Presto性能优化

Presto 性能优化点

presto 性能优化

提高spark sql翻页查询性能的想法

Presto简介（及时查询）

Java集成presto查询

Presto sql 语句

Presto Sql 记录

Presto: SQL on Everything

presto sql优化

大数据不就是写sql吗？—— Hive：把sql解析后用MapReduce跑 SparkSQL：把sql解析后用Spark跑，比hive快点 Drill/Impala/Presto：交互式查询OLAP Druid/Kylin：强调预计算，同样是OLAP

从Mysql SQL到Presto SQL

Presto

HttpServer性能比较

if与switch的性能比较

Hive on Spark 与Spark SQL比较

Spark SQL与Hive on Spark的比较

Oracle模糊查询使用like与Instr性能比较

三种对象关联查询的性能比较

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)