flink读写filesystem

业界资讯 2023-05-07 23:28:47 阅读次数: 0

1 flink-sql写parquet格式

-

1 参考链接

Parquet | Apache Flink

ParquetOutputFormat - parquet-hadoop 1.10.0 javadoc

FileSystem | Apache Flink

注意: 多个链接要结合起来看

-

2 连接文件系统

CREATE TABLE test_fs_table (
  iid STRING,
  local_time TIMESTAMP,
  dt STRING,
  dh STRING
) PARTITIONED BY (dt,dh) WITH (
  'connector'='filesystem',
  'path'='out_path',
  'format'='parquet',
  'parquet.block.size'='128MB', -- 设定文件块大小
  'auto-compaction'='true', -- 开启自动合并小文件
  'compaction.file-size'='12MB', -- 合并文件大小
  'parquet.compression'='SNAPPY'  -- 指定压缩, 生成的文件名没有压缩类型标记
)

-

2 parquet文件生成规则

1) 数据量小, checkpoint内没超过parquet.block.size

2) 数据量较大, checkpoint内超过parquet.block.size

-

3) 文件回滚的条件

a.下个checkpoint来临

b.文件达到128M(parquet.block.size)

c.下个分区来临

-

3 小文件优化

影响因素:并行度、回滚时间、文件大小、checkpoint、compaction

1 flink-sql写parquet文件到

规则总结:

1)checkpoint时, 生成compact文件(立即可读), 下个checkpoint时删除uncompact(不可读)文件;

2) 只能合并单个checkpoint内的文件,不同checkpoint生成的文件是不会合并的;

3) 分区结束两个checkpoint后文件可用

参考链接:

Flink实战之合并小文件 - 简书

猜你喜欢

转载自blog.csdn.net/weixin_40829577/article/details/123995945

flink读写filesystem

Flink FileSystem的connector分析

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及FileSystem示例（1）

flink实战--读写Hbase

Flink读写Kafka

flink state 读写

filesystem

Flink基础（十一）：Flink整合kafka的读写

Flink 1.10 SQL 读写Kafka

flink读写mysql(还没弄完)

flink 读写hive注意细节

Flink读写Doris操作介绍

Flink批处理之读写Mysql

flink读写hbase(还没弄完成)

flink读写hive(还没弄完啊)

flink读写MySQL的两种方式

30、Flink SQL之SQL 客户端（通过kafka和filesystem的例子介绍了配置文件使用-表、视图等）

flink学习笔记-dataSet connector 集成hbase读写数据

43、Flink之Hive 读写及详细验证示例

Filesystem: managing

CEPH FILESYSTEM

Flink

【Flink】

手把手带你玩转iceberg - Flink Sql 读写Iceberg表

HADOOP Filesystem closed

HDFS FileSystem常用方法

android read only filesystem

filesystem2

hadoop FileSystem源码分析

filesystem3

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)