[flink]#13_Data Set

DataSource

  1. 基于集合
    fromCollection(Collection)

  2. 基于文件
    readTextFile(path)

Transformation

  • Map

  • FlatMap

  • MapPartition: 一次处理一个分区的数据

  • Filter

  • Reduce

  • Aggregations

  • Distinct: 返回数据集中去重后的元素

  • Join

  • OuterJoin

  • Cross

  • Union

  • First-n:获取集合中前n个元素

  • Sort Partition:对所有分区排序

  • Rebalance:

  • Hash-Partition:根据指定key的散列值对数据集分区
    partitionByHash()

  • Range-Partition:根据指定key对数据集进行范围分区
    .partitionByRange

  • Custom Partition
    partitionCustom(partitioner, "someKey")
    partitionCustom(partitioner, 0)

Sink

  • writeAsText()
  • writeAsCsv()
  • print()
发布了78 篇原创文章 · 获赞 0 · 访问量 1416

猜你喜欢

转载自blog.csdn.net/qq_30782921/article/details/102839066
set