Spark Streaming处理File Streams - 代码天地

Spark Streaming处理File Streams

其他 2019-01-30 12:00:55 阅读次数: 0

File Streams
官网：http://spark.apache.org/docs/latest/streaming-programming-guide.html
File Streams文件流
Streaming文件是moving过来的

IDEA源码：

/**
   * Create an input stream that monitors a Hadoop-compatible filesystem
   * for new files and reads them using the given key-value types and input format.
   * Files must be written to the monitored directory by "moving" them from another
   * location within the same file system. File names starting with . are ignored.

没有jop0一直在跑的
File streams do not require running a receiver so there is no need to allocate(分配) any cores for receiving file data.

文件流不需要运行一个接收机,所以不需要分配(分配)任何核心接收文件数据。

ssc.textFileStream("hsfs://hadoop:8020/spark/log")

这里要注意：
时间一：本应用程序启动的时间
时间二：指定hafs上的目录下的文件的时间
默认是只会读取时间一》时间二的时间
如果你文件的时间在启动时间之后，不好意思不认
因为：
A file is considered part of a time period based on its modification(修改) time, not its creation(创造) time.
如果你启动之后，放进去的数据，启动之后的你创建的数据是没有问题的，如果你的数据文件的时间在你启动之前，这个数据是不认的
文件这种处理方式是不实用的，因为这种偏移量很难搞定，生产上可以用，但是不比kafka，需要各种各样的东西，自己来维护
我们原来怎么办，
都是把你处理以后把你的时间，丢到一个集合里面去，代码里面把这个偏移量管理起来，当你挂掉以后，从这里面来取

猜你喜欢

转载自blog.csdn.net/qq_43688472/article/details/86614163

Spark Streaming处理File Streams

Redis Streams与Spark的完美结合

Spark Structured Streaming多流multiple streams)多查询(multiple queryies)问题

Spark streaming消费kafka程序报No output streams registered, so nothing to execute异常

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ，流式处理框架一网打尽！

Spark Streaming流式处理

Spark Streaming与流处理

Java Streams 中的异常处理

广告点击数实时统计：Spark StructuredStreaming + Redis Streams

Spark 系列（十三）—— Spark Streaming 与流处理

Spark Streaming实时流处理项目5——Spark Streaming入门

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

Spark Streaming

spark streaming 实时流处理视频

spark streaming 实时流处理实战视频

Spark Streaming实时流处理项目实战

Spark Streaming实时处理应用

Spark Streaming 整合 SparkSQL处理流式计算

Spark Streaming实时流处理项目实战

案例实战Spark Streaming处理socket数据

通过Spark Streaming作业处理Kafka数据

Spark Streaming实时处理Kafka数据

[Spark][spark_streaming]#5_spark_streaming&spark_sql

Kafka Streams：它是适合您的流处理引擎吗？

Kafka Streams的WordCount收到消息后是怎么处理的呢？

流式架构 Kafka与MapR Streams数据流处理

使用Kafka Streams进行准实时ETL数据处理

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)