Spark Streamingの概要_第1章

Spark Streamingの概要
●公式Webサイト
http://spark.apache.org/streaming/●
概要
Spark Streamingは、Spark Coreに基づくリアルタイムコンピューティングフレームワーク使いやすい
ここに画像の説明を挿入
機能
:オフラインバッチやサポートjava/scala/python言語を書くのと同じように、ストリーミングプログラムを書くことができます。
フォールトトレランス:SparkStreamingは、追加のコードや構成なしで機能します恢复丢失的工作
Sparkシステムへの簡単な統合:バッチ処理とインタラクティブなクエリを組み合わせたストリーミング処理。
アーキテクチャでの位置付け
ビッグデータコンピューティングモジュールのリアルタイムコンピューティングモジュール
ここに画像の説明を挿入
Sparkストリーミングの原理ストリーミングでの
Spark Streaming中,会有一个接收器组件Receiver,作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream
DStream会被按照时间间隔(自定)划分成一批一批的RDD
编写业务代码对DStream进行操作,实际就是对RDD进行操作,有多少个RDD业务代码就会执行多少次。
ここに画像の説明を挿入
データ抽象化
DStream:さまざまなSparkオペレーター操作後の連続入力データストリームと出力データストリームは、
本質的には一連の時間連続RDD
準リアルタイム計算/準リアルタイム計算です(100%リアルタイム計算ではありません[ 5秒以内に受け入れ可能])
ここに画像の説明を挿入
ここに画像の説明を挿入

Spark Core
Sparkは、インメモリコンピューティングに基づくさまざまなリソーススケジューリングフレームワークを提供し、DAG実行プロセス管理とRDD血液関係を提供して、高速でフォールトトレラントなコンピューティングを保証します。RDDは、Sparkの中核概念である
スパークSQL
RDD(DateFrame)に対応し、簡素化の開発に最適化中に最適化SQLクエリ、SQLクエリに基づいSparkSQLスパークコア、クリーニングデータの効率向上
スパークストリーミング
SparkStreamingをSparkCoreに基づいています実現されたストリーム処理フレームワークは、マイクロバッチの概念を通じてストリーム処理(DStream)を実装します。これは、少なくとも500ミリ秒までのデータ遅延を保証でき、高スループットで高フォールトトレランスのストリーム処理フレームワークです。

DStream関連の操作:
1.データ入力:Receiver
2.データ変換:(Transformations変換)
2.1每个批次的处理不依赖于之前批次的数据
2.2当前批次的处理需要使用之前批次的数据或者中间结果
2.2.1 UpdateStateByKey(func)
2.2.2 Window Operations 窗口操作
3.データ出力:Output Operations(输出)/Action
特定の場合Output Operations被调用时、スパークストリーミング程序才会开始真正的计算过程
変換
共通の変換—ステートレスな移行:各バッチの処理は、前のバッチの
ここに画像の説明を挿入
特殊変換のデータに依存しません—ステートフルな移行当前批次的处理需要使用之前批次的数据或者中间结果
変換(updateStateByKey)トラックの状態変更とスライディングウィンドウの変換に基づいて、状態遷移が含む
1 UpdateStateByKey(func)
2. Window Operationsウインドウ
出力/アクション
を出力することができる操作はストリーミング、スパーク(アクションのRDDなど)をまとめると将DStream的数据输出到外部的数据库或文件系统
Output Operations被调用时程序才会开始真正的计算过程
ここに画像の説明を挿入

ここに画像の説明を挿入

元の記事を238件公開 賞賛された429件 ビュー250,000件

おすすめ

転載: blog.csdn.net/qq_45765882/article/details/105562468