アリ江Xiaowei:スパークエンジンの計算の類似点と相違点と利点とFLINK

江Xiaowei教師、深刻かつ厳格な:著者について。アリに入社する前、彼は、Facebookのシアトルで働いていたスケジューリングシステム、タイムラインインフラやメッセンジャーのプロジェクトを担当していました。そして、リレーショナルデータベースアーキテクチャの作業を担当するMicrosoftのSQL Serverエンジンでプリンシパルエンジニアを務めていました。アリはアリ上級検索エキスパート検索部門として2014年に入社した後、彼は、エンジニアリングデータ検索チームを担当していました。

 

アリ検索部門のシニア専門家江Xiaoweiの先生とのインタビューを終えて前からこの記事Yunqiコミュニティ。特にオープンソースのビッグデータは、スパーク、Hadoopの、嵐のように上のように身近な生態系業界の優れた計算フレームワークの多くは、ビッグデータフレームワークについて話します。しかしFLINKはApache Foundationのトップレベルのプロジェクトのために、比較的限定されている知っています。しかし、もっとコントラストスパークは、例えば、ほとんどのポスト議論がある「アパッチFLINKとApacheスパークどのような類似点と相違点?彼らの見通しは何ですか?」を知ります

  • Yunqiコミュニティ:比べスパーク、Hadoopの、嵐は、シーンがFLINKを選択したアリ・サーチ・チームを作るために必要なものでしょうか?

江Xiaowei:まず、私たちは持っていたいストリーム・コンピューティングとバッチ処理の統合プログラムをスパークとFLINKは、機能の処理フローおよびバッチを有しているが、そのアプローチは反対です。スパークストリーミングは、このアプローチの問題に対処するための小さなバッチは、我々は、レイテンシを下げる必要がある循環に入れて、オーバーヘッドの割合は、第二レベルのスパークへのリード線も行うことが困難なストリーミング大きい、となりますサブ秒の遅延。FLINKは限らフローとして付与することで、この手法の特徴は、フローと共有、バッチ固有の最適化の一連を保持することが可能でありながら、バッチコードの最も。あなたが流れ、バッチ処理を解決するためにエンジンを使用する場合、我々は良いストリーム処理エンジンを選択することを決めたように、このような理由から、それは、ストリーム処理をベースとしなければなりません。上流工程からの機能ステートレスとステートフルな2種類に分けることができます。大幅にストリーム処理の枠組みの中での状態管理の導入は、ユーザーが簡単に複雑な処理ロジックを実装することができ、システムの表現力を高めるには、ストリーム処理機能における飛躍です。正確に一度、少なくとも一回、ベストエフォート、および:サポートの一貫性へのストリーム処理エンジンを分けることができます。正確には、真に完全な一貫性を確保するためにセマンティクスたら、FLINK使用してアーキテクチャはエレガント正確ステートフルフロー処理後に実現されています。また、パフォーマンスの前提の下で一貫性FLINKを確保する上で非常に良いです。要約すると、我々はFLINKストリーム処理機能、遅れて、一貫性とコミュニティ全体のパフォーマンスの面で最良であると感じています。だから我々は、統合プログラムやバッチの流れを達成するためにそれを使用することにしました。最後に、非常に重要な理由は、比較的FLINK活発なコミュニティがあることです。

  • Yunqiコミュニティ:スパーク下FLINK、利点を行う方法、Hadoopの、嵐やその他の技術開発と異なるシーンの比較?スパークの使用中のいずれかの制限がある場合、このようなコントラストと、FLINKは、このように、バッチストリーム処理になって?

江Xiaoweiは:ビッグデータは非常に多くのシステムがスパークを含め、最初からバッチが、バッチの最初からです。バッチスパークが深い蓄積を持っていて、それが比較的良好なシステムです。技術の進歩として、ビジネスのオリジナルバッチの多くは、唯一のリアルタイムストリーミングの需要はあっても、大規模なデータ処理のメインシーンになって、ますます重要になるだろうしています。バッチ処理の流れとしてFLINKは、非常に重要な利点は、我々は、ストリーム演算子でブロッキングを導入した場合、我々は、バッチ固有の最適化を行うことができ、これは計算エンジンのストリーミング基礎となっているました大きな利点。だから私は、この設計の枠組みの中で、バッチ最適に行うことができると思いますが、いくつかの特別な利点は、従来のアプローチの上にあり、当然のことながら、このプロジェクトも重要であると認識。

  • Yunqiコミュニティ:ストリーム・コンピューティングとバッチ検索エンジンアリババは、Apache FLINKブリンクプロジェクトに基づいており、APIと互換性があります。だから、ここでFLINKコースワタリピットはありますか?点滅ではどのような改良を加えたのか?

江Xiaowei:FLINKアーキテクチャには多くの技術革新がありますが、それは非常にリードしています。しかし、プロジェクトの実現にいくつかの欠点があります。たとえば、異なるジョブタスクは、問題のジョブが他のジョブの安定性に影響を与えることができるようにすることを、同じプロセスで実行することができます。それらのほとんど合理的な使用はFLINKエンジニアリングクラスタリソースを達成することはできません。糸の組み合わせの再導入を点滅させ、完全にこれらの問題を解決します。利用可能でない、点滅が大幅にチェックポイントを改善する際のチェックポイント機構を介して加えFLINKの一貫性を保証するが、既存の機構が大きい状態で、その結果、比較的非効率的であるために、効率的に大きい状態を扱うことができます。安定性と拡張性が大規模なクラスタ上の気性によって、ブリンクはこの点で問題とボトルネックのシリーズを解決するため、生産において重要で、それがコアビジネスをサポートできる計算エンジンとなっています。それは、より完全に、より複雑な操作をサポートできるように、同時に私たちは、FLINKのストリーミングSQL層を拡張しました。

  • Yunqiコミュニティ:フィードバックFLINKコミュニティは予定はありますか?FLINKとどのようなあなたは、将来のキラーアプリケーションになると思いますか?

江Xiaowei:私たちは、地域社会を強くするするように、FLINKとステファンFLINKブリンクが戻ってコミュニティにフィードバックされる通信の発明者であり、より強力なコミュニティは、我々はより強力になります。我々の計画の最初のステップは、ブリンクフィードバック背中の糸を達成することである、と別のスケジューリングシステムのサポートプログラムを抽象化します。次に、我々は改善し、徐々にフィードバックするなど缶、SQLのチェックポイント、安定性、拡張性、運用・保守を最適化します。私は、流量計算でFLINKの利点は、オンライン学習、FLINKが輝くこの点で需要のストリームコンピューティングの成長と、非常に大きいと思います。

  • Yunqiコミュニティ:Facebookの、マイクロソフトからアリに、技術開発の豊富な経験。それでは、提案や経験を共有する技術開発者の成長のため?そして、好きな専門書をお勧めします。

江Xiaoweiは:私が学んで考えると、仕事は何の問題は好奇心旺盛でなければならないことが非常に重要である、という現象に滞在していないと浅い直感的な理由のいくつかは、私たちは本質を見つける必要があります。優れた記号は、あなたがはっきりと話すように他の人に単語を調べることができるということです。行うにはこれは、あなたは彼らが遅く、他よりも多くのことを学んだと感じさえ、多くの時間を過ごすために開始することがありますが、あなたが学び、それぞれの事は徹底的に完全に理解することで、多くのことの原理はに、連結されています蓄積の期間の後、あなただけの指示を同じに読んで新しい何かを学ぶことができます。私は通常、今チェックし問題を抱えているので、それはマニュアルですので、私は本当に、本をお勧めすることはできません。

公開された363元の記事 ウォン称賛74 ビュー190 000 +

おすすめ

転載: blog.csdn.net/sinat_26811377/article/details/104617969