Doris2.0時代のチャンスと課題!

e5265c5bd583546e950b689184498aa7.png300万語!ネットワーク全体で最も完全なビッグデータ学習インタビュー コミュニティがあなたを待っています!

先週の金曜日、Doris はバージョン 2.0 を正式に発表しましたが、パフォーマンスの大幅な向上に加えて、特に注意が必要な機能がいくつかあります。

公式ウェブサイトの説明によると、ドリスは次の分野で大きな進歩を遂げました。

  • ログ分析

  • データ レイクのフェデレーション分析シナリオ

  • データ更新効率と書き込み

  • リソースの弾力性とストレージと計算の分離

  • ビジネスユーザー向けの追加の使いやすさ機能

ドリスがこれらの能力を手に入れる前は、誰もがこれらの能力を無料で使用する機会がありませんでした。データベースのこれらの機能は、クラウド プラットフォーム上の一部の有料データベースに集中しており、お金を支払わなければ体験できません。

ここには、特に重要な更新情報がいくつかあります。Doris を詳しく使用する場合は、特に注意する必要があるかもしれません。多くの面接官は、これらの質問をしたがります。私が実践したいくつかを組み合わせて、重要なものをいくつか取り上げます。

同時実行のサポートを確認する

データ開高い同時実行性により。たとえば、注文属性クエリのシーンでは、注文番号に従って注文の一部の属性情報を関連付ける必要がありますが、多くの OLAP はこのシナリオでパフォーマンスに重大な問題を抱えているため、さまざまな OLAP ライブラリがこのシナリオに対応していないことは前述しました。 Data Serving クエリに対応する開発には Mysql データベースが使用されますが、バージョン 2.0 以降では、ビジネス規模が小さい場合は、Hbase などの追加コンポーネントを導入する必要がなく、狭い範囲で特定のポイントのクエリ要件をサポートできます。複雑なテクノロジースタックを削減し、メンテナンスコストとデータの冗長ストレージを削減します。

ここでの原則には、キャッシュの最適化、行ストレージ形式、ポイント クエリのショート パスの最適化、ステートメントの前処理、行キャッシュなどが含まれます。これは自分で理解する必要があります。大規模な運用環境でこの機能を使用する場合は、基本原則と運用のベスト プラクティスを理解する必要があります。

ログ分析シナリオ

Doris バージョン 2.0 では、「転置インデックス」や「半構造化データ型」などのいくつかの機能が導入されています。ES に詳しくない場合は、上記の 2 つの単語を理解する必要があります。

その前は、ログ システム (FileBeat、Logstash、Kafka、Kibana) をサポートするために ELK ファミリ バケットを大規模に使用していましたが、ES DSL についても理解する必要がありました。システムが大規模でない場合、使用コスト、運用コスト、メンテナンス コストが発生していました。上記のコンポーネントの導入により、高速化は非常に複雑ですが、ES の読み書きの安定性などの問題も解決する必要があります。

Doris 2.0 バージョン以降では、いくつかのシナリオで Doris に基づいた、低コストで使いやすい ELK システムの簡易バージョンの作成を試みることができます。さらに、Doris は標準 SQL をサポートし、MySQL プロトコルとの高い互換性を備えています。非常に簡単にログ分析を実行できます。

温冷分離

バージョン 2.0 の重要な機能は、ホットとコールドの分離です。ホットとコールドの分離は、ビッグ データの分野では非常に重要な概念です。実際、Doris が登場する前は、ビッグ データの分野の多くのコンポーネントが、ES のフラグメント割り当て戦略を使用するよく知られた Elasticsearch などのコールドとホットの分離ストレージをサポートしていました。指定されたノード ルーティングにより、コールド データ ストレージとホット データ ストレージを個別に実現できるため、ホット データ ノードはすべての新しい入力データを処理し、ストレージ速度も高速になり、高速なデータ収集と取得が保証されます。コールド ノードはストレージ密度が高く、データを長期間保持できるため、コストが大幅に削減されます。

Doris は、動的パーティション機能を使用して、テーブル パーティションのライフ サイクルを管理することもできます。ホット データが冷却されるまでの時間とストレージ メディアの識別を設定することで、バックグラウンド タスクが自動的にホット データを SSD から HDD に冷却し、ユーザーがストレージ コストを最小限に抑えることができます。料金。

これは、大規模なビジネスとデータを扱うシナリオではほぼ必須の操作です。

湖倉総合フィールド

Doris は、Hive、ES などの非常に初期のバージョンでさまざまな異種データ ソースのマッピングをサポートしていました。バージョン 2.0 では、レイク テーブルの範囲が拡張され、Hudi、Iceberg、および Paimon のサポートが追加されました。 。これは大きな変更であり、レイク テーブルを Doris に簡単にマップしてクエリを高速化できるようになり、データ フェデレーションのクエリと分析のシナリオが大幅に進歩しました。

c80cea68b7a6fd2fde4a2bcf22315621.png

将来的には、特定のビジネス シナリオでレイク倉庫の統合アーキテクチャを簡単に実装できるようになります。そのとき、フリンク、ドリス、ヒューディなどをベースにした統合された湖と倉庫のアーキテクチャが頻繁にみんなの前に登場します。もちろん、ここでは多くの最適化を行う必要がありますが、その日はすぐに来ます。

他の

さらに、Doris は、複数のデータ モデルでの列更新機能、高頻度書き込みコンパクション メモリの最適化など、特定の機能も強化しました。これらの最適化の前には、タスクを何度も最適化する必要がありますが、現在はその必要はありません。はい、使用する過程で自分自身でそれを体験する必要があります。

つまり、バージョン 2.0 以降、オープンソース OLAP 分野における Doris の最先端は徐々に拡大し、多くのクラウド プラットフォーム上の成熟した製品に匹敵するようになります。

過去数年間でデータ開発分野がいかに急速に発展したかがわかります。IT 開発のすべての方向において、急速にアップグレードが繰り返されているほぼ唯一のテクノロジー スタックです。全員のテクノロジー スタックが時代に追いつく必要があります。時代に見放されるまで待ってはいけません!

この記事が参考になったら「いいね」 「いいね」 「お気に入り」を3回忘れずに  !

f303f4dd2a2eaa47177dd267e586af3b.png

6b4b9c4f1a6ba2e3e211bdf8fbeed720.jpeg

2022 年にネットワーク全体でリリース予定 | ビッグデータの専門家レベルのスキル モデルと学習ガイド (Shengtian Banzi)

インターネット最悪の時代が本当に到来するかもしれない

私はBilibiliの大学でビッグデータを専攻しています。

Flink を学習するとき、私たちは何を学んでいるのでしょうか?

193 の記事がフリンクを激しく打ち負かしました、このコレクションに注目する必要があります

Flink 本番環境の TOP 問題と最適化、アリババ チベット経典パビリオン YYDS

フリンク CDC きっとイエス様を引き留めることはできないでしょう!| Flink CDC オンライン問題インベントリ

Spark を学習するとき、私たちは何を学んでいるのでしょうか?

すべての Spark モジュールの中で、私は SparkSQL が最強だと呼びたいと思います。

Hard Gang Hive | 40,000 語の基本チューニング インタビューの要約

データ ガバナンスの方法論と実践に関する小さな百科事典

ラベル システムの下でのユーザー ポートレート構築に関する小さなガイド

40,000 ワードの長文 | ClickHouse の基礎と実践とチューニングの完全なパースペクティブ分析

【インタビュー&自己成長】2021年半分以上、ソーシャルリクルーティングとスクール採用の経験

ビッグデータの方向へ新たな10年が始まる | 「ハードギャングシリーズ」第1弾が終了

成長/面接/キャリアアップについて書いた記事

Hive を学習するとき、私たちは何を学んでいるのでしょうか? 「ハードハイブ続編」

おすすめ

転載: blog.csdn.net/u013411339/article/details/132288446