Apache Doris (1): Doris の導入と使用シナリオ

目次

1.Apache Doris の概要

2. Apache Doris の使用シナリオ

 2.1 レポート分析

2.2 アドホッククエリ

2.3 統合データウェアハウスの構築

2.4 データレイク連携
クエリ


本文に入る前に、トピックの購読、いいね、コメント、ブログ投稿の収集を歓迎し、IT Pindao をフォローして高品質のブログ コンテンツを入手してください。


1.Apache Doris の概要

Apache Doris は、MPP アーキテクチャに基づいた高性能のリアルタイム分析データベースです。非常に高速で使いやすい機能でよく知られています。大規模なデータのクエリ結果を返すのに必要な応答時間は 1 秒未満です高同時実行性をサポートするだけでなく、ポイント クエリ シナリオも高スループットの複雑な分析シナリオをサポートできますこれに基づいて、Apache Doris は、レポート分析、アドホック クエリ、統合データ ウェアハウス構築、データ レイク フェデレーテッド クエリ アクセラレーションなどの使用シナリオにさらに適切に対応できます。ユーザーは、ユーザー行動分析、AB 実験プラットフォーム、ログ取得分析、ユーザー アプリケーションを構築できます。似顔絵分析やオーダー分析など。

Apache Doris は、Baidu の広告レポート事業における Palo プロジェクトとして初めて誕生しました。2017 年に正式にオープンソース化されました。2018 年 7 月に、Baidu によるインキュベーションのために Apache Foundation に寄贈されました。その後、インキュベーターのメンバーによってインキュベートおよび開発されました。 Apache メンターの指導の下、プロジェクト管理委員会が運営します。現在、Apache Doris コミュニティには、さまざまな業界の約 100 社から 400 人を超える貢献者が集まり、月間アクティブな貢献者の数は 100 人近くになります。2022 年 6 月、Apache Doris は Apache Incubator を無事に卒業し、正式に Apache Top-Level Project (TLP) になりました。

Apache Doris は現在、中国だけでなく世界中で幅広いユーザー グループを抱えており、これまでに世界中の 1,000 社を超える企業の運用環境で Apache Doris が使用されており、市場別の中国のインターネット企業トップ 50 社の中に含まれています。資本化または評価、Baidu、Meituan、Xiaomi、JD.com、ByteDance、Tencent、NetEase、Kuaishou、Weibo、Shell などを含む 80% 以上が Apache Doris を長期間使用しています。同時に、金融、エネルギー、製造、電気通信、その他の分野などの一部の伝統的な産業でも豊富な用途があります。

Apache Doris の公式 Web サイトはhttps://dris.apache.org です。

注: MPP: Massively Parallel Processing、大規模な並列処理。一般に、MPP アーキテクチャは分散データベースを指します。データ処理には複数のノードがあります。各ノードには独立したディスクとメモリがあります。同時タスクは各ノードに分散されて独自のデータを処理します。計算が完了すると、結果が表示されます。最終的にはまとめられて最終結果が形成されます。

MPP は、MPP DB や MPP アーキテクチャと見ることができます。例えば、Hadoop アーキテクチャは、大規模な分散処理、つまり分散処理アーキテクチャである MPP アーキテクチャですが、MPP という用語は、初期にデータベース メーカーによって提案されたもので、一般に分散データベースを指します。したがって、MPP の概念を理解すると、MPP は高次元の概念であると理解できます。MPP は、MPP DB と MPP アーキテクチャの 2 つの概念に分けることができます。Hadoop または MR は MPP アーキテクチャであり、MPPDB は分散データベースです。厳密には、 Doris は MPP です。DB は、業界では一般に MPP アーキテクチャとして知られている単なる分散データベースです。

Apache Doris は DorisDB ではありません。さまざまな複雑な理由により、DorisDB は後に StarRocks という名前に変更されました。これは、DorisDB が StarRocks の前身であることを意味します。Doris は元々、Baidu Fengchao の統計レポートを解決するための専用システムでしたが、Baidu のビジネスの急速な発展に伴い、システムは何度も反復され、Baidu の内部ビジネスの統計レポートと多次元分析のニーズを徐々に引き受けるようになりました。2013年にBaiduはDorisをMPPフレームワークにアップグレードし、新システムをPaloと命名、2017年に名前をBaidu Paloに変更してGitHubでオープンソース化、2018年にApache Foundationに寄稿した際、海外データベースとの連携によりメーカー名が同​​じなので、Apache Doris の由来となったオリジナルの Doris 名を使用することにしました。

2020 年 2 月、Baidu の Doris チームの一部の学生が自分のビジネスを始めるために退職し、StarRocks の前身である Apache Doris の前バージョンに基づいて独自の商用クローズドソース製品 DorisDB を構築しました。詳細については、https://www.sohu.com/a/488816742_827544を参照してください。

2. Apache Doris の使用シナリオ

以下の図に示すように、さまざまなデータ統合と処理の後、データ ソースは通常、リアルタイム データ ウェアハウス Doris とオフライン レイク ウェアハウス (Hive、Iceberg、Hudi) に保存されます。Apache Doris は、次のシナリオで広く使用されています。

 2.1 レポート分析

  • リアルタイムのダッシュボード。
  • 社内アナリストおよびマネージャー向けのレポート。
  • ユーザーまたは顧客向けの高度な同時レポート分析 (顧客対応分析)。たとえば、Web サイト所有者向けのサイト分析や広告主向けの広告レポートには、通常、同時実行に数千 QPS が必要であり、クエリの遅延にはミリ秒レベルの応答が必要です。有名な電子商取引会社である JD.com は、広告レポートに Apache Doris を使用しており、毎日 100 億行のデータを書き込み、QPS ごとに数万の同時クエリを実行し、99 パーセンタイルのクエリ遅延は 150 ミリ秒です。

2.2 アドホッククエリ

アナリスト向けのセルフサービス分析。クエリ モードは固定されておらず、高いスループットが必要です。Xiaomi は、Doris をベースとした成長分析プラットフォーム (Growing Analytics、ジョージア州) を構築しており、ユーザー行動データを使用してビジネス成長分析を実施しています。平均クエリ遅延は 10 秒、95 パーセンタイル クエリ遅延は 30 秒以内、毎日の SQL クエリ量は数万のストリップです。

2.3統合データウェアハウスの構築

1 つのプラットフォームで統合データ ウェアハウス構築のニーズを満たし、煩雑なビッグ データ ソフトウェア スタックを簡素化します。Haidilao が Doris に基づいて構築した統合データ ウェアハウスは、Spark、Hive、Kudu、Hbase、Phoenix で構成される古いアーキテクチャを置き換え、アーキテクチャが大幅に簡素化されました。

2.4 データレイク連携クエリ

外観による Hive、Iceberg、Hudi のデータのフェデレーション分析により、データのコピーを回避しながらクエリのパフォーマンスが大幅に向上します。

おすすめ

転載: blog.csdn.net/qq_32020645/article/details/131355112