「2022年オープンソースビッグデータ熱量レポート」を公開

11 月 5 日、Yunqi Conference Integrated Big Data Intelligence Summit で、Open Atom Open Source Foundation、X-lab Open Laboratory、Alibaba Open Source Committee が共同で作成した「2022 Open Source Big Data Thermal Power Report」がリリースされました

Open Atom Open Source Foundation の副事務総長 Liu Jingjuan 氏

Open Atom Open Source Foundation の副事務局長である Liu Jingjuan 氏は、レポートの詳細な解釈を行いましたこのレポートは、公開データで最も活発な研究を行っている 102 のオープン ソース ビッグ データ プロジェクトに基づいて、オープン ソース ビッグ データ テクノロジの開発の背後にある「ムーアの法則」を探っています。そしてテクノロジーは一連の更新を繰り返して完了します。過去 8 年間に 5 回の大規模な技術的熱的転換があり、多様化、統合、クラウド ネイティブは、オープン ソース ビッグ データの現在の開発動向の最も顕著な特徴となっています。

「ポストHadoop時代」におけるオープンソース動向の定量分析

オープン ソース ビッグ データ テクノロジの元祖として、Hadoop は 2006 年に登場し、16 年の歴史があります。このレポートは、Hadoop 開発の 10 年目 (つまり 2015 年) から現在までの関連する公開データを収集し、相関分析を実施し、オープンソース プロジェクトの熱価値の研究モデルを定義し、定量的指標を使用して開発の反復を説明しています。オープン ソース プロジェクトの活動と開発者の影響.歓迎レベル.

レポートに示されているオープンソース ビッグ データのヒート マップは、技術のパノラマ、技術スタックの分類、およびプロジェクトの規模の観​​点から最終選考に残ったプロジェクトの熱パフォーマンスに関する洞察を提供し、プロジェクト プロセスの主要なイベントを熱パフォーマンスと関連付けて分析します。オープンソース財団、著名なオープンソース プロジェクトなどの分野の専門家にインタビューし、プロジェクトの健全な発展に関する一般的な法則を探り、プロジェクトの影響力を効果的に向上させるための方法論をまとめます。

オープンソースのビッグデータ技術の「ムーアの法則」

レポートによると、40 か月ごとに発熱量が 2 倍になり、オープンソースのビッグ データが一連の反復的なテクノロジ アップグレードを完了し、テクノロジ サイクルが加速度的に短縮されています。8 年間で、その背後にある技術をアップグレードする傾向を反映して、複数回の温度変化がありました。開発者は「データのクエリと分析」に対する開発熱意を長期にわたって維持しており、8 年連続で発熱量リストで 1 位を獲得しています。2017年には「ストリーム処理」の熱価が「バッチ処理」を上回り、ビッグデータ処理はリアルタイムの段階に入りました。データの規模は拡大を続け、データ構造も多様化 2020年から「データ統合」が爆発的に増加

3 つのホット トレンド: 多様化、統合、クラウド ネイティブ

ユーザーニーズの多様化は、技術の多様化を促進します。「Data Lake」は熱価値の成長率で 1 位にランクされ、複合年間成長率は 34% で、「Interactive Analysis」と「DataOps」がそれぞれ 2 位と 3 位に続きます。元の Hadoop システムの製品イテレーションは安定する傾向があり、温度値の年平均成長率は 1% です。

2015年以降、コンピューティング部分が先陣を切って「統合」の進化プロセスに入り、代表的な「ストリーミングとバッチ処理の統合」は2019年に最初の熱ピークを迎えました。2019年以降、データレイクストレージに代表されるストレージ統合は新たな発展段階に入り、Delta Lake、Iceberg、Hudiなどの注目プロジェクトが登場しています。

オープン ソース テクノロジー スタックのクラウド ネイティブな大規模な再構築。クラウド ネイティブ時代に生まれたオープン ソース プロジェクトは、雨上がりのキノコのように急成長しています。「データ統合」「データストレージ」「データ開発・管理」などの分野で大きなプロジェクト変更があり、新規プロジェクトの熱価は80%を超えています。

オープンソースのビッグデータヒート一覧 TOP30

このレポートは、最終選考に残った 102 のプロジェクトから TOP30 ヒート リストを選択します。Kibana は 989.40 の熱値でリストのトップになりました。ClickHouse (データ クエリと分析)、Airflow (データ スケジューリングとオーケストレーション)、Flink (ストリーム処理)、Airbyte (データ統合) がそれぞれのセグメントでトップ 1 を獲得しました。Pulsar、Doris、StarRocks、DolphinScheduler、SeaTunnel などの多くの中国のオープン ソース プロジェクトも、高い熱の傾向を示しました。ユーザーの課題を解決することを競争力の中核として捉えることは、これらの優れたオープンソース プロジェクトに共通する特徴であり、この特徴により、それらのプロジェクトは時代に遅れずについていき、熱気流の中で「常緑樹」になることが保証されます。

Kaiyuan China、InfoQ、および Alibaba Cloud 開発者コミュニティの戦略的サポートに感謝します; このレポートの出力に重要な貢献をした 32 人の専門家と貢献者に感謝します; CSDN、DataFun、Segmentfault、Kaiyuanshe およびその他のコミュニティの協力に感謝します.

レポートのダウンロード アドレス:

https://www.openatom.org/other/%E5%BC%80%E6%BA%90%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%83%AD%E5 %8A%9B%E6%8A%A5%E5%91%8A2022.pdf

おすすめ

転載: blog.csdn.net/OpenAtomFund/article/details/128236526