ビッグデータ理論体系

前文

著者は2018年から2021年にかけてビッグデータ関連の書籍やコラムを200冊以上読みました。

このコラムは、著者が長年にわたる読書メモに基づいて、ビッグデータ開発における自身の経験を組み合わせた丹念な作品です。

ぜひ注目してください、ありがとうございました!

このコラムの仲間

ビッグデータ技術システムを解くための1000の質問

Java仮想マシンを解くための100の質問

技術共有PPT

ここでは、著者が使用したビッグデータの使用を開始する方法に関するテクノロジー共有 PPT を共有します。

0 から 1 までのビッグデータ .pptx

ディレクトリ構造

  1. ビッグデータとは何ですか?
  2. ビッグデータにはどのような特徴があるのでしょうか?
  3. ビッグデータとクラウドコンピューティングの間にはどのような関係があるのでしょうか?
  4. ビッグデータと人工知能の間にはどのような関係があるのでしょうか?
  5. ビッグデータはどのようにして発展したのでしょうか?
  6. ビッグデータ処理の基本的なプロセスは何ですか?
  7. データ品質を測定するにはどうすればよいですか?
  8. ETLとは何ですか?
  9. ビッグデータ開発は主に何をするのですか?
  10. ビッグデータの技術フレームワークにはどのような種類がありますか?
  11. データは移動せず、コードが移動するとなぜ言えるのでしょうか? モバイル コンピューティングはモバイル データよりも費用対効果が高いのでしょうか?
  12. ビッグデータ処理における DAG の利点は何ですか?
  13. バッチ処理とストリーム処理を区別するにはどうすればよいですか? 境界のあるデータと境界のないデータを区別するにはどうすればよいですか?
  14. バッチ処理での CPU 使用率を改善するにはどうすればよいですか?
  15. イベント時間と処理時間とは何ですか?
  16. ワークフロー設計パターンとは何を指しますか?
  17. 分散ロックとは何ですか? どうやって達成するのか?
  18. 分散トランザクションとは何ですか? どうやって達成するのか?
  19. 分散ロックと分散トランザクションの違いは何ですか?
  20. CAP定理とは何ですか?
  21. BASE理論とは何ですか?
  22. 分散システムのメトリクスは何ですか?
  23. 一貫性モデルとは何ですか?
  24. SLAとは何ですか?
  25. システムの QPS を推定するにはどうすればよいですか?
  26. パブリッシュ/サブスクライブ モデルについてどう思いますか?
  27. パブリッシュおよびサブスクライブ パターンとオブザーバー パターンの違いは何ですか?
  28. 分散システムにおけるデータシャーディングの方法にはどのようなものがありますか?
  29. コンシステントハッシュとは何ですか?
  30. データをシリアル化する理由
  31. データ圧縮アルゴリズムはどのように選択すればよいですか?
  32. 分散システムでシリアル化フレームワークを選択するにはどうすればよいですか?
  33. プロトブフとは何ですか?
  34. Apache Thrift とは何ですか?
  35. Apache Avroとは何ですか?
  36. クリオとは何ですか?
  37. 列型ストレージと行型ストレージの違いは何ですか?
  38. カラムナ型ストレージ形式を選択するにはどうすればよいですか?
  39. ORCファイルとは何ですか?
  40. 寄木細工とは
  41. データ ウェアハウスとは何ですか?
  42. データウェアハウスとデータベースの違いは何ですか?
  43. OLTP と OLAP の違いは何ですか?
  44. データ ウェアハウスはどのように階層化されていますか?
  45. データ ウェアハウスはどのようにモデル化されますか?
  46. ファクト テーブルとディメンション テーブルとは何ですか?
  47. ビジネスインテリジェンス(BI)とは何ですか?
  48. システムアーキテクチャの観点から、サーバーはどのように分類されるべきでしょうか?
  49. MPPDBとは何ですか?
  50. MPPDB と Hadoop の違いは何ですか?
  51. データ ウェアハウスはどのサーバー アーキテクチャを選択する必要がありますか?
  52. 並列コンピューティング モデルとは何ですか?
  53. BSP と MapReduce の違いは何ですか?
  54. OLAPの導入方法にはどのようなものがあるのでしょうか?
  55. キューブテクノロジーとは何ですか?
  56. NoSQLとは何ですか?
  57. 負荷分散とは何ですか?
  58. 負荷分散アルゴリズムとは何ですか?
  59. 分散システムで転送を実装するにはどうすればよいですか?
  60. ビッグ データ リソース スケジューリング フレームワークの役割は何ですか?
  61. リソースのスケジュール設定における技術的な問題は何ですか?
  62. マルチテナント技術とは何ですか?
  63. 従来の Yarn と Mesos のスケジューリング スキームの欠陥は何だと思いますか?
  64. 転置インデックスとは何ですか?
  65. エンタープライズデータとは何ですか?
  66. データレイクとは何ですか? データレイクが必要な理由は何ですか?
  67. データレイク内のデータのライフサイクルは何ですか?
  68. データ ウェアハウス、データ マート、データ レイクの違いは何ですか?
  69. ラムダアーキテクチャとは何ですか?
  70. カッパアーキテクチャとは何ですか?
  71. Lambda アーキテクチャをデータレイクに適用するにはどうすればよいですか? データレイクの機能モジュールは何ですか?
  72. エンタープライズ データ レイクはどのような課題に直面していますか?
  73. RAID テクノロジーとは一体何ですか?
  74. ワークフロー スケジューリング システムが必要な理由は何ですか?
  75. メッセージ キュー/メッセージ エンジン システムがあるのはなぜですか?
  76. クラウドネイティブデータベースとは何ですか?
  77. データベース分野の今後の発展動向はどうなるのでしょうか?

参考文献

  1. Geek Time コラム「0から学ぶビッグデータ」Li Zhihui
  2. Geek Time コラム「大規模データ処理の実戦」蔡源南
  3. 「クラウド コンピューティングにおけるビッグ データ テクノロジーとアプリケーション」Liang Fan 著
  4. 『ビッグデータの発展と応用』 山東省商工技術学院青島営谷教育技術有限公司編
  5. 「ビッグデータ技術システムの詳細な説明: 原則、アーキテクチャ、および実践」Dong Xicheng 著
  6. 『Hadoopビッグデータマイニングの入門から上級実践まで:ビデオ教育版』鄧潔編
  7. 『ビッグデータアーキテクチャ詳解:データ取得からディープラーニングまで』朱傑・羅華林編
  8. 『Kafka Definitive Guide』 (米) Neha Narkhede (Neha Narkhede)、(US) Gwen Shapira (Gwen Shapira) (US) Todd Palinuo (Todd Paino)、Xue Mingdeng 訳 / (US) Neha Narkhede、(US) Gwen Shapira (米国)、(米国) Todd Palino (Todd Paino)、Xue Mingdeng 訳
  9. ダークホース プログラマーが執筆した「Hadoop ビッグ データ テクノロジーの原則と応用」
  10. 「Enterprise Data Lake」 (インド) Tomcy John (インド)、(インド) Pankaj Misra (インド) Pankaj Misra (インド) Zhang Shiwu、Li Xiang 著、Zhang Haolin 訳
  11. 「ビッグデータ技術と応用研究」Hu Pei、Han Pu 著
  12. 「Hadoop & Spark ビッグデータ開発実践」Xiao Rui および Lei Gangyue 編集
  13. CSノート
  14. クリックハウス公式サイト
  15. ClickHouse の詳細な公開
  16. 分散トランザクションとは何ですか?またその解決策は何ですか?
  17. 分散理論(2) - 基礎理論
  18. 分散システムのメトリクス
  19. Baidu 百科事典の逐次一貫性モデル
  20. 強い一貫性、弱い一貫性、最終的な一貫性、読み書き一貫性、単調読み取り、因果的一貫性の違いと関連性を理解しやすい
  21. 分散システム学習 - データシャーディング
  22. 分散システムにおけるデータシャーディングを質問とともに学ぶ
  23. Baidu 百科事典の一貫したハッシュ
  24. Apache Thrift シリーズ徹底解説(1) - 概要と入門編
  25. Protostuff の使用に関する予備調査
  26. 高性能のシリアル化と逆シリアル化: kryo の簡単な使用
  27. ビッグデータの小さな視点 2: ORCFile と Parquet、オープンソース サークルの背後にあるビジネス
  28. 新世代のカラムナ型ストレージ形式 Parquet
  29. Parquetのあれこれ(1) 基本原則
  30. Parquet カラムナ型ストレージ形式について話しましょう
  31. MPP (超並列処理) の概要
  32. MPP アーキテクチャ
  33. 百度百科事典 NoSQL
  34. ビッグデータにおけるいくつかの一般的な圧縮形式の圧縮
  35. zstd、将来のデータ圧縮アルゴリズム
  36. zstd は Hadoop/spark などで分割可能ですか?
  37. Aliyun Li Feifei: クラウドネイティブ データベースとは何ですか

おすすめ

転載: blog.csdn.net/Shockang/article/details/115609804