前文
著者は2018年から2021年にかけてビッグデータ関連の書籍やコラムを200冊以上読みました。
このコラムは、著者が長年にわたる読書メモに基づいて、ビッグデータ開発における自身の経験を組み合わせた丹念な作品です。
ぜひ注目してください、ありがとうございました!
このコラムの仲間
技術共有PPT
ここでは、著者が使用したビッグデータの使用を開始する方法に関するテクノロジー共有 PPT を共有します。
ディレクトリ構造
- ビッグデータとは何ですか?
- ビッグデータにはどのような特徴があるのでしょうか?
- ビッグデータとクラウドコンピューティングの間にはどのような関係があるのでしょうか?
- ビッグデータと人工知能の間にはどのような関係があるのでしょうか?
- ビッグデータはどのようにして発展したのでしょうか?
- ビッグデータ処理の基本的なプロセスは何ですか?
- データ品質を測定するにはどうすればよいですか?
- ETLとは何ですか?
- ビッグデータ開発は主に何をするのですか?
- ビッグデータの技術フレームワークにはどのような種類がありますか?
- データは移動せず、コードが移動するとなぜ言えるのでしょうか? モバイル コンピューティングはモバイル データよりも費用対効果が高いのでしょうか?
- ビッグデータ処理における DAG の利点は何ですか?
- バッチ処理とストリーム処理を区別するにはどうすればよいですか? 境界のあるデータと境界のないデータを区別するにはどうすればよいですか?
- バッチ処理での CPU 使用率を改善するにはどうすればよいですか?
- イベント時間と処理時間とは何ですか?
- ワークフロー設計パターンとは何を指しますか?
- 分散ロックとは何ですか? どうやって達成するのか?
- 分散トランザクションとは何ですか? どうやって達成するのか?
- 分散ロックと分散トランザクションの違いは何ですか?
- CAP定理とは何ですか?
- BASE理論とは何ですか?
- 分散システムのメトリクスは何ですか?
- 一貫性モデルとは何ですか?
- SLAとは何ですか?
- システムの QPS を推定するにはどうすればよいですか?
- パブリッシュ/サブスクライブ モデルについてどう思いますか?
- パブリッシュおよびサブスクライブ パターンとオブザーバー パターンの違いは何ですか?
- 分散システムにおけるデータシャーディングの方法にはどのようなものがありますか?
- コンシステントハッシュとは何ですか?
- データをシリアル化する理由
- データ圧縮アルゴリズムはどのように選択すればよいですか?
- 分散システムでシリアル化フレームワークを選択するにはどうすればよいですか?
- プロトブフとは何ですか?
- Apache Thrift とは何ですか?
- Apache Avroとは何ですか?
- クリオとは何ですか?
- 列型ストレージと行型ストレージの違いは何ですか?
- カラムナ型ストレージ形式を選択するにはどうすればよいですか?
- ORCファイルとは何ですか?
- 寄木細工とは
- データ ウェアハウスとは何ですか?
- データウェアハウスとデータベースの違いは何ですか?
- OLTP と OLAP の違いは何ですか?
- データ ウェアハウスはどのように階層化されていますか?
- データ ウェアハウスはどのようにモデル化されますか?
- ファクト テーブルとディメンション テーブルとは何ですか?
- ビジネスインテリジェンス(BI)とは何ですか?
- システムアーキテクチャの観点から、サーバーはどのように分類されるべきでしょうか?
- MPPDBとは何ですか?
- MPPDB と Hadoop の違いは何ですか?
- データ ウェアハウスはどのサーバー アーキテクチャを選択する必要がありますか?
- 並列コンピューティング モデルとは何ですか?
- BSP と MapReduce の違いは何ですか?
- OLAPの導入方法にはどのようなものがあるのでしょうか?
- キューブテクノロジーとは何ですか?
- NoSQLとは何ですか?
- 負荷分散とは何ですか?
- 負荷分散アルゴリズムとは何ですか?
- 分散システムで転送を実装するにはどうすればよいですか?
- ビッグ データ リソース スケジューリング フレームワークの役割は何ですか?
- リソースのスケジュール設定における技術的な問題は何ですか?
- マルチテナント技術とは何ですか?
- 従来の Yarn と Mesos のスケジューリング スキームの欠陥は何だと思いますか?
- 転置インデックスとは何ですか?
- エンタープライズデータとは何ですか?
- データレイクとは何ですか? データレイクが必要な理由は何ですか?
- データレイク内のデータのライフサイクルは何ですか?
- データ ウェアハウス、データ マート、データ レイクの違いは何ですか?
- ラムダアーキテクチャとは何ですか?
- カッパアーキテクチャとは何ですか?
- Lambda アーキテクチャをデータレイクに適用するにはどうすればよいですか? データレイクの機能モジュールは何ですか?
- エンタープライズ データ レイクはどのような課題に直面していますか?
- RAID テクノロジーとは一体何ですか?
- ワークフロー スケジューリング システムが必要な理由は何ですか?
- メッセージ キュー/メッセージ エンジン システムがあるのはなぜですか?
- クラウドネイティブデータベースとは何ですか?
- データベース分野の今後の発展動向はどうなるのでしょうか?
参考文献
- Geek Time コラム「0から学ぶビッグデータ」Li Zhihui
- Geek Time コラム「大規模データ処理の実戦」蔡源南
- 「クラウド コンピューティングにおけるビッグ データ テクノロジーとアプリケーション」Liang Fan 著
- 『ビッグデータの発展と応用』 山東省商工技術学院青島営谷教育技術有限公司編
- 「ビッグデータ技術システムの詳細な説明: 原則、アーキテクチャ、および実践」Dong Xicheng 著
- 『Hadoopビッグデータマイニングの入門から上級実践まで:ビデオ教育版』鄧潔編
- 『ビッグデータアーキテクチャ詳解:データ取得からディープラーニングまで』朱傑・羅華林編
- 『Kafka Definitive Guide』 (米) Neha Narkhede (Neha Narkhede)、(US) Gwen Shapira (Gwen Shapira) (US) Todd Palinuo (Todd Paino)、Xue Mingdeng 訳 / (US) Neha Narkhede、(US) Gwen Shapira (米国)、(米国) Todd Palino (Todd Paino)、Xue Mingdeng 訳
- ダークホース プログラマーが執筆した「Hadoop ビッグ データ テクノロジーの原則と応用」
- 「Enterprise Data Lake」 (インド) Tomcy John (インド)、(インド) Pankaj Misra (インド) Pankaj Misra (インド) Zhang Shiwu、Li Xiang 著、Zhang Haolin 訳
- 「ビッグデータ技術と応用研究」Hu Pei、Han Pu 著
- 「Hadoop & Spark ビッグデータ開発実践」Xiao Rui および Lei Gangyue 編集
- CSノート
- クリックハウス公式サイト
- ClickHouse の詳細な公開
- 分散トランザクションとは何ですか?またその解決策は何ですか?
- 分散理論(2) - 基礎理論
- 分散システムのメトリクス
- Baidu 百科事典の逐次一貫性モデル
- 強い一貫性、弱い一貫性、最終的な一貫性、読み書き一貫性、単調読み取り、因果的一貫性の違いと関連性を理解しやすい
- 分散システム学習 - データシャーディング
- 分散システムにおけるデータシャーディングを質問とともに学ぶ
- Baidu 百科事典の一貫したハッシュ
- Apache Thrift シリーズ徹底解説(1) - 概要と入門編
- Protostuff の使用に関する予備調査
- 高性能のシリアル化と逆シリアル化: kryo の簡単な使用
- ビッグデータの小さな視点 2: ORCFile と Parquet、オープンソース サークルの背後にあるビジネス
- 新世代のカラムナ型ストレージ形式 Parquet
- Parquetのあれこれ(1) 基本原則
- Parquet カラムナ型ストレージ形式について話しましょう
- MPP (超並列処理) の概要
- MPP アーキテクチャ
- 百度百科事典 NoSQL
- ビッグデータにおけるいくつかの一般的な圧縮形式の圧縮
- zstd、将来のデータ圧縮アルゴリズム
- zstd は Hadoop/spark などで分割可能ですか?
- Aliyun Li Feifei: クラウドネイティブ データベースとは何ですか