《BIG DATA大数据日知录架构和算法》读书笔记 - 代码天地

《BIG DATA大数据日知录架构和算法》读书笔记

编程语言 2018-05-12 18:48:07 阅读次数: 0

1.数据分片和路由

Hash
- Hash
  - H(Key) = hash(key) mod K
- 虚拟桶（Virtual Buckets）
  - 先hash到桶，在Hash，多加一层Hash便于扩展
- 一致性Hash
  - 分布式Hash表（DHT），P2P对等网络，构成环，节点加入和离开自动调整
范围
- 如HBase中的LSM树

2.数据复制和一致性

基本原则
- CAP（强一致性、可用性和分区容忍性），CP、AP，涉及到网络分区的（P），CAP不可兼得
- ACID（原子、一致、隔离、持久）
- BASE（基本可用B允许偶尔失败、软状态Soft State、最终一致性Eventual Consistency）
  - BASE原则是牺牲一致性达到高可用
- 幂等性（f(f(x)) = f(x)），反复调用，状态正确
一致性模型
- 强一致性
- 最终一致性，一个时间窗口内数据允许不一致
- 因果一致性
副本更新策略 *
一致性协议
- 两阶段提交协议（2PC）
- 向量时钟（Vector Clock）
- RWN协议（成功读取R +　成功写入W > 数据备份数N）
- Paxos协议
  - 安全、可用
  - 副本状态机、Log
  - Proposer、Acceptor、Learner
- Raft协议
  - 可理解、确定

3.常用算法和数据结构

Bloom Filter布隆过滤器
- 用位表示元素是否存在，1到多个独立的hash，空间效率极高
- 改进，加入计数，用于删除成员
Skip List跳跃表
- 可替代平衡二叉树，O(Log(n))
LSM树
- 大量随机写，转化为批量顺序写
Merkle哈希树
- 层级的hash树
- 快速定位数据变化部分
- 比特币
Snappy和LZSS压缩算法
Cuckoo哈希
- 采用交换解决hash冲突

4.集群资源管理和调度

要解决的基本问题
- 资源异质性、工作负载异质性，即组成元素差异较大
- 数据局部性
- 抢占式调度和非抢占式调度
- 资源分配粒度，Job还是Task
- Starvation和Dead Lock
- 资源隔离
资源管理和调度泛型
- 集中式调度器、Borg
- 两级调度器，mesos、YARN
- 状态共享调度器、Omega
Mesos
YARN
- RM，资源管理器，Resource Manager
- AM，作业的应用服务器，Application Manager
- NM，每个机器的节点服务器，Node Manager

5.分布式协调系统

Chubby，Google
- 基于Paxos一致性协议
ZooKeeper
- 可扩展、高吞吐、分布式协调系统
- 应用场景：领导选举、配置管理、组成员管理、任务分配、锁管理
- HBase、Storm、Solr、Kafka...

6.分布式通信

序列化、反序列化
- Protocol Buffer
- Thrift
- Avro，json定义schema
消息队列
- Kafka
多播通信（Application-Level Multi-broadcast）
- Gossip协议，Epidemic Protocol感染协议，如Cassandra维护机器节点状态

7.数据通道

Log采集
- Chukwa，基于Hadoop
- Scribe，Facebook
数据总线，数据变化通知通道，一般基于数据库日志挖掘
- Databus、LinkedIn
- Wormhole、Facebook
数据导入导出
- Sqoop，hadoop和其他关系或者nosql之前的导入导出

8.分布式文件系统

GFS，Google
- Colossus，下一次GFS
HDFS，Hadoop
HayStack，对象存储系统，Facebook
Erasure Code 纠删码
- 减少数据备份，提供可靠性
- Reed-Solomon编码
- LRC编码
- HDFS-RAID架构

9.内存kv数据库

RAMCloud
Redis
MemBase，CouchBase

10.列数据库

BigTable
PNUTS
MegaStore
Spanner
BigTable在跨行、跨表的强一致性需求场景表现不佳，MegaStore一定程度上缓解，但是写性能不佳，Spanner进一步升级，支持类SQL和事务

11.大规模批处理系统

MapReduce
- 求和，Summarization Pattern
- 过滤，Filtering Pattern，top10等
- 组织数据，Data Organization Pattern，分片、排序
- Join模式，Join Pattern，Reduce-Side、Map-Side Join
DAG计算模型
- Dryad，微软
- FlumeJava，Google
- Tez，Apache

12.流式计算

架构
- 主从，Store
- P2P，S4
- Samza

13.交互式数据分析

Hive系，Facebook
- SQL-on-Hadoop
- 耦合Hadoop导致效率低下
- StingerIntiative，改进Hive
Shark系
- 基于Spark
Dremel系，需要关注
- Dremel、PowerDrill、Impala、Presto
混合
- Hadoop DB

14.图数据库：架构和算法

图挖掘问题
- PageRank计算
- 单源最短路径
- 二部图最大匹配
在线
- TAO， Facebook
离线
- Pregel，Google
- Giraph，基于Hadoop的开源版本
- GraphChi
- PowerGraph

15.机器学习：泛型和架构

概念
- 监督学习，分类、回归
- 非监督学习，聚类
分布式学习泛型
- 同步泛型
- 异步泛型
- 部分同步泛型
计算模型
- mapreduce迭代计算模型
- BSP，整体同步并行计算
- SSP，部分同步
架构
- Hadoop
  - 利用平台，Oryx Cloudera, Mahout Apache
  - 改造平台，Twister, Haloop
- Spark及MLBase *
- Parameter Server
  - DistBelief
  - Petuum

16.机器学习：分布式算法

计算广告
- 逻辑回归
- 并行随机梯度下降
- 批学习并行逻辑回归
推荐系统
- 矩阵分解
- ALS-WR算法
- 并行ALS-WR算法
搜索引擎
- 机器学习排序
- LambdaMART
- 分布式LambdaMART
自然语言处理
- 文档相似性计算
社交挖掘
- 谱聚类
- 并行谱聚类
深度学习
- DistBelief

17.增量计算

Percolator
Kineograph
DryadInc

http://my.oschina.net/serverx/blog/693701

猜你喜欢

转载自m635674608.iteye.com/blog/2306028

《BIG DATA大数据日知录架构和算法》读书笔记

大数据时代【Big Data】读书笔记

大数据 Big Data 学习笔记大数据框架

《大数据日知录》读书笔记-ch12机器学习：范型与架构

二. 大数据常用的算法和数据结构 <<大数据日知录>> 读书笔记

大数据（big data）介绍

大数据 Big Data howto

初识大数据（big data）

《大数据日知录》读书笔记 + 回顾补充（20190716 - 2019MMdd）

Big Data

大数据日知录 - 算法与数据结构 - 1

大数据日知录——数据分片和路由（一）

《Oracle大数据解决方案》学习笔记2——大数据的价值（The Value of Big Data）

大数据分析平台架构(Big Data Analytics Platform)

Spark - 大数据Big Data处理框架

BIG DATA 大数据时代来临

GCP---Big Data大数据

博主新书：《大数据日知录：架构与算法》目录

Big Data技术综述

big data 自学路线

big data study &environment

Big Data常识

A Small Definition of Big Data

Big Data Trends

MS Big Data Solution

Big Data Landscape 2018

big data env setup

Big Data Landscape 2019

Techniques for working with Big Data

[Big Data - Kafka] Kafka剖析（一）：Kafka背景及架构介绍

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)