列族数据库的设计

1. 与列族数据库相关的设计要点

列族数据库应该事先成稀疏且多维的 map
在列族数据库中，各个数据行所拥有的列是可以有所不同的
列族数据库的列是可以动态添加的
列族数据库不需要执行连接操作，需要对数据模型去规范化处理

2. 设计数据表格时需遵循的建议

用去规范化来代替连接
善用无值的列
同时在列名和列值之中存储数据
用一个数据行来为一个实体建模
设计行键时不要讲大量操作分配给少数服务器
维护适当数量的列值版本
不要在列值中使用复杂的数据结构

3. 使用列族数据库时怎样才能避免执行连接操作？

在列族数据库中，多对多的关系是通过去规范化的数据模型来表示的。

4. 为什么说实体应该建模成一个单独的数据行？

实体可以表示具体的事物，也可以表示成抽象的概念。列族数据库用数据行来对实体进行建模。

一个数据行应该对应于一个实体。数据行之间通过 row key 来区分身份。

而且列族数据库不需要执行连接操作，需要对数据模型去规范化处理。

列族数据库并不提供与关系数据库级别相同的事务控制机制。

一般来说，对数据行的写入是原子操作。若更新表格中的多个列，则这些列全部得到更新，要么一个也无法更新。

5. 什么叫做热点现象(hotspotting), 为什么应该避免这种现象？

分布式系统可以使我们利用许多台服务器来解决问题，但如果把大量的任务都压在了少数几台服务器上，就会令

分布式系统中产生热点(hotspotting)，这样就会导致其他的服务器未能得到充分利用，也未能真正发挥分布式系统的优势。

6. 把复杂的数据结构用作列值会有哪些缺点？

用不同的列来存放不同的属性，使得大家能够更加便利的在这些属性上运用列族数据库的特性。

把属性放置在不同的列中也有助于大家能够按照需求来划分列族，以及使用编制索引来优化性能。

当然，使用复杂的数据结构没有这些优势。

7. 说出三种不应该使用辅助索引的情形。

1. 列中的基数值很少，索引则无助于提高性能，有时甚至还会损害性能

2. 列中的技术太多时

3. 许多数据行都没有用到某个列时，针对该列编制辅助索引意义也不是很大

8. 统计学可以分为哪两种？它们各自的用途是什么？

统计学是数学的分支，研究如何描述大型数据集（总体），以及如何从数据中做出推论。

分为描述统计学和预测统计学两种。

描述统计学有助于我们理解数据的构成情况，也使得我们更加方便的将某个数据集与其他数据相对比。

预测统计学研究的是如何根据数据来做出预测。

9. 机器学习可以分为哪两种？它们各自的用途是什么？

机器学习所用的方法涉及其他很多学科，如计算机科学，人工智能，统计学，线性代数等。

有许多服务背后都有机器学习技术来支撑，如根据过往的购买行为向顾客推荐商品，检测网络欺诈行为，机器翻译等。

包括

1. 非监督式学习，有助于我们探索庞大的数据集

2. 监督式学习使得程序能够从样例数据中学到一些知识

10. Spark 和 MapReduce 有什么区别？

MapReduce 需要向磁盘中写入大量数据， Spark 则需要占用很多内存。

MapReduce 采用一种比较固定的计算模型，先 map 后 reduce，而 Spark 使用的计算模型则更加通用一些。