什么时候用HIVE

收集一段时间的数据来进行分析，而Hive就是分析历史数据绝佳的工具。在处理已经存在关联模式的数据时，Hive拥有极为出色的表现。Hive的优势在于其基于HDFS上的数据系统模式而设计完成。其能够在各可接受分区内容纳大量数据，但却不适合利用大量分区分别容纳少量数据。毕竟分区的存在意义在于加快特定数据查询速度，而不需要对整体数据集进行操作。分区数量的减少，意味着我们能够实现最低负载并最大程度提升集群资源利用率。

什么时候用Pig

Apache Pig的胃口可以用“毫不挑食”来形容，其能够消费各种数据类型，包括结构化、半结构化以及非结构化。与Hive不同，Pig不会使用任何相关metastore，但却能够利用Hive中的Hcatalog。事实上，Pig的设计初衷正是为了立足于大规模数据集执行复杂的可扩展操作，因为其能够随时随地进行自我优化。尽管Pig看起来采用多级脚本结构，但其各项内部操作都会在执行时得到优化，这就显著减少了数据的实际扫描次数。