读Google三大论文后感

在没有接触大数据之前，只觉得大数据是一个很离自己很遥远的东西，但在老师的推荐下，拜读了Google的三大著名论文，我才逐渐了解了老师平时上课所讲，无论是淘宝，亚马逊的推送还是各种云计算，无不是对大数据的应用，大数据对我们的影响，已经深入到了我们生活的方方面面，它帮助我们收敛资料，它甚至连接着世界的各处。

首先，我从有关于GFS的论文开始阅读，Google GFS 是一个文件系统，一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。 GFS 虽然运行在廉价的普遍硬件设备上，但是它依然了提供灾难冗余的能力，为大量客户机提供了高性能的服务。在论文中强调了组件失效被认为是常态时间，而不是意外事件。由于GFS包括了几百甚至几千台普通廉价设备组装的储存机器，同时还要承受相当数量的用户机访问。GFS组件的数量和质量都成为了使某些组件无法工作，或是无法从它们目前的失效状态中恢复。随后还指明文件的大小十分大，通过大文件处理，增加了管理文件的效率，同时才采用在文件结尾处追加数据，而不是使用覆盖原有的数据覆盖方式，在文中强调了数据的追加操作是性能优化和原子性保证的主要考量因素，同时通过放松了对GFS一致性模型的要求，这样就减轻了文件系统对应用程序的苛刻要求，应用程序和文件系统 API 的协同设计提高了整个系统的灵活性。系统使用了一个单一的Master节点，多台Chunk服务器，并且同时被多个客户端访问作为一个GFS

集群。同时采用了保存变更日志的方式，我们能够简单的可靠的更新 Master 服务器的状态，并且不用担心 Master 服务器崩溃导致数据不一致的风险。Master 服务器不会持久保存 Chunk 位置信息。Master 服务器在启动时，或者有新的 Chunk 服务器加入时，向各个 Chunk 服务器轮询它们所存储的 Chunk 的信息。系统最小化所有操作和Master节点交互，系统通过持续监控，复制关键数据，快速和自动恢复提供灾难冗余。Chunk 复制使得我们可以对 Chunk 服务器的失效进行容错。高频率的组件失效要求系统具备在线修复机制，能够周期性的、透明的修复损坏的数据，也能够第一时间重新建立丢失的副本。

其次我开始了对Google Bigtable和MacReduce的阅读，他们分别是分布式的结构化数据存储系统和一个编程模型，都是备用被设计用来处理海量数据以及生成超大数据集的算法模型的相关实现，MacReduce通过集群配置，排序，高效的 backup 任务，和有效处理失效的机器来实现大规模索引。Google Bigtable通过局部性群组，压缩，通过缓存提高读操作的性能，Bloom 过滤器，Commit 日志的实现，Tablet ，恢复提速利用不变性多来优化工作，使 Bigtable 到达用户要求的高性能、高可用性和高可靠性。

此次阅读使我深有感触，引起了我对大数据的兴趣，通过一周的时间的阅读，虽然泵能做到面面俱到，但是简简的阅读却能让我有如此大的收获，将使我终生受益匪浅。

读Google三大论文后感

猜你喜欢