ODPS系列（1）：初识ODPS

注：MaxCompute，原名ODPS，出于使用习惯考虑，以下用ODPS代指MaxCompute，即阿里巴巴大数据计算服务。

一、为什么选择ODPS？

1．选择Apache Hadoop？

以Hadoop为代表的开源组件，搭建及维护的成本较高，遇见各类配置、网络、参数问题较多，升级时存在不兼容风险，需要单独搭建额外组件（如HBase），Namenode无法得安全性保障，需要较长时间来熟悉和维护。

2.选择Cloudera CDH？

以Cloudera为代表的集成组件，在使用的便捷性上提升了许多，版本及配置简化了很多，但配置参数、任务优化、日常运维仍需比较专业的人员来操作，一些配套平台（如任务调度）仍需自行搭建，属于软件层面上的优化提升，没有深入到硬件层面。

3选择ODPS？

ODPS最大的优势，就是通过阿里巴巴内部复杂多元的业务场景，将大数据计算的整个流程做了完整的梳理，各个环节的组件进行了统一梳理，实现了从日志采集、数据计算、数据展示到数据分析的全过程集成。在知晓了计算流程的前提下，可以针对硬件做专门的定制，因而实现了“减费增效”，即降低采购成本（如服务器数量）、人力成本（如运维）、时间成本（扩展方便）的同时，提升了计算规模（TB至EB级别）。

二、开发人员如何认识ODPS？

1.我要学原理？

如果要学习Hadoop系列的相关原理，单纯的学习ODPS其实意义不大，从技术学习的角度来看，开源一直都是程序员最好的老师，哪怕是《Hadoop权威指南》，笔者也认为不如直接上手搭建一个小型平台，并且阅读英文原版的文档。这里要讲一个道理，学历从来不是个人差距的主要因素，持续性的学习状态才是。从事程序员这种岗位，受限于中国的发展阶段，因而绝大多数的第一手资料都是英文的，学习好英语，其实是第一重要的，对于计算机的兴趣只能排到第二位。前些年我们经常说，互联网不歧视学历，有这样那样的漏洞可以钻一下，但这并不是因为互联网要求的门槛低，而是处在行业爆发期中，人才不足的一种体现。现在我们又提：互联网寒冬，似乎工作更难找了，但其实技术出众的人才依旧是难寻的，不能够持续学习的程序员将在行业漫长的发展过程中，逐步被淘汰。多学英文、多读英文资料，是保持自我技术能力的一种重要途径。

2.我要学技术？

从业务的角度看，技术是一种呈现不断融合的趋势，实践和动手是第一老师。正如看源码多了不一定能设计出好的系统，而使用集成好的平台，虽然开始是一种一知半解的状态，但胜在易于上手，能够快速建立起自信心。举个例子：学习Java没有人一上来就是手撕JVM，而是从“Hello World”写起来。刚开始使用ODPS，使用已集成好的平台，可以快速建立起对于大数据计算的基本认知和初始兴趣，再去拆解每一部分这么做的理由，最后深入到源码，这是比较符合学习过程的。