XXxxxxx公司数据部相关专业名词解释

1.cloudera manager：围绕hadoop开发的大数据服务产品，cloudera是个公司名称，是一家基于hadoop做开发的创业公司，是一家“全球企业级数据管理和数据分析平台提供商”。该公司的软件全称是Cloudera Enterprise Data Hub，因此将其大数据管理软件平台简称为CDH；注意：这个网页端，只是大数据集成环境的监控界面，真正控制大数据的，是Linux系统；

2.Hadoop：大数据领域最为知名的数据存储和分析环境，分为HDFS和MapReduce两个部分，前者用于存储，后者用于处理数据；其生态系统包含了用于协助Hadoop的不同的功能模块，如Sqoop、Pig、Hive和HBase等。

3.集群：

4.DC-RPT：公司自主开发的一个报表系统，特点在于快速迭代，据坚叔说这是公司一个很有意义的地方，暂时不太清楚；

5.MR：meassure report，测量报告。信息在业务通道上每480ms发送一次指令，用以评估、优化网络；

6.ETL：Extract-Transfrom-Load，用于描述数据从抽取-交互转换-加载到目的端口的过程。常见于数据仓库领域。通过ETL的过程，用户可以从数据源（具体业务）中提取源数据，经过数据清洗，最终将这些数据加载到预先定义好的数据仓库中去；

7.数据仓库：Data WareHouse，简称为DW或DWH。是存储着海量历史数据的集合，用于为公司业务做决策而建立。可以看做是加大加深版的数据库，网上看到一个很形象的解释：

以电商业务为例。本每家电商公司都会经历，从只需要业务数据库到要数据仓库的阶段。
电商早期启动非常容易，入行门槛低。找个外包团队，做了一个可以下单的网页前端 + 几台服务器 + 一个MySQL，就能开门迎客了。这好比手工作坊时期。
第二阶段，流量来了，客户和订单都多起来了，普通查询已经有压力了，这个时候就需要升级架构变成多台服务器和多个业务数据库（量大+分库分表），这个阶段的业务数字和指标还可以勉强从业务数据库里查询。初步进入工业化。
第三个阶段，一般需要 3-5 年左右的时间，随着业务指数级的增长，数据量的会陡增，公司角色也开始多了起来，开始有了 CEO、CMO、CIO，大家需要面临的问题越来越复“上个月的 PV、UV 是多少”，逐渐演化到非常精细化和具体的用户的集群分析，特定用户在某种使用场景中。
那么在这里前一种业务数据库（读写都优化）的是业务性数据库，后一种是分析性数据库，即数据仓库。
最后总结一下：
数据库比较流行的有：MySQL, Oracle, SqlServer等
数据仓库比较流行的有：AWS Redshift, Greenplum, Hive等；

往白了说数据仓库就是用来作为查询分析的数据库，很少用来插入，修改，删除；

8.maven：https://blog.csdn.net/shuzhe66/article/details/45009175；
https://www.zhihu.com/question/20104186；

9.Pig：它是用于开发MapReduce操作的脚本程序语言的平台；

10.xshell：Xshell可以在Windows界面下用来访问远端不同系统下的服务器，从而比较好的达到远程控制终端的目的，支持shh等传输协议。通俗讲，就是远程操控另外一台电脑，相当于界面很难看的TeamViewer；

11.HBase：Hadoop生态中，一种面向列的横向关系型数据库；是建立在HDFS之上的数据库，依托于Hadoop的HDFS作为最基本存储基础单元，可以随机查找；

12.HDFS：HDFS是适于存储大容量文件的分布式文件系统；不支持快速单独记录查找，它提供的数据只能顺序访问；

13.Hive：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，有自己的h-sql语言，可以将sql语句转换为MapReduce任务再运行；见第7点数据仓库的解释；
https://www.yiibai.com/hive/，这个网页好像是从原版英文网页机器翻译的，中文翻译写的不明不白的，很垃圾；
https://blog.csdn.net/strongyoung88/article/details/53743937讲的比较好，特别是链接中的英文文档；

14.Hue：Hadoop User Experience。一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口；可查询、增删数据；https://blog.csdn.net/ywheel1989/article/details/51560312

15.Impala：Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala的最大特点也是最大卖点就是它的快速；其实也可以看做是一个数据库或数据仓库；

16.Key-Value Store Indexer

17.OOzie

18.Solr

19.Spark：一个围绕速度、易用性和复杂分析构建的大数据处理框架，其数据存储依赖于Hadoop的HDFS，spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS；但是数据计算则强于hadoop的MapReduce，还提供了机器学习算法库；

20.YARN(MR2 included)

21.ZooKeeper

22.Canal：阿里巴巴开发的一个用于将MySQL数据实时同步到Mongodb数据的中间件。具体用法还不明确；

23.Redis：一种数据库，或者说是一种API，或者说是一个缓存件，作用是实现数据的存储；

25.分库分表：从字面上简单理解，就是把原本存储于一个库的数据分块存储到多个库上，把原本存储于一个表的数据分块存储到多个表上。据库中的数据量不一定是可控的，在未进行分库分表的情况下，随着时间和业务的发展，库中的表会越来越多，表中的数据量也会越来越大，相应地，数据操作，增删改查的开销也会越来越大；另外，由于无法进行分布式式部署，而一台服务器的资源（CPU、磁盘、内存、IO等）是有限的，最终数据库所能承载的数据量、数据处理能力都将遭遇瓶颈。所以需要分库分表；

26.Kafka：由LinkedIn开发的一个分布式基于发布/订阅的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。暂时不会用，好像是我们组重点使用的工具；

27.分布式：分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器，处理更多的数据；

28.MapReduce：MapReduce是一种可用于数据处理的编程框架。MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是”任务的分解与结果的汇总”。
在分布式计算中，MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：map和reduce，map负责把任务分解成多个任务，reduce负责把分解后多任务处理的结果汇总起来；

29.HBase和Hive的区别：Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然，这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hbase，设置再从Hbase写回Hive；
详情可见：https://www.cnblogs.com/justinzhang/p/4273470.html；

30.Kettle：一种图形化的数据格式转换工具，ETL领域用的非常多；它可以把各种数据放到一个通道，然后以一种指定的格式流出；

31.Sqoop：是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具；

XXxxxxx公司数据部相关专业名词解释

猜你喜欢