XXxxxxx公司数据部相关专业名词解释

1.cloudera manager:围绕hadoop开发的大数据服务产品,cloudera是个公司名称,是一家基于hadoop做开发的创业公司,是一家“全球企业级数据管理和数据分析平台提供商”。该公司的软件全称是Cloudera Enterprise Data Hub,因此将其大数据管理软件平台简称为CDH;注意:这个网页端,只是大数据集成环境的监控界面,真正控制大数据的,是Linux系统;

2.Hadoop:大数据领域最为知名的数据存储和分析环境,分为HDFS和MapReduce两个部分,前者用于存储,后者用于处理数据;其生态系统包含了用于协助Hadoop的不同的功能模块,如Sqoop、Pig、Hive和HBase等。

3.集群:

4.DC-RPT:公司自主开发的一个报表系统,特点在于快速迭代,据坚叔说这是公司一个很有意义的地方,暂时不太清楚;

5.MR:meassure report,测量报告。信息在业务通道上每480ms发送一次指令,用以评估、优化网络;

6.ETL:Extract-Transfrom-Load,用于描述数据从抽取-交互转换-加载到目的端口的过程。常见于数据仓库领域。通过ETL的过程,用户可以从数据源(具体业务)中提取源数据,经过数据清洗,最终将这些数据加载到预先定义好的数据仓库中去;

7.数据仓库:Data WareHouse,简称为DW或DWH。是存储着海量历史数据的集合,用于为公司业务做决策而建立。可以看做是加大加深版的数据库,网上看到一个很形象的解释:

以电商业务为例。本每家电商公司都会经历,从只需要业务数据库到要数据仓库的阶段。
电商早期启动非常容易,入行门槛低。找个外包团队,做了一个可以下单的网页前端 + 几台服务器 + 一个MySQL,就能开门迎客了。这好比手工作坊时期。
第二阶段,流量来了,客户和订单都多起来了,普通查询已经有压力了,这个时候就需要升级架构变成多台服务器和多个业务数据库(量大+分库分表),这个阶段的业务数字和指标还可以勉强从业务数据库里查询。初步进入工业化。
第三个阶段,一般需要 3-5 年左右的时间,随着业务指数级的增长,数据量的会陡增,公司角色也开始多了起来,开始有了 CEO、CMO、CIO,大家需要面临的问题越来越复“上个月的 PV、UV 是多少”,逐渐演化到非常精细化和具体的用户的集群分析,特定用户在某种使用场景中。
那么在这里前一种业务数据库(读写都优化)的是业务性数据库,后一种是分析性数据库,即数据仓库。
最后总结一下:
数据库 比较流行的有:MySQL, Oracle, SqlServer等
数据仓库 比较流行的有:AWS Redshift, Greenplum, Hive等;

往白了说数据仓库就是用来作为查询分析的数据库,很少用来插入,修改,删除;

8.maven:https://blog.csdn.net/shuzhe66/article/details/45009175
https://www.zhihu.com/question/20104186

9.Pig:它是用于开发MapReduce操作的脚本程序语言的平台;

10.xshell:Xshell可以在Windows界面下用来访问远端不同系统下的服务器,从而比较好的达到远程控制终端的目的,支持shh等传输协议。通俗讲,就是远程操控另外一台电脑,相当于界面很难看的TeamViewer;

11.HBase:Hadoop生态中,一种面向列的横向关系型数据库;是建立在HDFS之上的数据库,依托于Hadoop的HDFS作为最基本存储基础单元,可以随机查找;

12.HDFS:HDFS是适于存储大容量文件的分布式文件系统;不支持快速单独记录查找,它提供的数据只能顺序访问;

13.Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,有自己的h-sql语言,可以将sql语句转换为MapReduce任务再运行;见第7点数据仓库的解释;
https://www.yiibai.com/hive/,这个网页好像是从原版英文网页机器翻译的,中文翻译写的不明不白的,很垃圾;
https://blog.csdn.net/strongyoung88/article/details/53743937讲的比较好,特别是链接中的英文文档;

14.Hue:Hadoop User Experience。一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口;可查询、增删数据;https://blog.csdn.net/ywheel1989/article/details/51560312

15.Impala:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala的最大特点也是最大卖点就是它的快速;其实也可以看做是一个数据库或数据仓库;

16.Key-Value Store Indexer

17.OOzie

18.Solr

19.Spark:一个围绕速度、易用性和复杂分析构建的大数据处理框架,其数据存储依赖于Hadoop的HDFS,spark本身并没有提供分布式文件系统,因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS;但是数据计算则强于hadoop的MapReduce,还提供了机器学习算法库;

20.YARN(MR2 included)

21.ZooKeeper

22.Canal:阿里巴巴开发的一个用于将MySQL数据实时同步到Mongodb数据的中间件。具体用法还不明确;

23.Redis:一种数据库,或者说是一种API,或者说是一个缓存件,作用是实现数据的存储;

25.分库分表:从字面上简单理解,就是把原本存储于一个库的数据分块存储到多个库上,把原本存储于一个表的数据分块存储到多个表上。据库中的数据量不一定是可控的,在未进行分库分表的情况下,随着时间和业务的发展,库中的表会越来越多,表中的数据量也会越来越大,相应地,数据操作,增删改查的开销也会越来越大;另外,由于无法进行分布式式部署,而一台服务器的资源(CPU、磁盘、内存、IO等)是有限的,最终数据库所能承载的数据量、数据处理能力都将遭遇瓶颈。所以需要分库分表;

26.Kafka:由LinkedIn开发的一个分布式基于发布/订阅的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。暂时不会用,好像是我们组重点使用的工具;

27.分布式:分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器,处理更多的数据;

28.MapReduce:MapReduce是一种可用于数据处理的编程框架。MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的汇总”。
在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来;

29.HBase和Hive的区别:Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive;
详情可见:https://www.cnblogs.com/justinzhang/p/4273470.html

30.Kettle:一种图形化的数据格式转换工具,ETL领域用的非常多;它可以把各种数据放到一个通道,然后以一种指定的格式流出;

31.Sqoop:是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具;

猜你喜欢

转载自blog.csdn.net/qq_34100655/article/details/80997604