cloudera学习----简介

Cloudera概述

Cloudera Enterprise是一个现代的机器学习和分析平台，针对云计算进行了优化:

统一

将数据仓库、数据科学、数据工程和操作数据库工作负载放在一个集成平台上。Cloudera Shared Data Experience (SDX)使这些不同的分析流程能够针对共享数据目录进行操作，共享数据目录保存了业务上下文，比如安全和治理策略和模式。这个公共服务框架即使在临时云环境中也能持久存在，并且使it部门更容易设置和执行策略，同时允许业务访问自助服务分析。

混动力

在最方便、最实惠、最有效的地方工作。Cloudera企业可以直接从Amazon S3 (AWS S3)和Azure Data Lake Store (Microsoft ADLS)等云对象商店直接读写数据，也可以在IaaS(基础设施即服务)上直接读写本地存储环境或HDFS和Kudu。这为您提供了灵活性，可以在数据所在的任何地方处理您想要的数据，而不需要复制和移动。Cloudera Enterprise还提供了最流行的数据仓库和机器学习引擎，可以在任何计算资源上运行，从而实现最终的部署灵活性。Cloudera混合控制意味着用户可以通过PaaS(平台即服务)产品进行自助服务，或者通过IaaS产品、私有云或现场部署选择更多选项来配置和管理平台。

企业级

Cloudera Enterprise是当今现代数据工作负载所需的规模和性能满足当今IT部门所需的安全和治理的地方。这个现代化的平台可以很容易地将更多的用户(数千人)带到千兆字节的不同数据中，并提供业界领先的引擎来处理和查询数据，以及快速开发和服务数据模型。该平台还提供了几层细粒度安全性和完整的审计功能，可以防止未经授权的数据访问，并演示所采取的操作的可靠性。

Cloudera Enterprise提供了以下解决方案:

Data Warehouse

Cloudera的现代数据仓库为高性能BI和数据仓库提供了强大的支持，无论是在现场部署还是作为云服务。业务用户可以快速探索和迭代数据，运行新的报告和工作负载，或者在没有IT部门帮助的情况下访问交互式仪表板。此外，它还可以通过将数据集市整合到一个可伸缩的分析平台中，以更好地满足业务需求，从而消除“数据竖井”的低效。通过它的开放架构，数据可以被更多的用户和工具访问，包括数据科学家和数据工程师，以更低的成本提供更多的价值。

Apache impala ：分布式交互式SQL查询引擎，用于在云对象存储(AWS S3、Microsoft ADLS)、Apache Kudu(用于更新数据)或HDFS上对数据进行BI和SQL分析。

spark on Apache Hive ：提供了最快的ETL/ELT，因此您可以为BI和报告准备数据。

SQL Development Workbench (HUE) ：支持数千名SQL开发人员，每周运行数百万个查询。

Workload xm：提供了关于工作负载的独特见解，以支持可预测的卸载、查询分析和优化以及集群资源的高效利用。

Cloudera navigator：支持基于使用需求的可信数据发现和探索以及管理。

Data Science

只有Cloudera提供了一个现代化的企业平台、工具和专家指导，帮助您通过机器学习和人工智能释放业务价值。Cloudera的机器学习和分析的现代平台，为云优化，让你构建和部署大规模的人工智能解决方案，高效和安全，在任何你想要的地方。Cloudera快进实验室专家指导帮助您实现您的人工智能的未来，更快。

Cloudera Data Science Workbench (CDSW) ：在机器学习和人工智能的协作平台上加速了数据科学从研究到生产的过程。CDSW为R、Python和Scala提供对运行时的随需应变访问，并与Apache Spark进行高性能集成，提供到CDH的安全连接。对于深度学习和其他要求很高的数据科学技术，CDSW支持gpu加速计算，因此数据科学家可以使用诸如TensorFlow、Apache MXNet、Keras等深度学习框架。

Apache spark ：为Hadoop提供了灵活的内存数据处理、可靠的流处理和丰富的机器学习工具。

Cloudera Fast Forward Labs：帮助您设计和执行企业机器学习策略，使新兴机器学习技术能够快速、实际地应用到您的业务中。此外，Cloudera专业服务提供经过验证的可伸缩的、生产级机器学习系统。

Data Engineering

Cloudera数据工程支持大数据之旅的基本工作负载:快速灵活的ETL数据处理工作负载，以及大规模培训机器学习模型的工作负载。这些工作负载可以部署在本地或云中。

Apache Spark, Spark Streaming, Spark MLlib, Spark SQL, and Hive on Spark：为批量、实时和流工作负载的快速、灵活的数据处理提供了一个现代平台。使用Apache Spark，可以摄取所有数据，对其执行分析，然后在一次操作中将数据写入磁盘，高级处理任务可以在比传统技术快得多的时间内完成。

Altus Data engineering ： cloudera Enterprise是公共云中的数据科学和数据工程的综合平台，无论用户是在多租户环境中启动多个工作负载，还是为ETL和探索性数据科学等特定工作设计利用云基础设施的作业。

Workload xm：提供了关于工作负载的独特见解，以支持可预测的卸载、查询分析和优化以及集群资源的高效利用。

Cloudera navigator：提供治理和数据管理，包括审计、沿袭、发现和策略生命周期管理。

Cloudera Navigator Encrypt & Key Trustee ：提供了静态数据的透明加密，不需要更改应用程序和高级密钥管理。

HDFS, YARN, MapReduce, Hive, Pig, HUE, Sentry, Flume, Sqoop, Oozie, Kafka, Cloudera Manager, and Cloudera Altus Director ：提供了基本的Hadoop平台、管理工具和云部署工具，支持数据工程工作负载在本地和云中运行。

Operational Database

Cloudera的操作数据库提供了一种安全、低延迟、高并发性的体验，可以从不断变化的数据中实时提取所需的见解。操作数据库汇集并处理来自更多来源的所有类型的更多数据，包括物联网，以在一个为web规模设计的单一平台内驱动业务洞察。实时、批处理和交互处理框架为开发人员提供了各种工具，以确保他们交付了您的业务正在寻找的价值。随着数据集、数据驱动应用程序和数据用户的增长，Cloudera的操作数据库以可管理的成本提供了性能上的线性可伸缩性

Apache spark：为Hadoop提供了灵活的内存数据处理、可靠的流处理和丰富的机器学习工具。

Apache kudu： kudu是Hadoop-native存储，用于对快速数据进行快速分析。它为构建实时分析应用程序提供了一个简化的体系结构，从而补充了HDFS和HBase的功能。它的设计是为了利用英特尔下一代硬件开发的更快的分析性能。结合Apache Impala，提供高性能的分析数据库解决方案;然而，Kudu与Cloudera Enterprise中的其他框架集成。

Apache hbase：提供了一个基于Hadoop的高性能NoSQL数据库。与HDFS类似，它提供了灵活的数据存储，可以以任何格式存储任何类型的数据。HBase专为快速、随机的读/写访问而设计，当您有许多用户需要低延迟的读/写功能时，可以使用它来提供实时数据服务。

Documentation Overview：

Getting Started

Enterprise Release Guide

Governance and Metadata Management

Component Guides