What is SQL Server2019 large data clusters?

 

Starting SQL Server 2019 (15.x), SQL Server allows you to deploy large data cluster SQL Server, Spark and running on HDFS container Kubernetes scalable cluster. These components run side by side, allowing you to read, write and handle large data from Transact-SQL or Spark, so you can easily transfer data relationships and large-capacity high-value combination of big data and analysis.

For more information about the new features in the latest version and known issues, see the release notes .

Context

SQL Server clusters to interact with the big data big data gives you the flexibility. You can query an external data source, large data storage in HDFS SQL Server managed, or query data from multiple external data sources through the cluster. You can then use the data for AI, machine learning and other analysis tasks. The following sections provide more information about these programs.

Data virtualization

By using SQL Server Polybase , SQL Server large data clusters can query an external data source, without the need to move or copy data. SQL Server 2019 (15.x) introduces a new data source to the connector.

Data virtualization

Data Lake

SQL Server cluster includes a large data HDFS scalable  storage pool . This may be used to store large data extracted from a plurality of external sources. Once the data in HDFS large cluster, you can analyze large data storage and query data and combine it with relational data.

Data Lake

Scale data marts

SQL Server大数据群集提供横向扩展计算和存储,以提高分析任何数据的性能。可以摄取来自各种来源的数据,并将其分布在整个数据池节点中作为缓存进行进一步分析。

database

集成的AI和机器学习

SQL Server大数据群集可对HDFS存储池和数据池中存储的数据启用AI和机器学习任务。您可以使用R,Python,Scala或Java在SQL Server中使用Spark以及内置的AI工具。

AI and ML

管理与监控

通过命令行工具,API,门户和动态管理视图的组合来提供管理和监视。

您可以使用Azure Data Studio在大数据群集上执行各种任务。新的SQL Server 2019 Extension启用了此功能该扩展提供:

  • 内置的片段,用于常见的管理任务。
  • 能够浏览HDFS,上传文件,预览文件和创建目录。
  • 能够创建,打开和运行Jupyter兼容的笔记本。
  • 数据虚拟化向导可简化外部数据源的创建。

建筑

SQL Server大数据集群是由Kubernetes精心策划的Linux容器集群

Kubernetes概念

Kubernetes是一个开源的容器编排器,可以根据需要扩展容器的部署。下表定义了一些重要的Kubernetes术语:

   
Kubernetes集群是一组机器,称为节点。一个节点控制群集,并被指定为主节点。其余节点是工作程序节点。Kubernetes主机负责在工作人员之间分配工作,并监视集群的运行状况。
节点 节点运行容器化的应用程序。它可以是物理机或虚拟机。Kubernetes集群可以包含物理机节点和虚拟机节点的混合体。
吊舱是Kubernetes的原子部署单元。容器是运行一个应用程序所需的一个或多个容器以及相关资源的逻辑组。每个吊舱都在一个节点上运行;一个节点可以运行一个或多个Pod。Kubernetes主节点自动将Pod分配给集群中的节点。
   

在SQL Server大数据群集中,Kubernetes负责SQL Server大数据群集的状态。Kubernetes构建和配置集群节点,将Pod分配给节点,并监视集群的运行状况。

大数据集群架构

下图显示了SQL Server大数据群集的组件。

Architecture Overview

控制者

控制器为群集提供管理和安全性。它包含控制服务,配置存储和其他群集级别的服务,例如Kibana,Grafana和Elastic Search。

计算池

计算池为集群提供计算资源。它包含在Linux Pod上运行SQL Server的节点。计算池中的Pod分为用于特定处理任务的SQL Compute实例

资料池

数据池用于数据持久性和缓存。数据池由一个或多个在Linux上运行SQL Server的Pod组成。它用于从SQL查询或Spark作业中提取数据。SQL Server大数据群集数据集市保留在数据池中。

储存池

Pod storage pool storage pool consisting of those from the Pod Linux, SQL Server on HDFS and Spark components. All members of the SQL Server large data storage nodes in the cluster are HDFS cluster.

Guess you like

Origin www.cnblogs.com/guarderming/p/12010949.html