Starting SQL Server 2019 (15.x), SQL Server allows you to deploy large data cluster SQL Server, Spark and running on HDFS container Kubernetes scalable cluster. These components run side by side, allowing you to read, write and handle large data from Transact-SQL or Spark, so you can easily transfer data relationships and large-capacity high-value combination of big data and analysis.
For more information about the new features in the latest version and known issues, see the release notes .
Context
SQL Server clusters to interact with the big data big data gives you the flexibility. You can query an external data source, large data storage in HDFS SQL Server managed, or query data from multiple external data sources through the cluster. You can then use the data for AI, machine learning and other analysis tasks. The following sections provide more information about these programs.
Data virtualization
By using SQL Server Polybase , SQL Server large data clusters can query an external data source, without the need to move or copy data. SQL Server 2019 (15.x) introduces a new data source to the connector.
Data Lake
SQL Server cluster includes a large data HDFS scalable storage pool . This may be used to store large data extracted from a plurality of external sources. Once the data in HDFS large cluster, you can analyze large data storage and query data and combine it with relational data.
Scale data marts
SQL Server大数据群集提供横向扩展计算和存储,以提高分析任何数据的性能。可以摄取来自各种来源的数据,并将其分布在整个数据池节点中作为缓存进行进一步分析。
集成的AI和机器学习
SQL Server大数据群集可对HDFS存储池和数据池中存储的数据启用AI和机器学习任务。您可以使用R,Python,Scala或Java在SQL Server中使用Spark以及内置的AI工具。
管理与监控
通过命令行工具,API,门户和动态管理视图的组合来提供管理和监视。
您可以使用Azure Data Studio在大数据群集上执行各种任务。新的SQL Server 2019 Extension启用了此功能。该扩展提供:
- 内置的片段,用于常见的管理任务。
- 能够浏览HDFS,上传文件,预览文件和创建目录。
- 能够创建,打开和运行Jupyter兼容的笔记本。
- 数据虚拟化向导可简化外部数据源的创建。
建筑
SQL Server大数据集群是由Kubernetes精心策划的Linux容器集群。
Kubernetes概念
Kubernetes是一个开源的容器编排器,可以根据需要扩展容器的部署。下表定义了一些重要的Kubernetes术语:
在SQL Server大数据群集中,Kubernetes负责SQL Server大数据群集的状态。Kubernetes构建和配置集群节点,将Pod分配给节点,并监视集群的运行状况。
大数据集群架构
下图显示了SQL Server大数据群集的组件。
控制者
控制器为群集提供管理和安全性。它包含控制服务,配置存储和其他群集级别的服务,例如Kibana,Grafana和Elastic Search。
计算池
计算池为集群提供计算资源。它包含在Linux Pod上运行SQL Server的节点。计算池中的Pod分为用于特定处理任务的SQL Compute实例。
资料池
数据池用于数据持久性和缓存。数据池由一个或多个在Linux上运行SQL Server的Pod组成。它用于从SQL查询或Spark作业中提取数据。SQL Server大数据群集数据集市保留在数据池中。
储存池
Pod storage pool storage pool consisting of those from the Pod Linux, SQL Server on HDFS and Spark components. All members of the SQL Server large data storage nodes in the cluster are HDFS cluster.