机器学习框架Ray -- 1.1 Overview

1.什么是Ray？

Ray是一个开源的统一框架，用于扩展人工智能和Python应用程序，如机器学习。它提供了并行处理的计算层，因此您不需要成为分布式系统专家。Ray通过以下组件最小化了运行分布式个人和端到端机器学习工作流的复杂性：

对于数据科学家和机器学习从业者而言，Ray允许您在不需要基础架构专业知识的情况下扩展作业：

对于分布式系统工程师，Ray自动处理关键进程：

以下是个人、组织和公司使用Ray构建他们的人工智能应用程序的一些常见机器学习工作负载：

Ray的统一计算框架由三层组成：

一个开源的、针对Python的、领域特定的库集，为机器学习应用程序提供了可扩展的、统一的工具包，使得机器学习工程师、数据科学家和研究人员能够更好地处理ML应用程序。使用分布式数据处理、模型训练、调整、强化学习、模型服务等工具库构建ML应用程序。

一个开源的、针对Python的、通用的分布式计算库，使得机器学习工程师和Python开发人员可以扩展Python应用程序并加速机器学习工作负载。使用简单灵活的API构建和运行分布式应用程序，轻松实现单机代码并行化。

一组连接到共同的Ray head节点的工作节点。Ray集群可以是固定大小的，也可以根据运行在集群上的应用程序请求的资源进行自动缩放。在AWS、GCP、Azure或本地部署工作负载，使用Ray集群管理器在现有的Kubernetes、YARN或Slurm集群上运行Ray。

Ray AIR的五个本地库分别用于分发以下五个特定的ML任务：

对于自定义应用程序，Ray Core库使Python开发人员能够轻松构建可在笔记本电脑、集群、云或Kubernetes上运行的可扩展分布式系统。这是Ray AIR和第三方集成（Ray生态系统）构建的基础。

Ray可以在任何机器、集群、云提供商和Kubernetes上运行，并具有不断增长的社区集成生态系统。