mlops产品调研方案

automl(架构、数据和超参数自动化找到理想模型配置的过程)

核心能力: 模型结构搜索 超参数搜索

katlib

advisor

nni

google vizier

并行Trial

支持

支持

支持

支持

集群资源利用

kubernetes

不支持

支持

支持google datacenters

分布式训练支持

支持

不支持

支持

支持

超参数搜索算法支持

目前较少

较多

较多

未知

早期停止策略支持

目前较差,依赖框架层面

目前较差,依赖框架层面

较好

模型结构搜索支持

目前较查

较高

训练指标收集方式

支持pull-based;后续支持push-based

pull-based

push-based

对用户训练代码侵入性

较低

较低

目前较高

云原生

kubernetes native(深度依赖CRD)

较低,支持kubernetes部署

较低,支持在kuberntes上运行训练

MLOps(任务编排工具和工作流程)

重点能力: pipeline、Jupyter Notebooks

Kubeflow

MLFlow

AutoML

katib

Pipeline

argo workflow

Notebook

jupyterlab

模型管理

MIflow Models

模型部署和服务

kfserving

MLflow-torchserve

实验跟踪

MIflow Tracking

数据处理和可视化

Kubeflow 解决了基础架构编排和实验跟踪,但设置和维护要求相当高,而 MLflow 仅解决了实验跟踪(和模型版本控制)

开源平台:

架构形式

开发语言

部署方式

核心功能

架构

Cube Studio

frontend+backend

python

kubernetes

一站式机器学习平台

Dubhe

frontend+backend

java+python

kubernetes

一站式机器学习平台

Ymir

frontend+backend

python

docker

流程管理

商用AI平台:

ManuVision

BML

hikvision

公司

创新奇智

百度

海康

描述

工业制造领域的深度学习机器视觉检测软件系统

全功能AI开发平台

一站式训练平台是面向行业个性化场景的零门槛模型定制开发平台

阶段

内部使用

免费+收费

体验版+商业版

领域

半导体、3c

农业、工业、城市、体育等

数字能源、卫生医疗

架构

训练器、设计器及运行器

PaddlePaddle+Paddle套件

sdk+算子库+简易版本+云

主要功能

提供涵盖图像标注、深度学习模型训练、模型测试、算法模型流水线及线上检测的全方位解决方案

智能数据服务、模型训练(通用模型和行业模型)(自定义训练、可视化建模)模型管理和部署

提供全面的数据采集咨询和支持服务;智能标注;数据筛选;内置模型架构搜索服务;可视化模型管理工具;业务对接;设备对接;算法调用

思考:

自动搜索网络和超参搜索技术是否成熟可用?

在线code能力和任务pipline是否实用?

算法封装调用的灵活性以及参数暴露和使用是否友好?

流程优化的重点?

数据 or 模型 or 训练?

数据挖掘、小样本学习、大模型和预训练等技术可行?

基于图像视觉训练平台架构设想:

猜你喜欢

转载自blog.csdn.net/hongyucai/article/details/127769057