automl(架构、数据和超参数自动化找到理想模型配置的过程)
核心能力: 模型结构搜索 超参数搜索
katlib |
advisor |
nni |
google vizier |
|
并行Trial |
支持 |
支持 |
支持 |
支持 |
集群资源利用 |
kubernetes |
不支持 |
支持 |
支持google datacenters |
分布式训练支持 |
支持 |
不支持 |
支持 |
支持 |
超参数搜索算法支持 |
目前较少 |
较多 |
较多 |
未知 |
早期停止策略支持 |
目前较差,依赖框架层面 |
目前较差,依赖框架层面 |
较好 |
|
模型结构搜索支持 |
目前较查 |
无 |
较高 |
无 |
训练指标收集方式 |
支持pull-based;后续支持push-based |
pull-based |
push-based |
|
对用户训练代码侵入性 |
较低 |
较低 |
目前较高 |
|
云原生 |
kubernetes native(深度依赖CRD) |
较低,支持kubernetes部署 |
较低,支持在kuberntes上运行训练 |
MLOps(任务编排工具和工作流程)
重点能力: pipeline、Jupyter Notebooks
Kubeflow |
MLFlow |
|
AutoML |
katib |
|
Pipeline |
argo workflow |
|
Notebook |
jupyterlab |
|
模型管理 |
MIflow Models |
|
模型部署和服务 |
kfserving |
MLflow-torchserve |
实验跟踪 |
MIflow Tracking |
|
数据处理和可视化 |
||
Kubeflow 解决了基础架构编排和实验跟踪,但设置和维护要求相当高,而 MLflow 仅解决了实验跟踪(和模型版本控制)
开源平台:
架构形式 |
开发语言 |
部署方式 |
核心功能 |
架构 |
|
Cube Studio |
frontend+backend |
python |
kubernetes |
一站式机器学习平台 |
|
Dubhe |
frontend+backend |
java+python |
kubernetes |
一站式机器学习平台 |
|
Ymir |
frontend+backend |
python |
docker |
流程管理 |
|
商用AI平台:
ManuVision |
BML |
hikvision |
|
公司 |
创新奇智 |
百度 |
海康 |
描述 |
工业制造领域的深度学习机器视觉检测软件系统 |
全功能AI开发平台 |
一站式训练平台是面向行业个性化场景的零门槛模型定制开发平台 |
阶段 |
内部使用 |
免费+收费 |
体验版+商业版 |
领域 |
半导体、3c |
农业、工业、城市、体育等 |
数字能源、卫生医疗 |
架构 |
训练器、设计器及运行器 |
PaddlePaddle+Paddle套件 |
sdk+算子库+简易版本+云 |
主要功能 |
提供涵盖图像标注、深度学习模型训练、模型测试、算法模型流水线及线上检测的全方位解决方案 |
智能数据服务、模型训练(通用模型和行业模型)(自定义训练、可视化建模)模型管理和部署 |
提供全面的数据采集咨询和支持服务;智能标注;数据筛选;内置模型架构搜索服务;可视化模型管理工具;业务对接;设备对接;算法调用 |
思考:
自动搜索网络和超参搜索技术是否成熟可用?
在线code能力和任务pipline是否实用?
算法封装调用的灵活性以及参数暴露和使用是否友好?
流程优化的重点?
数据 or 模型 or 训练?
数据挖掘、小样本学习、大模型和预训练等技术可行?
基于图像视觉训练平台架构设想: