【华为云技术分享】网络场景AI模型训练效率实践 - 代码天地

【华为云技术分享】网络场景AI模型训练效率实践

其他 2020-05-15 10:31:01 阅读次数: 0

问题

在网络场景下的AI模型训练的过程中，KPI异常检测项目需要对设备内多模块、多类型数据，并根据波形以及异常表现进行分析，这样的数据量往往较大，对内存和性能要求较高。

同时，在设计优化算法时，需要快速得到训练及测试结果并根据结果来调整算法，因此进一步要求计算内存和性能达到较高的水平。

当前，本地安全PC性能难以满足调试要求，难点主要在于，时间序列数据以csv文件格式存储，需要根据时序关系以及五维关键字拆分成以五维关键字为主键的唯一时序数据，这一过程需要将同一台设备所有KPI文件同时读入内存，一星期KPI数据文件就达到GB级别，单单本机训练就需要41Min。同时，每台网管设备纳管几千台设备，训练花的时间将按设备数对应倍数增加，单进程执行网管设备局点数据分析的时间将到达Month级别。

KPI异常检测项目希望能够根据KPI数据特点，显著缩短训练时间，以满足快速测试算法调优的需求。

华为解决方案

1. 对华为NAIE训练平台现有任务机制进行拓展，任务可使用Master-Worker机制，即原来的任务变成Master控制消息分发，在其命名空间下创建N个子任务，循环处理数据

2. 设计一套简单易用的API，尽量对业务代码无侵入

导入依赖：

我们从naie sdk中导入两个装饰器

定义数据：

假设我们有四个数据集实例，我们将它定义为一个列表

如上面代码所示，主程序每次接受一个列表中的元素，其余代码和单机保持一致。

after装饰器下面的代码只会在主节点上运行一次，它执行的时机是所有的主程序运行完之后，请根据业务的需求决定是否添加。

改进效果

基于华为NAIE训练平台的拓展使用结果显示，显著缩短KPI异常检测项目的训练时间，50个同等大小的文件夹如果在本地运行约需要34hour，扩大训练任务节点数后（现为30个），50个同等大小的文件夹在训练平台运行时间缩短为2hour。

来自公众号：网络人工智能园地作者：于泽阳

点击这里，了解更多精彩内容

华为云

原创文章 1187 获赞 5567 访问量 145万+

关注他的留言板

猜你喜欢

转载自blog.csdn.net/devcloud/article/details/106103815

【华为云技术分享】网络场景AI模型训练效率实践

【华为云技术分享】软件工程师的AI模型训练起步

王晶：华为云OCR文字识别服务技术实践、底层框架及应用场景 | AI ProCon 2019【华为云技术分享】

技术分享：基于 Kubernetes 的 AI 训练实践

数据——网络AI模型开发（华为云）

王晶：华为云OCR文字识别服务技术实践、底层框架及应用场景 | AI ProCon 2019

【华为云技术分享】iSulad轻量化容器实践解析

【华为云技术分享】Reactive模式优势与实践

【华为云技术分享】华为云鲲鹏云服务移植指南和实践案例（上）

【华为云技术分享】人脸情感模型简介

【华为云技术分享】使用CloudIDE快速体验基于华为云ModelArts SDK的AI开发

【华为云技术分享】华为云多元计算+AI 打造企业级智能数据湖

华为云媒体査勇：华为云在视频AI转码领域的技术实践

【华为云技术分享】云小课 | 初识HiLens Kit，解锁更多智慧应用场景

【华为云技术分享】深度理解AI概念、算法及如何进行AI项目开发

【华为云技术分享】华为云HiLens全面升级，端云协同多模态AI应用开发利器

【华为云技术分享】华为云弹性云服务器ECS搭建FTP服务实践

【华为云技术分享】跟唐老师学习云网络 - Kubernetes网络实现

【华为云技术分享】华为云推出新冠肺炎AI辅助诊断服务，CT量化结果秒级输出

【华为云技术分享】云图说|华为HiLens：端云协同多模态AI开发应用平台

【华为云技术分享】云图说 | 华为云智能边缘平台IEF：智能边缘让AI触手可及

NAIE云服务定位和架构——网络AI模型开发（华为云）

【华为云技术分享】A-Tune：基于AI的自优化能力，让应用发挥极致性能

【华为云技术分享】HBase与AI/用户画像/推荐系统的结合：CloudTable标签索引特性介绍

华为云EI ModelArts，从0到1开发训练AI模型，通过“极快”和“极简”实现普惠AI

Spring Boot 最流行的 16 条实践解读！【华为云技术分享】

【华为云技术分享】【IoT最佳实践】智慧烟感语音报警（配置篇）

【华为云技术分享】Spring Boot 最流行的 16 条实践解读！

【华为云技术分享】【IoT最佳实践】设备获取实时天气DEMO代码解读

【华为云技术分享】敏捷实践：一周的Sprint太短，可以调吗

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)