intel for pytorch加速实验

企业开发 2023-09-12 07:34:23 阅读次数: 0

一、相关背景

intel/intel-extension-for-pytorch: A Python package for extending the official PyTorch that can easily obtain performance on Intel platform (github.com)

基于intel自己的硬件，出了一个专门用于pytorch 的加速包，需要cpu或者显卡是intel的。具体的适用型号没看。

二、加速实验

2.1 resnet 50

input shape 1, 3, 224, 224， model resnet 50，
未优化2 是在优化之后运行
耗时单位为秒


	第一次	第二次	第三次	第四次	平均
未优化1	0.036	0.029	0.030	0.030	0.03125
未优化2	0.029	0.030	0.030	0.033	0.0305
优化	0.025	0.025	0.025	0.023	0.0245 (平均耗时降低20.65%)
RTX 3090					0.002

input shape 16, 3, 224, 224， model resnet 50


	第一次	第二次	第三次	第四次	平均
未优化1	0.555	0.561	0.559	0.568	0.56075
未优化2	0.561	0.559	0.560	0.543	0.55575
优化	0.383	0.385	0.386	0.385	0.38475 (平均耗时降低31.18%)
RTX 3090					0.012

核心代码如下

import os
import os.path as osp

import torch
import torchvision.models as models
import time

model = models.resnet50(pretrained=True)
model.eval()
data = torch.rand(1, 3, 224, 224)

import intel_extension_for_pytorch as ipex
model = ipex.optimize(model)

with torch.no_grad():
    for i in range(10):
        model(data)

    t1 = time.time()
    for i in range(10):
        model(data)

    print(f'average time is {(time.time()-t1) / 10.0 :.3f} seconds')

2.2 mobileNet v2


	第一次	第二次	第三次	第四次	平均
未优化1	0.011	0.008	0.007	0.008	0.0085
优化	0.006	0.006	0.005	0.006	0.00575 平均用时降低 32.36%
RTX 3090					0.00130


	第一次	第二次	第三次	第四次	平均
未优化1	0.161	0.162	0.162	0.164	0.16225
优化	0.062	0.060	0.060	0.065	0.06175 平均用时降低62%
RTX 3090					0.00423

三、结论

确实有效，提升幅度不小
对于depthwise separable conv 效果更加，batchisze大一些效果比较好，但是没进行更多batchsize的测试
GPU好强

四、其他

使用top命令观察了一下CPU的利用率，硬件表现来看，未优化前CPU利用率大约为57.2% 优化后CPU利用率越有上升，60.0%

猜你喜欢

转载自blog.csdn.net/qq_29007291/article/details/128530455

intel for pytorch加速实验

intel windows caffe加速

intel硬件视频加速介绍

INTEL

Intel DAAL AI加速——神经网络

Intel CPU指令集以及加速

Intel QAT加速卡demo框架

intel 加速云数智变革

Intel x86 CPU的地址转换加速机制

使用 Intel HAXM 为 Android 模拟器加速

ubuntu下集成intel-qsv加速ffmpeg转码

Intel® QAT加速卡之Linux上编程说明

Intel® QAT加速卡之逻辑实例

TLS 加速技术：Intel QuickAssist Technology（QAT）解决方案

Jellyfin使用Intel QuickSync（QSV）硬件加速 on Docker

Intel Galileo gen2 主板实验（一）

ROS实验笔记之——安装QPEP以及Intel-MKL

使用MVTec HALCON AI加速器接口在Intel独立显卡上加速AI推理

Intel XDK

Intel 的RealSense

intel 面试

Intel CPU

我装的win10,怎么装不了 Intel HAXM模拟加速器呢

Android 学习笔记——采用Intel HAXM对模拟器进行加速

在Ubuntu 14.04平台上利用Intel的GPU实现硬件加速–基于VAAPI

Intel_AV-ICE06加速卡+QAT_Engine测试

Intel硬件加速 VS CUDA完胜视频转码感受

Android Studio 模拟器的加速器 Intel HAXM 的安装及安装失败的原因

使用Optimum-Intel OpenVINO™轻松文生图——几行代码加速Stable Diffusion

Intel E810 DDP在VPP offload加速框架中的应用

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)