56 Marvin: 一个支持GPU加速、且不依赖其他库(除cuda和cudnn)的轻量化多维深度学习(deep learning)框架介绍

0 引言

Marvin是普林斯顿视觉实验室(PrincetonVision)于2015年提出的轻量化GPU加速的多维深度学习网络框架。该框架采用纯c/c++编写,除了cuda和cudnn以外,不依赖其他库,编译非常简单,功能也相当强大,用于深度神经网络的快速原型开发非常好用。缺点在于没有提供API,所有的代码集中在marvin.hpp一个文件中,读起来非常困难。好在提供了视频格式的PPT,对框架和代码进行解读。下面将基于官网视频/ppt对该框架进行介绍。

1 相关链接

不想看我翻译的同学可以直接参考下面的链接,里边包含了我下面将要讲到的所有知识。

官网
http://marvin.is/

github
https://github.com/PrincetonVision/marvin

基于Marvin搭建的应用 3DMatch
https://github.com/andyzeng/3dmatch-toolbox

2 为什么要用Marvin

深度学习的框架千千万,包括caffe,tensorflow,keras,pytorch等,为啥一定要试试Marvin呢?用过caffe的同学知道,caffe的配置分分钟让一个正常的少男少女抓狂;tensorflow则包含两个版本,而且不向下兼容,跑前一个版本的代码颇为费劲,还要去改源码;keras集成了tensorflow等框架,封装严密,这种框架上手一时爽,但出了bug调试起来就很难找到原因。其他的不一一分析了。相比而言,Marvin有一下几个优点。

(1)依赖项极少,就俩,CUDA 7.5 and cuDNN 5.1

(2)编译方便,./compile.sh就完事了

(3)模型框架描述清晰,模型采用.json文件描述,类似于caffe的.prototxt文件,搭建或者修改起来都极为方便

(4)运行速度快,在GPU计算方面进行了优化,可显著节省显存

(5)支持多种型号的GPU

(6)跨平台,支持Windows,Mac,Linux等

3 模型的训练过程介绍

(1)可以用下面这个公式简单解释一下,即训练的目的是通过迭代法不断调整权重(weights)参数使损失函数(loss)收敛/最小化

                           

(2)训练的基本原理是利用梯度下降法(gradient descent),不断更新权重参数, 通常采用直接梯度下降法随机梯度下降法来训练

                           

(3)训练的迭代步骤如下

  1 随机采样小样本批次

  2 前向传播 (forward) 计算响应

  3 反向传播 (backpropagation) 计算权重和响应梯度

  4 用梯度更新权重

(4)训练参数

  1 learning rate

  2 weight decay

  3 momentum

(5)正则化(regularization)与求解器(solver)可选

4 Marvin工程文件介绍

(1)源文件: marvin.hpp和 marvin.cu

(2)可执行文件:./marvin

(3)matlab脚本,python脚本等

(4).tensor后缀的文件是数据输入输出文件(估计是中间文件之类的)

(5).marvin是模型的权重参数文件,即训练的结果

(6).json文件是网络结构描述文件,marvin.hpp文件中存在类JSON可以对.json文件进行解析

5 数据格式操作及转换

(1)tensor file format

(2)张量数据类型转换: matlab与python工具箱中提供了相应的方法

6 JSON网络架构

(1)JSON文件格式介绍: http://www.json.org/

(2)在线查看器:http://jsonviewer.stack.hu  等

(3)网络可视化工具: tools/viewer_matlab

(4)层之间应当遵循拓扑顺序; 层的名称具有唯一性; 测试与训练的mini-batch size应当一致

7 layer介绍

(1)卷积层convolution

(2)内积层InnerProduct

(3)激活层activation

(4)LRN层

(5)Dropout层

(6)softmax层

(7)loss层

(8)池化pooling层

猜你喜欢

转载自www.cnblogs.com/ghjnwk/p/10534136.html