文献笔记（6）(2017ISSCC: 14.2)

其他 2018-10-23 13:11:12 阅读次数: 0

文章目录

1 英文缩写
2 overall architecture
3 mixed division method
4 dynamic fixed-point
5 LUT-based multiplication

文献摘自DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks
部分参考了博文https://blog.csdn.net/xbinworld/article/details/55000567
和https://mp.weixin.qq.com/s?__biz=MzI3MDQ2MjA3OA==&mid=2247483716&idx=1&sn=7bdc857a1bb12700a0f48e2a3ab92339&chksm=ead1fc55dda67543c550f03b6eb62a599c984cb5dc3a5bd7de3a64c670e378d2bb589558862e&scene=21#wechat_redirect

1 英文缩写

RNN: recurrent neural networks
FCL: fully-connected layers
CL: convolution layer
LSTM: Long Short Term Memory长短时记忆
RL: RNN-LSTM layer
CP: convolution layer processor
FRP: FC-RL processor
DNPU: deep neural processing unit
Q-table: a quantization table
ID: image division
CD: channel division
MD: mixed division

2 overall architecture

因为CNN和FC/RNN两类网络需求和特点不同，所以之前都是单一加速，然后这里通过异构架构通过两个处理器协同工作。
In this paper, we present an 8.1TOPS/W reconfigurable CNN-RNN processor with the following 3 key features:

A reconfigurable heterogeneous architecture（异构架构） with a convolution layer processor and a FC-RL processor
a LUT-based reconfigurable multiplier optimized for the dynamic fixed point
a quantization table based matrix multiplication

在这里插入图片描述

3 mixed division method

There are three possible division methods

image division: weight需要被加载很多次
channel division: a single divided image不能计算出结果，中间结果需要被存起来
mixed division：最好

4 dynamic fixed-point

特点：每个层的weight所用位宽不一样的word length和fraction length，根据weight数据分布动态来选择
在这里插入图片描述
而且word length可以是4bit到16bit变化，量化后的权数可以是4bit到7bit变化

5 LUT-based multiplication

对于卷积层，相同权数要计算很多遍，所以可以利用查找表，把不同的4bit的输入跟同一个权数相乘的结果都保存起来，之后查表就可以。
通过移位累加，可以实现16bit的输入a与一个4bit weight的乘法
在这里插入图片描述
对于FC/RNN的计算，可以将weight量化成4bit的位宽。
当weight被量化后，可以进行预计算，将同一输入与不同的4bit的weight相乘的结果在查找表里存起来，实际乘法直接从表中读取计算结果。

猜你喜欢

转载自blog.csdn.net/tiaozhanzhe1900/article/details/83241919

文献笔记（6）(2017ISSCC: 14.2)

文献笔记（5）(2017ISSCC 14.1)

Cocos2d-x 学习笔记(14.2) EventDispatcher 事件分发机制 dispatchEvent(event)

14.2 Class对象

14.2 基于令牌的认证

14.2 Storm部署搭建

14.2 Go性能优化

14.2 equals方法与toString方法

14.2 使用advisory监控ActiveMQ

《C primer plus》Chapter 14.2

noridic 14.2sdk fstorage

java基础：14.2 排序算法

14.2-http 上传文件

14.2 重构工具的技术标准

14.2 input子系统——按键驱动

iOS 14.2 原生支持 JIT 编译

DevExpress14.2 控件文件位置

Java练习题14.2 继承

文献笔记（3）(2018ISSCC 13.4)

文献笔记（4）(2018ISSCC 13.3)

自学Linux Shell14.2-创建自己的重定向

openSUSE Leap 14.2如何使用Python编辑器IDLE

王爽《汇编语言》检测点14.2

WPF 中DevExpress14.2 GridControl控件的使用

java基础：14.2 Java FX之显示图片

Day14.2 面试题、滑动序列

[Silverlight]TabControl，这个好家伙 ----- Day14.2

温故Linux 操作系统14.2：网络管理2拓展

AutoSAR系列讲解（深入篇）14.2-Mcal Port配置

Verilog、FPGA和Xilinx （1）Xilinx ISE 14.2使用

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)