1. SIGOPS
1.1 Keynote 1: 深度学习处理器(陈云霁@ICT)
智能 <-> 芯片
千亿突触 -> 百万亿突触(人脑)
人工神经网络:
- 输入:x1, x2, ..., xn
- w1, ..., wn
- 求和
- 输出
深度学习=多层人工神经网络
图像识别,语音识别,自然语言处理,策略分析
GPU, DSP...
传统处理器:能耗、算力
寒武纪:芯片设计研究+人工智能算法
DianNao: ASPLOS'14 深度学习处理器
DaDianNao: MICRO'14 多核 cache: SRAM -> EDRAM(10nm或更小无法实现) 片上buffer <-> 刷新
PuDianNao: ASPLOS'15 通用
ShiDianNao: ISCA'15 摄像头智能识别IP
Cambricon: ISCA'16 神经网络通用指令集 (支持传统库 inference -> training 语言、编译器、通讯)
芯片:前瞻性
华为NPU Kirin970 IP
本地DCR+机器翻译
MLU100,云inference
- 有限规模硬件 VS 任意规模算法:时分复用硬件运算单元(片上存储 <-> 内存)
- 结构固定硬件 VS 千变万化算法(拓扑):深度学习指令集(自动抽取共性基本算子)
- 能耗受限硬件 VS 精度优化算法:稀疏神经网络处理器结构
代表性智能算法(逻辑推理)、处理速度、功耗(手机training)
1.2 Session 1: Fighting Distributed Environments
1.2.1 TcpRT: 大规模云数据库的实时服务质量分析诊断系统(Yunsong Gao@阿里巴巴)
cloud database service network architecture
kernal trace 位点 -> DB节点
云计算开销,无锁
debugfs
最大努力聚合
中位数,柯西分布
PolarDB
1.2.2 DAC: Datasize-Aware High Dimensional Configurations Auto-Tuning of In-Memory Cluster Computing(Zhibin Yu@SIAT)
cluster system 配置参数 自动调优
Spark(41个性能相关参数),Hadoop
- CBD VLDB'2011
- RS Middelware'2015
- REHOC TPDS
机器学习建模
配置产生器,数据产生器 -> 决策树 -> 搜索算法
GC,内存配置,资源利用率
1.2.3 深度学习模型的分布式部署优化(Cheng Yang@ICT)
多GPU 超大模型
强化学习划分 ICLR'2017
RL模型: 前向推理+等待NN runtime -> 预测模型
OP时间预测:
- 构造:time op into tensorflow
- benchmark
- 真实拟合
- 预测
OP聚合减少RL输入,负载均衡
数据并行 <-> 模型并行
1.2.4 X-Paxos: A global distributed consensus protocal library (Yingqiang Zhang@阿里巴巴)
分布式一致性协议库
Paxos配管 ->优化-> 数据库(日志流)
Dynamic Paxos Role: 动态改变node角色 SDk
multi-level consistency: idc级容灾 -> 性能升级(节点降级为非全功能节点)
adaptive transmission optimization: 长传链路优化(全球链路),乱序处理,
集群多节点动态参数
framework: 基于graph异构分布
支持X-DB, DTS, X-Cluster
节点一致性能力由谁来维护,多系统耦合(zookeeper -> 内置Paxos -> 内联动E-Paxos)
1.2.5 QFrag: Distributed Graph Search via Subgraph Isomorphism (Macro Serafini@QCRI)
graph analyse / search
Transactional VS Analytical Queries #RDMA#
分布式搜索:大量中间结果 -> 分布计算,不分布数据(poor load balance) -> task fragmentation
BSP system(Mapreduce, Spark)
match spinning trees, match cross-edges
QFrag: Java Giraph(BSP)
TriAD: C++ / MPI system
query feasibility
1.3 Keynote 2: 智能驾驶:一个复杂的系统工程(Bo Huang@UISEE)
数字化、网络化、智能化
感知 -> 规划 -> 控制
- 驾驶员行为学习 人机接口
- 状态监控/数据记录
- 实时、高可靠、高安全系统软件架构
- 小型化、高性能、高可靠硬件架构
- 云端智能大脑
- 大数据、仿真、运营管理
传感器配置
域控制器:AI控制器、定位控制器、线控制器、V2X
地盘线控改造
嵌入式平台加速:模型剪裁、GPU加速
云驾驶平台、仿真、数据、运营管理平台
法律法规、基础设施、技术成熟度、成本、社会接受度
安全性、实时性、鲁棒性、用户体验、成本
操作系统:自研、Apolo(Baidu)、RCS
1.4 Session 2: OS and GPUs
1.4.1 Avalon: Building an Operating System for Robotcenter (Yuan Xu@ICT)
机器人系统协同(借鉴数据中心)
地图绘制、路径规划、任务调度、位置状态共享、视觉校准
ROS Navigation API -> ActionFlow: 基于SKBase动作抽象
多机器人框架:planner, scheduler...
Avalon: 细粒度资源管理系统
资源共享、数据共享、编程抽象
1.4.2 Get Out of the Valley: Power-Efficient Address Mapping for GPUs (Yuxi Liu@Ghent University & Peking University)
Shannon Entropy - DRAM - GPU多线程 -> 地址位升值分布 -> valley
window-based entropy
BVR
MLP, BLP, CLP
BIM: Binary Invertible Matrix
地址映射策略:
- PM scheme
- BASE
- RMP
- PAE
1.4.3 Transparent Partial Page Migration between CPU and GPU (Shiqing Zhang@NUDT)
- HPCA'15 GPU页迁移
- HPCA‘13 细粒度CPU, GPU同步
- '17 Mosaic
部分有效页状态
GP-GPU sym 模拟器
1.4.4 DCUDA: Dynamic GPU Sharing via Live Migration (Fan Guo@USTC)
动态GPU共享、热迁移
静态调度
1.4.5 Accelerating the GPU Database Operations via a Data-driven Approach (Rentong Guo@Zilliz)
异构分析性GPU数据库
并行程序 原子操作串行化
1.5 Panel: ML system builder and user, both hardware and software
1.5.1 Zheng Zhang@NYU
system/platform to ML
ML to system
paxos(Jeff Dean)
C2RTL,,封装指令集(各种加速器),应用 -> 体系结构
1.5.2 Yiran Chen@Duke
存储 -> 深度学习
AI: 安全化、平民化
模型及被训练数据的安全和隐私
1.5.3 Yu Wang@Tsinghua & Deephi
FPGA low-power -> 神经网络
粗粒度指令集
软硬件协同
分布式、移动智能、安全
1.5.4 Bo Huang@UISEE
1.5.5 Naiyan Wang@TuSimple
level4 卡车自动驾驶
算力和性能成正比并有极限
计算/数据 ->是否有网络-> 车/云
1.5.6 Haibo Chen@SJTU & Huawei
OS
压缩的OS
1.5.7 Kerui Min@Cheetah Mobile
文本(线性分类器,情感检测 -> 生成模型) -> 金融 知识图谱 -> AI
1.6 Keynote 3: Designing An Efficient and Safe Neuromorphic Computing System (Yiran Chen@Duke)
AI历史
安全:数据污染,压缩中噪声被平滑了
不考虑结构的稀疏化是没有意义的
2. Keynotes
2.1 The Future of the Internet of Things (Vinton Cerf@Google Inc.)
- Reliable
- Safety
- Security
- Privacy
- Interoperability
- Autonomy
不要过度简化模型
系统级思考
标准
2.2 What Needs to be Added to Machine Learning? (Leslie Valiant@Harvard University)
#PAC#
Syllogism - Math Logic Reasoning
Introduction - Machine Learning Theory
working memory
consistency not enforcing
2.3 How Does AI Enhance Happiness? (Hua Su@Kuaishou Inc.)
低端机深度学习
20万并发+生活场景的语音识别
层叠、复杂模型秒级响应
多模态信息融合的视频理解
2.4 Machine Learning: Trends, Perspectives and Challenges (Michael I. Jordan@University of California, Berkeley)
uncertainty, inference, decison-making, robustness, scale
视觉,语音,自然语言,机器人 label != understanding
- error control for multiple decisions
- markets
- uncertainty
- cloud-edge
- abstractions
- provenance
- explain
- causal
- long-term goals
- real-time
- fairness, diversity
- unexpected situation
FDR(False Discovery Rate) = V(false discover) / R(rejected null)
#DAGGER#
privacy, fraud detection
supervised learning -> optimal-control theory -> reinforce learning
#RL#
Ray: A Distributed Execution Framework [GitHub]