ACM TURC 2018

1. SIGOPS

1.1 Keynote 1: 深度学习处理器(陈云霁@ICT)

智能 <-> 芯片

千亿突触 -> 百万亿突触(人脑)

人工神经网络:

  • 输入:x1, x2, ..., xn
  • w1, ..., wn
  • 求和
  • 输出

深度学习=多层人工神经网络

图像识别,语音识别,自然语言处理,策略分析

GPU, DSP...

传统处理器:能耗、算力

寒武纪:芯片设计研究+人工智能算法

  • DianNao: ASPLOS'14 深度学习处理器

  • DaDianNao: MICRO'14 多核 cache: SRAM -> EDRAM(10nm或更小无法实现) 片上buffer <-> 刷新

  • PuDianNao: ASPLOS'15 通用

  • ShiDianNao: ISCA'15 摄像头智能识别IP

  • Cambricon: ISCA'16 神经网络通用指令集 (支持传统库 inference -> training 语言、编译器、通讯)

芯片:前瞻性

华为NPU Kirin970 IP

本地DCR+机器翻译

MLU100,云inference

  • 有限规模硬件 VS 任意规模算法:时分复用硬件运算单元(片上存储 <-> 内存)
  • 结构固定硬件 VS 千变万化算法(拓扑):深度学习指令集(自动抽取共性基本算子)
  • 能耗受限硬件 VS 精度优化算法:稀疏神经网络处理器结构

代表性智能算法(逻辑推理)、处理速度、功耗(手机training)

1.2 Session 1: Fighting Distributed Environments

1.2.1 TcpRT: 大规模云数据库的实时服务质量分析诊断系统(Yunsong Gao@阿里巴巴)

cloud database service network architecture

kernal trace 位点 -> DB节点

云计算开销,无锁

debugfs

最大努力聚合

中位数,柯西分布

PolarDB

1.2.2 DAC: Datasize-Aware High Dimensional Configurations Auto-Tuning of In-Memory Cluster Computing(Zhibin Yu@SIAT)

cluster system 配置参数 自动调优

Spark(41个性能相关参数),Hadoop

  • CBD VLDB'2011
  • RS Middelware'2015
  • REHOC TPDS

机器学习建模

配置产生器,数据产生器 -> 决策树 -> 搜索算法

GC,内存配置,资源利用率

1.2.3 深度学习模型的分布式部署优化(Cheng Yang@ICT)

多GPU 超大模型

强化学习划分 ICLR'2017

RL模型: 前向推理+等待NN runtime -> 预测模型

OP时间预测:

  • 构造:time op into tensorflow
  • benchmark
  • 真实拟合
  • 预测

OP聚合减少RL输入,负载均衡

数据并行 <-> 模型并行

1.2.4 X-Paxos: A global distributed consensus protocal library (Yingqiang Zhang@阿里巴巴)

分布式一致性协议库

Paxos配管 ->优化-> 数据库(日志流)

Dynamic Paxos Role: 动态改变node角色 SDk

multi-level consistency: idc级容灾 -> 性能升级(节点降级为非全功能节点)

adaptive transmission optimization: 长传链路优化(全球链路),乱序处理,
集群多节点动态参数

framework: 基于graph异构分布

支持X-DB, DTS, X-Cluster

节点一致性能力由谁来维护,多系统耦合(zookeeper -> 内置Paxos -> 内联动E-Paxos)

1.2.5 QFrag: Distributed Graph Search via Subgraph Isomorphism (Macro Serafini@QCRI)

graph analyse / search

Transactional VS Analytical Queries #RDMA#

分布式搜索:大量中间结果 -> 分布计算,不分布数据(poor load balance) -> task fragmentation

BSP system(Mapreduce, Spark)

match spinning trees, match cross-edges

QFrag: Java Giraph(BSP)

TriAD: C++ / MPI system

query feasibility

1.3 Keynote 2: 智能驾驶:一个复杂的系统工程(Bo Huang@UISEE)

数字化、网络化、智能化

感知 -> 规划 -> 控制

  • 驾驶员行为学习 人机接口
  • 状态监控/数据记录
  • 实时、高可靠、高安全系统软件架构
  • 小型化、高性能、高可靠硬件架构
  • 云端智能大脑
  • 大数据、仿真、运营管理

传感器配置

域控制器:AI控制器、定位控制器、线控制器、V2X

地盘线控改造

嵌入式平台加速:模型剪裁、GPU加速

云驾驶平台、仿真、数据、运营管理平台

法律法规、基础设施、技术成熟度、成本、社会接受度

安全性、实时性、鲁棒性、用户体验、成本

操作系统:自研、Apolo(Baidu)、RCS

1.4 Session 2: OS and GPUs

1.4.1 Avalon: Building an Operating System for Robotcenter (Yuan Xu@ICT)

机器人系统协同(借鉴数据中心)

地图绘制、路径规划、任务调度、位置状态共享、视觉校准

ROS Navigation API -> ActionFlow: 基于SKBase动作抽象

多机器人框架:planner, scheduler...

Avalon: 细粒度资源管理系统

资源共享、数据共享、编程抽象

1.4.2 Get Out of the Valley: Power-Efficient Address Mapping for GPUs (Yuxi Liu@Ghent University & Peking University)

Shannon Entropy - DRAM - GPU多线程 -> 地址位升值分布 -> valley

window-based entropy

BVR

MLP, BLP, CLP

BIM: Binary Invertible Matrix

地址映射策略:

  • PM scheme
  • BASE
  • RMP
  • PAE

1.4.3 Transparent Partial Page Migration between CPU and GPU (Shiqing Zhang@NUDT)

  • HPCA'15 GPU页迁移
  • HPCA‘13 细粒度CPU, GPU同步
  • '17 Mosaic

部分有效页状态

GP-GPU sym 模拟器

1.4.4 DCUDA: Dynamic GPU Sharing via Live Migration (Fan Guo@USTC)

动态GPU共享、热迁移

静态调度

1.4.5 Accelerating the GPU Database Operations via a Data-driven Approach (Rentong Guo@Zilliz)

异构分析性GPU数据库

并行程序 原子操作串行化

1.5 Panel: ML system builder and user, both hardware and software

1.5.1 Zheng Zhang@NYU

system/platform to ML

ML to system

paxos(Jeff Dean)

C2RTL,,封装指令集(各种加速器),应用 -> 体系结构

1.5.2 Yiran Chen@Duke

存储 -> 深度学习

AI: 安全化、平民化

模型及被训练数据的安全和隐私

1.5.3 Yu Wang@Tsinghua & Deephi

FPGA low-power -> 神经网络
粗粒度指令集
软硬件协同
分布式、移动智能、安全

1.5.4 Bo Huang@UISEE

1.5.5 Naiyan Wang@TuSimple

level4 卡车自动驾驶
算力和性能成正比并有极限
计算/数据 ->是否有网络-> 车/云

1.5.6 Haibo Chen@SJTU & Huawei

OS
压缩的OS

1.5.7 Kerui Min@Cheetah Mobile

文本(线性分类器,情感检测 -> 生成模型) -> 金融 知识图谱 -> AI

1.6 Keynote 3: Designing An Efficient and Safe Neuromorphic Computing System (Yiran Chen@Duke)

AI历史

安全:数据污染,压缩中噪声被平滑了

不考虑结构的稀疏化是没有意义的

2. Keynotes

2.1 The Future of the Internet of Things (Vinton Cerf@Google Inc.)

  • Reliable
  • Safety
  • Security
  • Privacy
  • Interoperability
  • Autonomy

不要过度简化模型

系统级思考

标准

2.2 What Needs to be Added to Machine Learning? (Leslie Valiant@Harvard University)

#PAC#

Syllogism - Math Logic Reasoning

Introduction - Machine Learning Theory

working memory

consistency not enforcing

2.3 How Does AI Enhance Happiness? (Hua Su@Kuaishou Inc.)

低端机深度学习

20万并发+生活场景的语音识别

层叠、复杂模型秒级响应

多模态信息融合的视频理解

uncertainty, inference, decison-making, robustness, scale

视觉,语音,自然语言,机器人 label != understanding

  • error control for multiple decisions
  • markets
  • uncertainty
  • cloud-edge
  • abstractions
  • provenance
  • explain
  • causal
  • long-term goals
  • real-time
  • fairness, diversity
  • unexpected situation

FDR(False Discovery Rate) = V(false discover) / R(rejected null)

#DAGGER#

privacy, fraud detection

supervised learning -> optimal-control theory -> reinforce learning

#RL#

Ray: A Distributed Execution Framework [GitHub]

猜你喜欢

转载自www.cnblogs.com/humz/p/9146041.html