IBM研究人员开发了一对低功耗，高性能的计算机视觉系统

　　机器学习算法近年来有了突飞猛进的发展。例如，像Facebook这样的最先进的系统，可以在一小时内训练图像分类算法，而不会牺牲准确性。但是，许多这些系统都是在具有强大GPU的高端机器上进行培训的，随着物联网产业向边缘计算发展，对低功耗低成本人工智能（AI）模型的需求不断增长。

　　IBM的有前景的研究奠定了更高效算法的基础。在本周召开的2018年计算机视觉和模式识别会议上，来自该公司研究的科学家将发表两篇关于图像分类的论文。

　　BlockDrop

　　第一个标题为“BlockDrop：残留网络中的动态干扰路径”，建立在2015年发布的微软工作外：剩余网络。残留网络（简称ResNets）引入神经网络中各层之间的身份连接，使他们能够在训练过程中学习增量或残差表示。

　　IBM将这一想法向前推进了一步。科学家们引入了一个轻型次级神经网络，在论文中称为“策略网络”，在预训练ResNet中动态地丢弃残余块。为了确保性能收益不以精确为代价，策略网络接受了使用最少数量的块并保持识别准确性的培训。

　　IBM的研究经理在接受电话采访时表示：”一般来说，如果向模型添加更多图层，您可以提高其准确性，但是会增加计算成本”。今天大多数模型的一个问题是你有一个适用于所有图像相同的计算适用所有网络。我们的系统更有效地分配资源并准确地识别图像。

　　BlockDrop将图像分类的平均速度提高了20％，在某些情况下高达36％，同时保持76.4％的准确性，与实验的控制相同。

　　改善立体视觉

　　IBM研究人员本周发表的第二篇论文“低功耗，高吞吐量，基于事件的立体声系统”解决了图像处理中的另一个问题：立体视觉问题。

　　正如IBM的研究人员所解释的那样，人类的眼睛彼此相距几厘米，从略微不同的角度看世界。大脑的视觉皮层将它们的图像无缝融合为一体，使我们能够感知深度，但是双摄像机器人系统在调节视差方面有更艰难的时间。在计算机视觉的情况下，相机镜头有异常，这会导致噪音并使问题复杂化。

　　研究人员的解决方案：运行在IBMTrueNorth神经形态芯片上的系统，该系统具有针对机器学习模型进行了优化的高度并行化架构。使用九个处理器的集群，一对基于事件的摄像头（当它们检测到运动时只拍摄图像的摄像头）以及一台将计算分配给上述芯片的笔记本电脑，算法捕获并处理400（最多达2,000）每秒差异图。

　　基于事件的摄像机的使用大大减少了带宽和能源消耗。“立体声算法已经存在了30多年，但大多数这些系统......都采用积极的方法来感知世界。我们使用被动方法。“

　　总体而言，与具有高帧速率照相机的最先进系统相比，该系统在每个视差图的每像素功率方面表现出200倍的提高。（黑客周刊）

IBM研究人员开发了一对低功耗，高性能的计算机视觉系统

猜你喜欢