InfiniBand 与Intel Omni-Path Architecture

Intel Omni-Path Architecture (OPA) 是一种与InfiniBand相似的网络架构

可以用来避免以下PCI总线一些缺陷:

1、由于采用了基于总线的共享传输模式,在PCI总线上不可能同时传送两组以上的数据,当一个PCI设备占用总线时,其他设备只能等待;
2、随着总线频率从33MHz提高到66MHz,甚至133MHz(PCI-X),信号线之间的相互干扰变得越来越严重,在一块主板上布设多条总线的难度也就越来越大;
3、由于PCI设备采用了内存映射I/O地址的方式建立与内存的联系,热添加PCI设备变成了一件非常困难的工作。目前的做法是在内存中为每一个PCI设备划出一块50M到100M的区域,这段空间用户是不能使用的,因此如果一块主板上支持的热插拔PCI接口越多,用户损失的内存就越多;
4、PCI的总线上虽然有buffer作为数据的缓冲区,但是它不具备纠错的功能,如果在传输的过程中发生了数据丢失或损坏的情况,控制器只能触发一个NMI中断通知操作系统在PCI总线上发生了错误;

首先来看Infiniband的协议层次与网络结构

Infiniband的协议采用分层结构,各个层次之间相互独立,下层为上层提供服务。其中,物理层定义了在线路上如何将比特信号组 成符号,然后再组成帧、 数据符号以及包之间的数据填 充等,详细说明了构建有效包的信令协议等;链路层定义了数据包的格式以及数据包操作的协议,如流控、 路由选择、 编码、解码等;网络层通过在数据包上添加一个40字节的全局的路由报头(Global Route Header,GRH)来进行路由的选择,对数据进行转发。在转发的过程中,路由 器仅仅进行可变的CRC校验,这样就保证了端到端的数据传输的完整性;传输层再将数据包传送到某个指定 的队列偶(QueuePair,QP)中,并指示QP如何处理该数据 包以及当信息的数据净核部分大于通道的最大传输单 元MTU时,对数据进行分段和重组。

Omni-Path Network Layers

Layer 1 – Physical Layer

Leverages existing Ethernet and InfiniBand PHY standards
Layer 1.5 – Link Transfer Protocol
Provides reliable delivery of Layer 2 packets, flow control and link control across a single link
Layer 2 – Data Link Layer
Provides fabric addressing, switching, resource allocation and partitioning
support
Layers 4-7 – Transport to Application Layers
Provide interfaces between software libraries and HFIs

Leverages Open Fabrics as the fundamental software infrastructure

网络拓扑结构

Infiniband的网络拓扑结构如图,其组成单元主要分为四类:

1)HCA(Host Channel Adapter),它是连接内存控制器和TCA的桥梁;

2)TCA(Target Channel Adapter),它将I/O设备(例如网卡、SCSI控制器)的数字信号打包发送给HCA;

3)Infiniband link,它是连接HCA和TCA的光纤,InfiniBand架构允许硬件厂家以1条、4条、12条光纤3种方式连结TCA和HCA;

4)交换机和路由器;

无论是HCA还是TCA,其实质都是一个主机适配器,它是一个具备一定保护功能的可编程DMA(Direct Memory Access,直接内存存取 )引擎

OPA组件

Omni-Path主要有以下3部分组件:

HFI – Host Fabric Interface 提供主机,服务和管理节点的光纤连接

Switches 提供大规模的节点之间的任意拓扑连接

Fabric Manager 提供集中化的对光纤资源的provisioning 和监控

相比InfiniBand ,Intel Omni-Path Architecture 架构设计目标特性:

1. 通过CPU/Fabric integration 来提高cost, power, and density

2. Host主机端的优化实现来高速的MPI消息,低延迟的高扩展性的架构

3. Enhanced Fabric Architecture 来提供超低的端到端延迟,高效的纠错和增强的QoS,并且超高的扩展性

猜你喜欢

转载自www.cnblogs.com/allcloud/p/8945544.html