HPC高性能计算场景
场景简介
HPC是高性能计算(High Performance Computing)的简称,是指利用聚集起来的计算能力来处理标准工作站无法完成的科研、工业界最复杂的科学计算问题,包括仿真、建模和渲染等。我们在处理各种计算问题时常常遇到这样的情况:由于需要大量的运算,一台通用的计算机无法在合理的时间内完成工作,或者由于所需的数据量过大而可用的资源有限,导致根本无法执行计算。HPC方法通过使用专门或高端的硬件,或是将多个单元的计算能力进行整合,能够有效地克服这些限制。
HPC常见的应用场景有:科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序、图像处理等等。
大规模HPC应用一个重要的性能瓶颈是互联墙,进程间通信性能受限于us级互联时延。对网络的诉求是提高MPI的传输效率,支持超短包传输,实现高性能互联。
智能无损以太网关键特性
- AI ECN
AI ECN(Artificial Intelligence Explicit Congestion Notification)是一种根据现网流量模型智能地调整无损队列的ECN门限的功能,可以保障零丢包下的低时延和高吞吐,让无损业务达到最优性能。
DCQCN(Data Center Quantized Congestion Notification)目前是RDMA网络应用最广泛的拥塞控制算法,DCQCN只需要可以支持ECN功能的网络设备,其他的协议功能在主机的网卡上实现。DCQCN可以在需要零丢包传输的RDMA网络中保证高吞吐,满足无损业务的高要求。
DCQCN提供的拥塞控制机制,是在转发设备上发现队列拥塞后,由转发设备向接收端发送ECN拥塞标记报文。接收端收到ECN报文后,向发送端发送CNP拥塞通知报文,以通知发送端的网卡降低发包速率。
传统的静态ECN功能需要在转发设备上手工配置ECN的高低门限、ECN的标记概率等参数,对于需要无丢包传输的无损业务,无法使ECN门限适应队列中不断变化的缓存空间,在兼顾时延敏感小流和吞吐敏感大流的情况下尽量避免触发PFC流控。
无损队列的AI ECN功能结合了智能算法,可以根据现网流量模型进行AI训练,对网络流量变化进行预测,及时推理最优ECN门限,并且支持根据现网流量变化实时调整ECN门限,进行无损队列缓存的精确管控,保障整网的最优性能。同时,与队列调度技术配合使用时,无损队列的AI ECN功能可以实现网络中TCP流量与RoCEv2流量的混合调度,保障RoCEv2流量的无损传输的同时实现低时延和高吞吐。
- PFC
PFC(Priority-based Flow Control,基于优先级的流量控制)是一种有效避免丢包的流量控制技术,是无损网络的基础。但当多个设备之间因为环路等原因同时出现拥塞,各自端口缓存消耗超过PFC触发门限值,相互发送PFC反压帧,同时又相互等待对方释放资源时,会导致所有设备上的数据流都永久阻塞,这种网络状态称为PFC死锁。
为了解决PFC死锁的问题,智能无损网络提供了PFC死锁检测和死锁预防功能:
- 死锁检测:通过对PFC死锁进行全程监控,当设备在死锁检测周期内持续收到PFC反压帧时,将不会响应。
- 死锁预防:通过识别易造成PFC死锁的业务流,修改队列优先级,从而预防PFC死锁的发生。