分布式存储场景
场景简介
分布式存储系统,是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。随着分布式存储越来越普及,现在一些对性能要求比较高的应用也开始使用分布式存储了,比如金融系统的数据库。分布式存储具有高扩展、高可靠、高性能的特点。
分布式存储典型应用场景有:
- 应用在在气象、基因、石油等HPC高性能计算场景,这些领域对存储的性能要求高。
- 应用于关键业务数据库,通过高可靠、稳定低时延等企业级能力,保障OLAP(On-Line Analytical Processing,联机分析处理)或OLTP(On-Line Transaction Processing,联机事务处理系统)类关键业务数据库、数据仓库高效稳定运行。
- 应用于互联网数据、在线音频/视频、企业网盘等实时在线业务吞吐量大、热点数据频繁访问的业务,例如金融电子票据影像、双录(录音/录像),医疗影像、政企电子文档和车联网场景存储、备份或归档。
- 应用于大数据分析领域,例如金融大数据分析、运营商日志留存大数据和政务大数据等。
智能无损以太网关键特性
- AI ECN
AI ECN(Artificial Intelligence Explicit Congestion Notification)是一种根据现网流量模型智能地调整无损队列的ECN门限的功能,可以保障零丢包下的低时延和高吞吐,让无损业务达到最优性能。
DCQCN(Data Center Quantized Congestion Notification)目前是RDMA网络应用最广泛的拥塞控制算法,DCQCN只需要可以支持ECN功能的网络设备,其他的协议功能在主机的网卡上实现。DCQCN可以在需要零丢包传输的RDMA网络中保证高吞吐,满足无损业务的高要求。
DCQCN提供的拥塞控制机制,是在转发设备上发现队列拥塞后,由转发设备向接收端发送ECN拥塞标记报文。接收端收到ECN报文后,向发送端发送CNP拥塞通知报文,以通知发送端的网卡降低发包速率。
传统的静态ECN功能需要在转发设备上手工配置ECN的高低门限、ECN的标记概率等参数,对于需要无丢包传输的无损业务,无法使ECN门限适应队列中不断变化的缓存空间,在兼顾时延敏感小流和吞吐敏感大流的情况下尽量避免触发PFC流控。
无损队列的AI ECN功能结合了智能算法,可以根据现网流量模型进行AI训练,对网络流量变化进行预测,及时推理最优ECN门限,并且支持根据现网流量变化实时调整ECN门限,进行无损队列缓存的精确管控,保障整网的最优性能。同时,与队列调度技术配合使用时,无损队列的AI ECN功能可以实现网络中TCP流量与RoCEv2流量的混合调度,保障RoCEv2流量的无损传输的同时实现低时延和高吞吐。
- PFC
PFC(Priority-based Flow Control,基于优先级的流量控制)是一种有效避免丢包的流量控制技术,是无损网络的基础。但当多个设备之间因为环路等原因同时出现拥塞,各自端口缓存消耗超过PFC触发门限值,相互发送PFC反压帧,同时又相互等待对方释放资源时,会导致所有设备上的数据流都永久阻塞,这种网络状态称为PFC死锁。
为了解决PFC死锁的问题,智能无损网络提供了PFC死锁检测和死锁预防功能:
- 死锁检测:通过对PFC死锁进行全程监控,当设备在死锁检测周期内持续收到PFC反压帧时,将不会响应。
- 死锁预防:通过识别易造成PFC死锁的业务流,修改队列优先级,从而预防PFC死锁的发生。