智能无损网络可视化运维
依据智能分析平台iMaster NCE-FabricInsight和全局部署的Telemetry功能,交换机将关键RoCE网络指标上送给iMaster NCE-FabricInsight进行分析,并在前台图形化从带宽利用率、PFC反压帧数、PFC死锁次数、ECN报文数等性能指标进行直观对比,展示使能智能无损相关功能后给RoCE网络和设备带来的收益。
为了采集智能无损网络的设备状态,CloudEngine系列交换机提供了可以向iMaster NCE-FabricInsight推送网络设备的各项高精度性能Metrics数据的Telemetry技术。
Telemetry是一项从物理设备或虚拟设备上远程高速采集性能数据的网络监控技术。相比于传统的网络监控技术,Telemetry通过推模式(Push Mode)高速且实时的向iMaster NCE-FabricInsight推送网络设备的各项高精度性能数据指标,提高了采集过程中设备和网络的利用率。
如图1-3所示,与传统网络监控技术(SNMP-get)相比,Telemetry具有如下优势:
- 通过推模式主动上送采样数据,扩大了被监控节点的规模
在传统网络监控技术中,网管与设备之间是一问一答式交互的拉模式。假设1分钟内需要交互1000次数据才能完成查询过程,则意味着设备解析了1000次的查询请求报文。第2分钟设备将再次解析1000次的查询请求报文,如此持续下去。实际上,第1分钟和第2分钟解析的1000次查询请求报文是一样的,后续设备每分钟都需要重复解析1000次的查询请求报文。查询请求报文的解析需要消耗设备的CPU资源,因此为了不影响设备的正常运行,则必须限制设备被监控节点的数量。
在Telemetry技术中,网管与设备之间采用的是推模式。在第1分钟内,网管向设备下发1000次的订阅报文,设备解析1000次的订阅报文,在解析订阅报文的过程中,设备记录下网管的订阅信息。后续每分钟内,网管不再向设备下发订阅报文,设备根据记录的订阅信息自动且持续的向网管推送数据。这样每分钟都节省了1000次订阅报文的解析,也就节省了设备的CPU资源,使得设备能够被监控更多的节点。
- 通过打包方式上送采样数据,提高了数据采集的时间精度
在传统网络监控技术中,设备每分钟内都要解析大量的查询请求报文,且对于一个查询请求报文只上送一个采样数据。而查询请求报文的解析也需要消耗设备的CPU资源。因此为了不影响设备的正常运行,必须限制网管下发查询请求报文的频度,也就降低了设备数据采集的时间精度。通常来说,传统网络监控技术的采样精度为秒级。
在Telemetry技术中,只有第1分钟设备需要解析订阅报文,其他时间内设备都不需要解析订阅报文,且对于一个订阅报文可以通过打包方式上送多个采样数据,进一步减少了网管与设备之间交互报文的次数。因此,Telemetry技术的采样精度可以达到毫秒级乃至亚秒级。
- 通过携带时间戳信息,提升了采样数据的准确性
在传统网络监控技术中,采样数据中没有时间戳信息,由于网络传输时延的存在,网管监控到的网络节点数据并不准确。
在Telemetry技术中,采样数据中携带时间戳信息,网管进行数据解析时能确认采样数据的发生时间,从而避免了网络传输延迟对采样数据的影响。
在整个此过程前,需要先在交换机上配置Telemetry功能,上报指定的RoCE采样指标,并在iMaster NCE-FabricInsight也设置Telemetry相关参数,接收交换机上报的相关采样数据。我们将在章节智能无损网络可视化运维部署最佳实践中介绍具体的组网和配置命令。