关键技术
基于Telemetry的数据采集
Telemetry是一项从物理设备或虚拟设备上远程高速采集性能数据的网络监控技术,Telemetry的出现使得iMaster NCE-CampusInsight可以管理更多的设备,为网络问题的快速定位、网络质量优化调整提供了重要的大数据基础,它将网络质量分析转换为大数据分析,有力地支撑了智能运维。如图1-21所示,Telemetry通过推模式(Push Mode)高速且实时地向采集器推送网络设备的各项高精度性能数据指标,提高了采集过程中设备和网络的利用率。
相比于传统的网络监控技术,Telemetry具有如下优势。
- 通过推模式主动上送采样数据,扩大了被监控节点的规模
在传统网络监控技术中,网管与设备之间是一问一答式交互的拉模式。假设1 min内需要交互1000次数据才能完成查询过程,则意味着设备解析了1000次的查询请求报文。第2分钟设备将再次解析1000次的查询请求报文,如此持续下去。实际上,第1分钟和第2分钟解析的1000次查询请求报文是一样的,后续设备每分钟都需要重复解析1000次的查询请求报文。查询请求报文的解析需要消耗设备的CPU资源,因此为了不影响设备的正常运行,则必须限制设备被监控节点的数量。
在Telemetry技术中,网管与设备之间采用的是推模式。在第1分钟内,网管向设备下发1000次的订阅报文,设备解析1000次的订阅报文,在解析订阅报文的过程中,设备记录网管的订阅信息。后续每分钟内,网管不再向设备下发订阅报文,设备根据记录的订阅信息自动且持续地向网管推送数据。这样每分钟都节省了1000次订阅报文的解析,也就节省了设备的CPU资源,使得设备能够被监控更多的节点。
- 通过打包方式上送采样数据,提高了数据采集的时间精度
在传统网络监控技术中,设备每分钟内都要解析大量的查询请求报文,且对于一个查询请求报文只上送一个采样数据。而查询请求报文的解析也需要消耗设备的CPU资源。因此为了不影响设备的正常运行,必须限制网管下发查询请求报文的频度,也就降低了设备数据采集的时间精度。通常来说,传统网络监控技术的采样精度为分钟级。
在Telemetry技术中,对于一个订阅报文可以通过打包方式上送多个采样数据,进一步减少了网管与设备之间交互报文的次数。因此,Telemetry技术的采样精度可以达到亚秒级乃至毫秒级。同时要维持高精度的数据展示,就需要大量的数据上报,就会占用网络的出口带宽,基于Telemetry的智能运维数据上报,支持传输报文的压缩,采用高性能的压缩算法,减少报文的数据量,降低对网络出口带宽的占用。
- 通过携带时间戳信息,提升了采样数据的准确性
在传统网络监控技术中,采样数据中没有时间戳信息,由于网络传输时延的存在,网管监控到的网络节点数据并不准确。在Telemetry技术中,采样数据中携带时间戳信息,网管进行数据解析时能通过时间戳信息来确认采样数据的发生时间,从而避免了网络传输延迟对采样数据的影响。
基于eMDI的音视频质量感知
网络中如果有20个员工正在视频会议中,突然有一个用户持续出现卡顿,事后员工可能会进行投诉、抱怨,公司网络太差了,看个视频不停的出现卡顿,影响和客户的交流。网络运维人员接到投诉后,网络卡顿现象已经不存在了,通过对当时的场景进行回访或者数据查询,发现大多数人看视频都没问题,为何只有个别出现异常,需要调用历史数据进行分析,查看丢包,耗时久,而且问题不一定能够定位。如果有对视频的实时监控,同时做历史记录,则可以快速查找到当时的情况,定位出问题发生的时间点、相关设备数据,可以快速定位问题,解决问题。
华为智简园区网络方案中,针对上述视频异常的问题,实现了一套音视频监控系统,通过一定的算法在网络设备中对音视频节目进行统计计算,计算出音视频节目的质量指标,从而实现音视频的应用展示,可以帮助运维人员快速查看音视频应用的指标,对异常进行快速发现、并对网络进行修复。
音视频帧报文简介
在介绍音视频质量监控技术之前,首先要了解一些概念。
I帧、P帧和B帧:当前音视频压缩编码主要采用MPEG/H.26x标准。每一段视频其实是由一系列连续的图像帧组成的,在MPEG/H.26x标准中视频压缩编码定义视频流主要由I、P、B三种帧组成。I帧含有所在图像所有的信息,采用帧内编码恢复自身图像;P帧是前向预测帧,根据前一个I帧或者P帧结合算法恢复自身图像;B帧是双向预测帧,根据前一个I帧或者P帧和后一个I帧或者P帧恢复自身图像。
媒体流报文格式:以常用的MPEG-2标准为例,其报文格式如下图。每个帧一般采用一个PES(Packetized Elementary Stream,打包后的基本码流)头封装,在PES头中会记录该帧在视频播放时呈现的时间;每个PES包按照TS(Transport Stream,传输流)帧来切割和封装,一个TS帧为188 byte(包括4 byte帧头),TS头中包括TS序列号,基于TS序列号可以计算帧丢包率;MPEG-2一般采用UDP承载,基于RTP(Real-Time Transport Protocol,实时传输协议)封装,RTP头中包括RTP序列号,基于RTP序列号可以计算IP丢包率。
RTP定义于RFC 1889,用来为IP网上的语音、图像、传真等多种需要实时传输的多媒体数据提供端到端的实时传输服务。一般来说,RTP是承载在UDP上面的。RTP报文头包括两个关键字段:每个分组的序号和时间戳。
TS是根据ITU-T(International Telecommunication Union-Telecommunication Standardization Sector,国际电联电信标准化部门) Rec.H.222.0/ISO/IEC 13818-2 和ISO/IEC 13818-3协议定义的一种数据流,一般用于音视频流的存储和传送,码流信息中会包含时间标记、系统控制等。
eMDI技术介绍
业界基于真实音视频业务检测技术的主要有VMOS(Video Mean Opinion Score,视频主观平均得分)、MDI(Media Delivery Index,媒体传输质量指标)、eMDI。
eMDI是在MDI基础上的增强。相较于早先的两种音视频质量监控技术VMOS、MDI,降低了报文解析开销;针对UDP承载的音视频业务,在FEC/RET(Retransmission,主动请求重传)补偿机制下提出了有效丢包因子,来准确刻画丢包对音视频业务的影响,提高定界准确性;支持针对TCP承载的音视频业务进行质量监测,通过分析TCP的序列号等信息,计算出TCP流上下游的丢包率、时延等信息,从而进行故障定界。
eMDI监控指标的统计由监控实例实现。监控实例是eMDI收集监控指标的基本单位,每个监控实例由目标流、监控周期、监控时间和告警阈值四个要素组成。eMDI按一定的监控周期从设备上获取监控指标,并将获取到的监控数据周期性地上送到iMaster NCE-CampusInsight。eMDI支持对UDP或TCP承载的业务进行实时的质量监控和故障定位。
监控指标 |
说明 |
计算方法 |
---|---|---|
MFR |
统计周期内平均比特速率 |
MFR = 周期内收到的报文长度之和 / 实际有效流时间,单位为Kbit/s |
UPLR |
统计周期内监控点上游丢包率 |
在无丢包的情况下,当前发送的报文的序列号加上报文长度等于下一个报文的预期序列号。当报文序列号大于预期的序列号时,可判断上游发生丢包,丢包个数可根据平均报文大小计算。 UPLR = 上游丢包数 / (接收到的总包数 + 总丢包数) |
DPLR |
统计周期内监控点下游丢包率 |
在无丢包的情况下,当前发送的报文的序列号加上报文长度等于下一个报文的预期序列号。当报文序列号小于预期的序列号时,判断为重传报文。重传报文数可认为是总丢包数。 下游丢包数 = 总丢包数 - 上游丢包数 DPLR = 下游丢包数 / (接收到的总包数 + 总丢包数) |
DRTT |
统计周期内监控点下游平均双向时延 |
DRTT = T2 – T1 任意挑选接收的非重传报文,记录当前的时间戳为T1,并根据序列号和报文长度计算出下一个报文的预期序列号。当下游设备发送的上行报文的序列号大于或等于预期的序列号时,记录当前的时间戳为T2 |
eMDI技术在园区音视频监控中的应用
园区网络中部署了基于eMDI检测技术的音视频质量感知功能,可以实时检测到基于SIP(Session Initiation Protocol,会话初始化协议)+RTP的音视频流,在园区网络中基于全流程的显示音视频流的质量感知,实时探测音视频的会话建立与结束,自动启用音视频质量分析及结果展示,并针对音视频质量差的会话进行根因分析,帮助运维人员识别音视频业务的网络问题,然后进行故障定位。
如图1-23所示,基于eMDI技术识别质差音视频流并进行故障定位的过程如下:
- 首先,在接入交换机SwitchA和AP上配置音视频服务体验分析功能,并开启向iMaster NCE-CampusInsight上报音视频性能数据的采集开关。
- SwitchA和AP检测到音视频流量,会向iMaster NCE-CampusInsight上报音视频性能数据。
- iMaster NCE-CampusInsight对上报的音视频性能数据进行分析,识别出质差音视频流。
- iMaster NCE-CampusInsight根据质差音视频流的五元组,向iMaster NCE-Campus请求检测质差音视频流的路径。
- iMaster NCE-Campus向站点所有设备下发质差音视频流路径检测,最终获取跟踪路径。
- iMaster NCE-CampusInsight获取路径信息,请求iMaster NCE-Campus向跟踪路径上的设备(SwitchA~SwitchD)下发eMDI实例检测。
- iMaster NCE-Campus向跟踪路径上的设备下发eMDI实例检测。
- 跟踪路径上的设备将质差音视频流的性能数据上报到iMaster NCE-CampusInsight,进行故障分析和定位。