原理描述
告警和事件管理
当iMaster NCE-Campus自身存在故障及潜在隐患,或者所管理的设备、业务、系统以及与周边系统的连接情况存在故障及潜在隐患时会产生告警,用户可以通过告警管理功能实时了解告警信息,并通过告警的详情和处理建议及时排障,保障业务的正常运行。
iMaster NCE-Campus支持设置设备告警阈值,如CPU内存等,当设备达到阈值时,向iMaster NCE-Campus上报告警。
告警和事件
系统自身或管理对象检测到自身存在异常或正常运行时的重要状态变化,将分别以告警或事件显示在告警管理界面中。告警和事件的定义等信息如表4-1所示。
告警分类
按告警来源,iMaster NCE-Campus可管理的告警分为控制器告警和设备告警,如表4-2所示。
告警来源 |
说明 |
管理者 |
---|---|---|
控制器告警 |
由iMaster NCE-Campus自己产生的告警,包括:
|
系统管理员 |
设备告警 |
设备上报到iMaster NCE-Campus的告警和事件。 |
租户管理员 |
按处理状态,告警分类如表4-3所示。
类别 |
说明 |
---|---|
当前告警 |
包括未确认未清除告警、已确认未清除告警、未确认已清除告警。 说明:
部分告警无法自动清除,需要在告警界面手工清除。 |
历史告警 |
指已确认已清除告警。 |
屏蔽告警 |
用户可以屏蔽无需关注的告警信息,被屏蔽的告警则移到“屏蔽告警”列表中显示,后续再有此类告警时,也不会再出现在“当前告警”列表中。 |
事件 |
级别最低的一种告警,起到信息或提示的作用,标识这件事情发生。与故障告警相比,事件告警级别比较低,无需处理。 |
几种告警的关系如图4-1所示。
告警状态
告警的状态分类如表4-5所示。
告警和事件的类型
用户可以设置告警或事件的某些类型为过滤条件进行查询,以便进行分析、处理。
告警和事件的类型说明如表4-6所示。
名称 |
说明 |
---|---|
通信告警 |
网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败而引起的告警。如:设备通信中断告警。 |
业务质量告警 |
业务质量退化问题而引起的告警。如:设备拥塞告警。 |
处理错误告警 |
软件或处理过程错误而引起的告警。如:版本不匹配告警。 |
设备告警 |
物理资源故障而引起的告警。如:单板故障告警。 |
环境告警 |
设备所处环境出现问题而引起的告警。如:硬件温度过高而产生的温度告警。 |
完整性告警 |
请求的操作不能正常提供。如:非法的修改、增加和删除用户信息。 |
操作告警 |
所需服务因不可用、故障或错误调用等问题无法正常运行而引起的告警。如:服务拒绝、服务退出、程序性错误。 |
物理资源告警 |
物理资源受到破坏而引起的告警。如:电缆破损、非法闯入机房。 |
安全告警 |
安全服务或机制检测到有关安全方面的问题发生。如:鉴权失败、非法访问。 |
时间域告警 |
某事在不应该发生的时间内发生。如:信息延迟、密钥失效、在非授权时间段访问资源。 |
属性值改变 |
管理对象的属性值发生变化。如:属性增加、减少和改变。 |
对象创建 |
管理对象的实例被创建。 |
对象删除 |
管理对象的实例被删除。 |
关系改变 |
管理对象的关系属性发生变化。 |
状态改变 |
管理对象的状态属性发生变化。 |
路由改变 |
路由发生变化。 |
保护倒换 |
倒换引起的告警或事件。 |
越限 |
当性能指标达到阈值时,上报该类告警或事件。 |
文件传输状态 |
文件传输成功/失败后上报该类告警或事件。 |
备份状态 |
管理对象的备份状态发生变化。 |
心跳 |
发送心跳通知。 |
当前告警和历史告警
当前告警和历史告警的说明如表4-7所示。
告警内部处理流程
告警内部处理流程是指告警上报至告警管理后,告警管理对告警的内部处理流程,包括进行屏蔽、相关性分析、级别重定义等操作。
告警内部处理流程如图4-2所示。
告警内部流程说明请参见表4-8。
操作 |
说明 |
---|---|
名称重定义 |
告警管理接收到告警后,首先根据名称重定义规则对告警进行匹配,修改符合规则的告警名称。 |
告警屏蔽 |
将符合屏蔽规则的告警丢弃(不进入数据库)或记录在被屏蔽告警数据表中,不再进行后续的告警预处理。 |
闪断/振荡(预处理) |
将符合闪断/振荡规则条件的告警记录在闪断/振荡数据表中,不再进行后续的告警预处理。 |
告警变更 |
根据上报的变更告警,更新当前告警信息,例如清除告警、修改级别等。 |
级别和类型重定义 |
将符合级别和类型重定义规则的告警进行重定义处理。 |
相关性分析 |
根据相关性规则将符合条件的告警标记为根源/衍生告警,并根据规则中的动作对根源/衍生告警进行处理。 |
自动确认 |
将符合自动确认规则的告警进行自动确认,自动确认后的告警记录在历史告警数据表中。 |
入数据库 |
经过以上步骤处理的告警记录到数据库中。告警预处理中被屏蔽告警或转历史的告警将不会进行告警后处理,直接实时通知。 |
闪断/振荡(后处理) |
对闪断/振荡数据表中的告警进行分析,将符合闪断/振荡策略的告警进行处理。 |
告警归并 |
将符合归并条件的告警进行归并。 |
实时通知 |
实时刷新告警界面中的告警信息。 |
告警转储
为避免告警数据库数据过多,系统根据配置的条件对事件和历史告警数据进行转储,远程SFTP使能情况下将告警转储到远程SFTP Server。
- 服务器每四小时进行一次转储检测。
- 转储触发条件为:数据存储超过设定时间。
- 远程SFTP使能情况下,每5M(上限)数据打包、压缩后上传到远程SFTP Server。
- 单次转储终止条件为:所有超期数据全部转储完毕。
- 转储只针对历史告警和事件,当前告警不参与转储。
告警转储文件格式
- 历史告警:192.168.3.4_AcHistoryAlarmEntity_2017_11_10_11_26_20.zip
- 历史事件:192.168.3.4_AcEventEntity_2017_11_10_11_26_20.zip
日志管理
在iMaster NCE-Campus系统运行过程中,iMaster NCE-Campus可以记录系统管理操作和自身运行产生的日志,便于审计和问题定位。
日志类型
iMaster NCE-Campus所记录的日志类型如表4-9、表4-10和表4-11所示。
日志类型 |
记录的数据范围和目的 |
---|---|
操作日志 |
由用户或者iMaster NCE-Campus触发的所有增加、修改、删除的操作,便于审计。 |
安全日志 |
用户帐号的相关操作。如:登录、退出iMaster NCE-Campus、帐号密码修改等,便于审计。 |
运行日志 |
记录在iMaster NCE-Campus运行、任务执行过程中的各种状态信息。当iMaster NCE-Campus发生异常时,便于工程师和管理员进行问题定位。 |
未纳管设备注册日志 |
记录当前未被iMaster NCE-Campus纳入管理的设备注册日志,包括设备首次注册时间、最后一次注册时间和注册次数。 |
日志类型 |
记录的数据范围和目的 |
---|---|
操作日志 |
由用户或者iMaster NCE-Campus触发的所有增加、修改、删除的操作,便于审计。 |
安全日志 |
与用户帐号的相关操作。如:登录、退出iMaster NCE-Campus、帐号密码修改等,便于审计。 |
日志类型 |
记录的数据范围和目的 |
---|---|
操作日志 |
由用户或者iMaster NCE-Campus触发的所有增加、修改、删除的操作,便于审计。 |
安全日志 |
与用户帐号的相关操作。如:登录、退出iMaster NCE-Campus、帐号密码修改等,便于审计。 |
Portal上下线日志 |
Portal认证用户上下线日志,用于管理Portal认证用户。 |
设备上下线日志 |
租户管理员通过上下线日志来获取设备的上下线情况,便于进行设备的管理和维护。 |
RADIUS上下线日志 |
RADIUS认证用户上下线日志,用于管理RADIUS认证用户。 |
HWTACACS日志 |
HWTACACS认证用户上下线日志,用于管理HWTACACS认证用户。 |
日志级别说明
日志级别用于标识一条日志的严重程度,日志级别共分8级,如表4-12所示。
日志超限转储
安全、操作、运行日志转储
iMaster NCE-Campus所有的日志都保存在数据库中。为了避免过多历史数据影响数据库性能,服务器每四小时检查一次历史日志,当日志数量超过转储阈值或数据保留天数时,当某种类型的日志满足其中一个条件时,系统会将较早的数据临时保存到iMaster NCE-Campus主节点的本地磁盘上,直到数据库中该类型日志数据量低于阈值且无过期日志。如果本地磁盘上的转储文件超过本地保留容量或本地保留天数时,iMaster NCE-Campus将自动删除较早的转储文件。为了方便用户查看全量的日志文件,建议开启数据溢出转储功能。开启数据溢出转储功能后,从数据库新生成到本地磁盘上的临时转储文件会自动转储到远端SFTP服务器上,用户可以到SFTP服务器上查看日志文件。
日志转储文件名示例:
- 安全日志:10.170.209.91_SecurityLog_Store_2019_06_08_01_07.zip
- 操作日志:10.170.209.91_OperationLog_Store_2019_06_08_01_07.zip
- 运行日志:10.170.209.91_SystemLog_Store_2019_06_08_01_07.zip
- 文件名中的10.170.209.91表示转储日志的集群节点IP地址,2019_06_08_01_07为日志文件转储时间,以实际时间为准。
- 如果转储过程中发生失败,iMaster NCE-Campus会产生对应的告警信息。请根据告警建议进行相应的处理。
用户管理
用户只有使用用户帐户,才能对iMaster NCE-Campus进行管理。对用户的管理就是对用户帐户和权限的管理。
用户类型
iMaster NCE-Campus根据用户层级划分,可以将用户划分:
帐户类型 |
创建帐号方式 |
帐户说明 |
应用场景 |
---|---|---|---|
系统管理员 |
admin |
“admin”是默认的系统管理员,具有最高权限。 |
具有系统管理员最高权限 |
系统管理员创建的子帐号 |
系统管理员可以创建多个子帐号,通过角色为每子帐号分配不同的权限,即分权。 |
分权 |
|
系统管理员创建的工作组管理员帐号 |
系统工作组管理员帐号和系统管理员直接创建的帐号功能类似,通过角色为每子帐号分配不同的权限,即分权。 |
分权 |
|
MSP管理员 |
系统管理员创建的根MSP管理员 |
系统管理员创建的MSP管理员为根MSP管理员,具有MSP最高权限。 |
具有MSP管理员最高权限 |
MSP管理员创建的MSP子帐号 |
根MSP管理员可以创建多个子帐号,通过角色为每子帐号分配不同的权限,即分权。 |
分权 |
|
MSP管理员创建的工作组管理员帐号 |
MSP工作组管理员可以为不同的租户工作组进行业务代维。 租户管理员可以创建工作组,并为不同工作组管理员设置不同的权限,并将此工作组管理员权限反授权给MSP工作组管理员。 MSP工作组管理员使用代维方式为租户业务进行代维时,只具有租户工作组所授权的权限。 |
租户管理员需要将指定权限反授权给MSP管理员,使MSP工作组管理员只有指定的代维权限。 |
|
租户管理员 |
MSP管理员创建的租户管理员 |
MSP管理员创建的租户管理员为根租户管理员,具有租户最高权限。 |
具有租户管理员最高权限 |
租户管理员创建的租户子帐号 |
根租户管理员可以创建多个子帐号,通过角色为每子帐号分配不同的权限,即分权。并且可以为每个子帐号分配管理的站点,即分域。 |
分权分域 |
|
租户管理员创建的工作组管理员帐号 |
租户管理员可以创建工作组,并为不同工作组管理员设置不同的权限,并将此工作组管理员权限反授权给MSP工作组管理员。 MSP工作组管理员使用代维方式为租户业务进行代维时,只具有租户工作组所授权的权限。 |
租户管理员通过反授权,将指定工作组的权限授权给MSP工作组管理员进行代维。 |
对于新创建的帐号,建议选择“首次登录修改密码”,首次登录iMaster NCE-Campus时,根据系统提示修改密码,并按密码策略定期修改。
用户角色
为了对用户的权限进行控制,iMaster NCE-Campus定义了不同的用户角色。在创建帐号时,需要指定具体的用户角色。iMaster NCE-Campus内置了缺省角色,详细信息请参见表4-14。
如果缺省角色不满足需求,管理员可以自己创建角色并为角色分配权限。
系统管理员 |
缺省角色 |
角色介绍 |
---|---|---|
系统管理员 |
System Administrator |
系统管理员角色,拥有云平台服务器、集群监控、集群告警和操作系统业务及相关配置功能。 |
Operator |
操作员角色,管理系统业务运行。 |
|
Open Api Operator |
北向第三方系统调用控制器的北向接口时,需要使用该角色的帐号进行认证。 |
|
MSP管理员 |
MSP Administrator |
MSP管理员角色,操作管理业务及相关配置。 |
Operator |
操作员角色,管理系统业务运行。 |
|
Open Api Operator |
开放接口操作员角色,拥有开放接口业务和相关配置的使用权限。 |
|
租户管理员 |
Monitor |
监控员角色,拥有租户业务和相关配置的查看权限。 |
Open Api Operator |
开放接口操作员角色,拥有开放接口业务和相关配置的使用权限。 |
|
Tenant Administrator |
租户管理员角色,操作租户业务和相关配置。 |
|
Operator |
操作员角色,管理系统业务运行。 说明:
如果是V300R019C00之前版本注册的租户管理员,没有Operator角色。 |
业务质量监控
iMaster NCE-Campus可以对站点(站点内链路、应用)、站点间(站点间链路、应用)、全网(应用)进行健康状况、通信质量、流量和应用等信息的监控和数据统计。
健康状况
通过监控站点的健康得分显示站点的健康状况。根据站点内设备和链路的状况综合给出站点的健康得分。
通信质量
通信质量主要监控如下几个指标:
- 链路质量指标(LQM):通过链路上的时延、抖动、丢包率,综合计算得出。
- 应用质量指标(AQM):针对应用的时延、丢包率,综合计算得出。
时延(单位:ms):时延=WAN时延+服务器时延。
通信质量数据刷新频率为1分钟。
流量
流量主要监控如下几个指标:
- 流量(单位:MB):表示站点内上行流量和下行流量的总和。
- 容量(单位:Mbit/s):站点的上下行容量分别为站点所有物理链路的上行带宽之和、下行带宽之和,仅用于统计站点上下行带宽利用率,并非站点的传输能力。
- 吞吐量(单位:bps/pps/Bps):即速率,表示某一时间段内的平均速率。吞吐量=上行流量和下行流量的总和/时间段。
- 带宽利用率=吞吐量/容量
针对同物理接口同时绑定多条链路时,只计算其中一条链路的带宽容量。针对主备链路,只计算主链路的带宽容量。
流量数据刷新频率为5分钟。
应用
应用是网络数据报文所属应用程序,例如Facebook。业务质量监控时,可以基于应用监控网络通信质量。