所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1.1 解决方案描述 04

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
日常监控

日常监控

ManageOne运维面提供立体化全景监控功能,运维人员可以对整网的资源、告警、性能、容量使用情况等进行监控,实时了解网元以及ICT资源的健康状态,帮助企业降低IT成本,提升运维效率,提升用户最终体验。

说明:

ManageOne不支持一个主机属于多个主机组的场景。在一个主机属于多个主机组的场景下,查看到的主机或虚拟机数据存在重复的风险。

立体化全景监控包括对象监控和综合监控,监控逻辑结构如图7-26所示。

图7-26 监控逻辑结构

监控逻辑结构说明如表7-5所示。

表7-5 监控逻辑结构说明

监控形式

说明

对象监控

  • 物理设备监控:服务器设备、网络设备、存储设备的告警、拓扑、性能等监控。
  • 资源池监控:计算资源、存储资源、网络资源的容量、性能、负载等监控。
  • 服务监控:ManageOne系统服务以及云服务系统运行的告警、性能等监控。
  • 云服务实例(租户资源)监控:VDC或资源管理租户下的资源实例(计算、存储、网络、安全等)的告警、性能等监控。
  • 租户应用监控:基于应用的资源统计和监控。

综合监控

  • 集中告警监控:系统服务或第三方系统告警的集中监控。
  • 数据中心整体信息监控:对不同区域数据中心的资源、告警、容量等维度的数据进行统计,通过不同的Dashboard页面直观地展示数据中心的整体运行状况。

监控集中告警

集中告警简介

ManageOne运维面集中告警可以集中监控系统服务或第三方系统的告警,快速定位和处理网络已发生的故障,从而保证业务正常运行。集中告警致力于适配不断演进的复杂网络的监控和运维,不仅能支撑传统网络的故障监控与处理,还能对新一代网络进行故障监控,不断缩短故障恢复时长,提升网络运维效率。

逻辑结构

集中告警提供了统一的告警模型,第三方系统可自行开发驱动,通过告警管理提供的接口将告警上报,实现告警的统一管理,逻辑结构如图7-27所示。

图7-27 集中告警逻辑结构
表7-6 集中告警逻辑结构说明

第三方系统

说明

物理设备

通过eSight/ZOHO采集服务器设备、存储设备和网络设备的告警,并上报到ManageOne运维面。

资源池

通过FusionSphere OpenStack采集计算资源池、存储资源池和网络资源池的告警,并上报到ManageOne运维面

云服务

通过服务监控Agent或者Service OM/FusionInsight Manager等系统采集云服务告警,并上报到ManageOne运维面。

处理机制

集中告警提供了3种告警处理机制。告警归并规则帮助用户提高告警的监控效率,告警满处理规则用于当前告警数量的控制,告警转储规则用于数据库存储容量的控制,以免影响系统的性能。集中告警处理机制如表7-7所示。

表7-7 集中告警处理机制

机制

描述

告警归并规则

为帮助用户提高监控、处理告警的效率,告警管理提供了告警归并规则,即将指定字段(网元、定位信息、分组ID、告警ID、原因ID、工程状态)全相同的告警归并成一条告警。该规则仅用于在“当前告警”页面监控和查看告警,且仅对当前告警生效。

具体执行方案如下:

  • 新上报的告警未匹配到符合归并规则的已上报告警,该新上报的告警记作归并告警,其“次数”为1。
  • 当新上报的告警B与已上报告警A符合归并规则,则告警B向告警A归并为一条告警记录,并按照清除状态及发生时间排序。

    若告警A排第一,告警A仍记作归并告警,且归并告警的“次数”加1,告警B记作被归并告警。

    若告警B排第一,告警B记作归并告警,且归并告警的“次数”加1,告警A记作被归并告警。

    在告警列表中,单击告警的“次数”可查看归并告警和被归并告警的详细信息。

  • 若归并告警的状态由未清除变为已清除,则该归并告警转为被归并告警,原有的被归并告警中,按清除状态和发生时间排序,第一条转为归并告警。
  • 若归并告警或被归并告警的状态转为已清除已确认,则将该告警转为历史告警,告警“次数”减1。
  • 当前告警中,与“被归并告警”相对应的状态为“归并告警”,即“归并告警”包含了被归并告警以外的全部当前告警。

告警满处理规则

为了避免当前告警过多影响系统性能,告警管理功能提供了告警满处理规则。当数据库中的当前告警达到30万条时,按以下两条规则将部分告警转为历史告警,直至告警数量恢复到合理的阈值范围。

  • 按照先后顺序依次将“已清除告警”、“已确认未清除的不可自动清除告警”、“已确认未清除的可自动清除告警”及“未清除未确认告警”转为历史告警。
  • 按照时间顺序优先将较早发生的告警转为历史告警。

告警转储规则

为避免告警数据库数据过多,系统每2分钟按以下规则对事件、被屏蔽告警、历史告警数据进行处理:

  • 数据库空间使用率达到80%则按照发生时间顺序以及数据表的类型的顺序(事件、被屏蔽告警、历史告警)将数据库中的数据转储至文件。
  • 转储后的文件超过180天,则会被删除。
  • 转储后的文件大小超过1024MB或者文件总数超过1000个,系统会删除时间较早的文件。

相关概念

网络维护人员通过告警管理来监控、管理系统自身或管理对象上报的告警或事件。告警管理提供了丰富的监控和处理规则,还可以将故障通知给运维人员,帮助高效监控、快速定位和处理网络故障,从而保证业务正常运行。管理对象指接入告警管理的对象或网元。

告警和事件

系统自身或管理对象检测到自身存在异常或正常运行时的重要状态变化,将分别以告警或事件显示在告警管理界面中。告警和事件的定义等信息如表7-8所示。

表7-8 告警和事件

名称

含义

区别

共同点

告警

系统自身或管理对象检测到故障而产生的通知。

  • 告警的产生预示着系统自身或管理对象发生了异常或故障;事件是系统自身或管理对象在正常运行状态下产生的通知。
  • 告警必须要处理,否则会由于这些异常或故障而引起业务的异常;事件不需要处理,用来帮助分析、定位问题。
  • 用户可以在界面上对告警进行确认和清除;用户不能对事件进行确认和清除。

以通知方式提示用户。

事件

系统自身或管理对象在正常运行状态下产生且需要主动提示用户的通知。

告警级别

告警级别用来表示故障的严重程度、重要性和紧迫性,帮助运维人员在大量告警中快速识别告警的重要程度,采取相应的处理策略,您还可以根据需要调整告警的级别。

告警的级别说明如表7-9所示。

表7-9 告警级别

告警级别

代表颜色

说明

处理策略

紧急

已经影响业务,需要立即采取纠正措施。

需要紧急处理,否则有业务中断或系统瘫痪的风险。

重要

已经影响业务,如果不及时处理会产生较为严重后果。

需要及时处理,否则会影响重要业务运行。

次要

目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生。

需要查找告警原因,消除故障隐患。

提示

检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响。

可根据告警了解网络和网元的运行状态,视具体情况进行处理。

告警状态

告警的状态分类如表7-10所示。

表7-10 告警状态分类

状态名称

告警状态

说明

确认状态

已确认、未确认

初始确认状态为“未确认”。当用户已经看到此告警并纳入到处理计划中,此时对告警进行“确认”操作,告警变为“已确认”状态;用户进行“反确认”操作,则告警恢复为“未确认”状态。用户也可以通过配置“自动确认规则”来实现告警自动确认。

清除状态

已清除、未清除

初始清除状态为“未清除”。当引起告警的故障被修复,对应的清除通知自动上报到告警管理系统后,告警状态将变为“已清除”。部分告警修复后,清除通知无法自动上报至告警管理系统,则用户需确认故障修复后手工执行“清除”操作。“已清除”告警的背景色在界面中显示为绿色。

维护状态

正常态、维护态

初始维护状态为“正常态”。因调测产生而非故障产生的告警,可通过配置“标识规则”将其设置为“维护态”。在监控或查询告警时,可通过过滤条件将维护态告警过滤掉,运维人员不用耗费时间关注这类告警。

说明:
  • “正常态”对应的维护状态为“普通”。
  • “维护态”对应的维护状态为“新建”、“扩容”、“升级”或“调测”。

失效状态

有效告警、无效告警

初始失效状态为“有效告警”。对于某些告警,运维人员通过经验判断为无用的告警,可通过配置“标识规则”将其设置为“无效告警”。在监控或查询告警时,可通过过滤条件将无效告警过滤掉,运维人员不用耗费时间关注这类告警。

事件状态

事件的状态分类如表7-11所示。

表7-11 事件状态分类

状态名称

告警状态

说明

维护状态

正常态、维护态

事件的维护状态是固定的,不可通过标识规则设置。在监控或查询事件时,可通过过滤条件将维护态事件过滤掉,运维人员不用耗费时间关注这类事件。

说明:
  • “正常态”的事件在事件日志中的“维护状态”显示为“普通”。
  • “维护态”的事件在事件日志中的“维护状态”显示为“新建”、“扩容”、“升级”或“调测”。

当前告警和历史告警

当前告警和历史告警的说明如表7-12所示。

表7-12 当前告警和历史告警

名称

说明

当前告警

包括:未确认未清除告警、已确认未清除告警、未确认已清除告警。用户可监控当前告警,及时发现故障,并作相应操作,通知给维护人员处理。

历史告警

已确认已清除告警。用户可对历史告警进行分析,优化系统的性能。

告警和事件的类型

用户可以设置告警或事件的某些类型为过滤条件进行查询,以便进行分析、处理。

告警和事件的类型说明如表7-13所示。

表7-13 告警和事件的类型

名称

说明

通信告警

网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败。如:设备通信中断告警。

业务质量告警

业务质量退化问题而引起的告警。如:设备拥塞告警。

处理错误告警

软件或处理过程错误而引起的告警。如:版本不匹配告警。

设备告警

物理资源故障而引起的告警。如:单板故障告警。

环境告警

设备所在地相关的问题而引起的告警。如:硬件温度过高而产生的温度告警。

完整性告警

请求的操作不能正常提供。如:非法的修改、增加和删除用户信息。

操作告警

所需服务因不可用、故障或错误调用等问题无法正常运行。如:服务拒绝、服务退出、程序性错误。

物理资源告警

物理资源受到破坏。如:电缆破损、非法闯入机房。

安全告警

安全服务或机制检测到有关安全方面的问题发生。如:鉴权失败、机密泄露、非法访问。

时间域告警

某事在不应该发生的时间内发生。如:信息延迟、密钥失效、在非授权时间段访问资源。

属性值改变

管理对象的属性值发生变化。如:属性增加、减少和改变。

对象创建

管理对象的实例被创建。

对象删除

管理对象的实例被删除。

关系改变

管理对象的关系属性发生变化。

状态改变

管理对象的状态属性发生变化。

路由改变

路由发生变化。

保护倒换

倒换引起的告警或事件。

越限

当性能指标达到阈值时,上报该类告警或事件。

文件传输状态

文件传输成功/失败后上报该类告警或事件。

备份状态

管理对象的备份状态发生变化。

心跳

发送心跳通知。

监控数据中心整体信息

ManageOne运维面的首页通过不同的Dashboard页面集中展示数据中心的资源、告警、容量及网络状态等信息,通过运维地图页面统一管理运维功能服务并提供统一运维入口。

  • Dashboard

    Dashboard对不同区域数据中心的资源、告警、容量等维度的数据进行统计,以不同的Dashboard页面呈现数据,帮助管理员了解和掌握数据中心的整体运行状况。

    管理员可以根据不同监控指标的特点自定义Dashboard页面,采用匹配的图表类型(如饼图、柱状图等)展示数据中心的关键指标数据,并将Dashboard页面收藏至首页,帮助管理员更加清晰、直观地监控数据中心的运行状态,同时丰富的界面形式能达到更好的展示效果,提升最终用户体验。

  • 运维地图页面

    运维地图为ManageOne不同区域数据中心的告警监控、资源配置、保障分析提供统一的运维功能服务管理入口,支持系统单点登录快速跳转至其他服务系统,支持常用任务的快速访问设置,支持常用任务、运维地图、快速访问的访问统计功能。

    管理员可在运维地图页面自行设置常用任务、第三方系统、运维功能服务的访问链接。通过查看页面的访问统计,获取系统经常访问的运维功能服务,并在运维地图页面为经常访问的运维功能服务添加快捷运维入口,可设置更加快捷有效的运维地图页面。

相关概念

  • Dashboard:是数据可视化的页面,由一个或多个可视化组件组成,展示数据中心度量信息和关键业务指标。可视化组件是Dashboard中的小组件,由图表(包括曲线图、面积图及柱状图等)与各类数据指标组成,展示性能、容量或资源等不同维度的数据信息。
  • 运维地图:ManageOne系统运维功能服务的集中展示界面。

逻辑结构

  • Dashboard

    Dashboard逻辑结构如图7-28所示。

    图7-28 Dashboard逻辑结构

    Dashboard逻辑结构说明如表7-14所示。

    表7-14 Dashboard逻辑结构说明

    Dashboard分类

    说明

    预置Dashboard

    预置Dashboard包括“数据中心总览”、“资源池概览”、“多级云资源总览”、“VDC资源详情”,默认在ManageOne运维面的首页展示。

    • 数据中心总览:展示数据中心的全网物理设备数量,各区域的设备数量、服务器状态、云服务发放统计及资源分配等信息。
    • 资源池概览:展示数据中心全网资源数量,各区域的资源数量、资源分配等信息。
    • 多级云资源总览:展示同一级云中物理设备、资源使用、云服务发放及当前告警总量及分布等信息。
    • VDC资源详情:展示数据中心一级VDC的总体数量,各一级VDC的规模、资源分配等信息。

    自定义Dashboard

    当预置Dashboard不能满足管理员集中监控的需求时,管理员可以创建Dashboard,分析监控数据的特征,配置Dashbord页面的数据和样式,并收藏至首页,满足监控和演示的需求。

  • 运维地图

    运维地图集中展示ManageOne的运维功能服务,通过运维地图的快速访问可直接登录第三方服务系统,通过常用任务可快速进行常用任务处理,通过访问统计可查看运维地图、第三方服务系统、常用任务的访问统计。

    运维地图的原理图如图7-29所示。

    说明:

    常用任务、快速访问、运维服务中的部件均可根据实际运维需求进行设置。

    图7-29 运维地图逻辑结构

    运维地图的逻辑结构如表7-15所示。

    表7-15 运维地图逻辑结构说明

    功能

    说明

    价值

    访问统计

    访问统计统计如下访问信息。

    • 常用任务统计
    • 运维地图统计
    • 快速访问统计

    通过查看访问统计,获取系统经常访问的运维功能服务,并在运维地图页面为经常访问的运维功能服务添加快捷运维入口,可设置更加快捷有效的运维地图页面。

    常用任务

    常用任务用户可根据需要自行设置。

    通过设置常用任务,可将经常用到的运维任务展示在运维地图页面的常用任务区域,方便运维任务的快速操作。

    运维服务

    运维服务默认分为监控、配置、保障三部分内容,用户可根据需要自行设置。

    通过设置运维服务,可将经常用到的运维服务展示在运维地图页面的运维服务区域,方便常用运维服务的快速跳转。

    快速访问

    快速访问的三方系统用户可根据需要自行设置。

    通过设置快速访问,可将经常访问的第三方系统展示在运维地图页面的快速访问区域并为其设置快速跳转链接,方便常用三方系统的快速跳转。

监控物理设备

物理设备是指支持对数据中心服务器设备、存储设备、网络设备以及机房设备进行统一监控管理,提供告警、组件、拓扑和性能等全方位监控能力,帮助运维人员对于硬件问题进行快速定位和故障处理。

物理设备的数据来源包括两部分:

  • 对接系统:物理设备通过接入管理与eSight和ZOHO OPM/ZOHO APM系统对接,周期性从对接系统自动同步基础资源和位置资源。从eSight/ZOHO OPM/ZOHO APM自动同步基础资源,同步周期默认值为180分钟。
  • 自规划:管理员根据自规划,手动添加基础资源和位置资源。

逻辑结构

监控物理设备逻辑结构,如图7-30所示。
图7-30 监控物理设备逻辑结构
  • 物理设备通过接入管理与eSight/ZOHO OPM/ZOHO APM系统对接,周期性自动同步物理设备。从eSight/ZOHO OPM/ZOHO APM自动同步基础资源,同步周期默认值为180分钟。
  • 物理设备的分类和数据来源,如表7-16所示。
    表7-16 物理设备的分类和数据来源。

    物理设备类型

    基础资源类型

    基础资源子类型

    数据来源

    基础资源

    服务器设备

    机架服务器

    eSight/ZOHO OPM/ZOHO APM、自规划

    高密度服务器

    异构计算服务器

    存储型服务器

    第三方服务器

    刀片

    刀片服务器

    KunLun服务器

    网络设备

    交换机

    eSight/ZOHO OPM/ZOHO APM、自规划

    路由器

    防火墙

    负载均衡器

    存储设备

    存储

    eSight/ZOHO OPM/ZOHO APM、自规划

    FC交换机

    机房设备

    机柜

    自规划

  • 物理设备通过自规划,手动添加基础资源,数据中心和机房位置资源。
  • 集中告警、监控配置和资源池,从物理设备获取物理设备数据,进行业务分析。

监控资源池

监控资源池帮助管理员集中监控ManageOne系统下各类资源的总体情况。资源池监控支持对多级云资源、两级云、VRM云、IaaS资源池和大数据资源池资源数据以及性能的实时跟踪并自动生成统计数表,方便管理员提前预测出各资源容量信息的趋势,发现风险并及时规避,保障业务正常运行。

资源池监控内容,如表7-17所示。

表7-17 资源池监控

类型

应用场景

多级云

当需要对多个ManageOne系统进行统一管理时,多级云管理通过接入ManageOne系统并配置ManageOne系统间的逻辑关系实现多云统一管理,汇总不同逻辑位置下的资源数据,从云的维度监控各资源池的规模、容量、资源、性能等统计情况。

IaaS资源池

当需要监控基础容量、云资源负载、资源等信息时,可以通过监控IaaS资源池从区域、资源池、可用分区和集群等不同维度实现资源信息的实时跟踪。

大数据资源池

当需要监控从FusionInsight接入的大数据资源使用情况,以及需要在ManageOne运维面对大数据集群进行同步操作时,可以通过大数据资源池获取集群的实时与历史监控指标,获取服务、主机的各项状态及配置信息,并支持对集群、服务、主机的一系列功能操作。

相关概念

  • 不同云类型的查看维度和图标标识:
    • 私有云:(两级云)、(区域)、(资源池)、(可用分区)、(集群或主机组)。
    • 公有云:(区域)。
  • 资源池所管理的数据包括三类:性能数据、容量数据、资源数据。
  • 私有云:为企业内部单独使用而构建的云主机,是传统数据中心的延伸和优化,能够针对各种功能提供存储容量和处理能力。对数据保密、数据安全、服务质量提供有效控制及保障。最大的特点是安全性与私有化,是订制化解决方案的根本。
  • 公有云:由互联网数据中心(Internet Data Center)或第三方服务商提供应用、存储等资源。有强大的扩展性以及成本低的优势,但对云端的资源缺乏控制力、数据安全性低以及匹配度差。
  • 两级云:通过对接对端的FusionCloud API Gateway的方式在对端FusionCloud上申请资源,满足本数据中心资源不足时,可快速从另一个数据中心借用资源的诉求。
  • 多级云:不同区域、业务的ManageOne云服务系统间通过对接和配置形成的云系统逻辑关系树,能够实现多云的统一管理,从云的维度监控各资源池的规模、容量、资源、性能等统计情况。

逻辑结构

管理员可以通过资源池的逻辑结构介绍,更好的了解多级云统一监控模型,可根据实际运维场景下的业务需求,配置和管理多级云关系。通过了解IaaS资源池的数据来源,以及展示内容,可及时调整资源分配情况,并给出最优的业务策略。

这里以两级警务云为例,其物理模型和对应的多级云逻辑模型,如图7-31所示。

图7-31 资源池监控逻辑结构

物理模型中每一个蓝色矩形代表一个ManageOne运维系统,仅能展示出公安网云(省厅)与若干ManageOne运维系统对接的物理结构。而监控多级云将物理模型转换成一体化的多级云模型,逻辑模型中每一个黄色圆角矩形代表一个云节点。首先自定义建立若干云节点(如:省厅云),再将公安网云(省厅)与若干接入的ManageOne运维系统自定义下挂于各云节点,云节点展示该云节点下各ManageOne运维系统的资源数据,并在云节点展示数据统计及对比。

  • 物理模型:
    • 在第一级云模型中,公安网云(省厅)为上级云,互联网云(省厅)、视频网云(省厅)、公安网云(A市)为接入的下级云。
    • 在第二级云模型中,公安网云(A市)为上级云,互联网云(A市)、视频网云(A市)为接入的下级云。
  • 逻辑模型:
    • 在物理模型的两个上级云(ManageOne运维系统)中分别自定义建立云节点:
      • 在公安网云(省厅)中自定义建立两个云节点:省市一体化云、省厅云。
      • 在公安网云(A市)中自定义建立一个云节点:A市云。
    • 将公安网云(省厅)、互联网云(省厅)、视频网云(省厅)下挂于省厅云节点,且公安网云(省厅)为省厅云节点下的本地云。
    • 将公安网云(A市)、互联网云(A市)、视频网云(A市)下挂于A市云节点,且公安网云(A市)为A市云节点下的本地云。
说明:

ElasticSearch是一个搜索服务器,提供存储、查询和计算数据的能力。

监控云资源

云资源监控主要从计算、存储、网络、数据库及安全五个方面实时监控数据中心云资源使用情况,收集各个云资源模块的监控指标,探测资源模块的可用性,使得管理员全面了解云上资源的当前情况,进而分析出业务的运行状况和健康度,并及时响应异常报警,保证应用程序顺畅运行。

逻辑结构

云资源监控通过ManageOne运维面、FusionSphere、云服务、集中告警、监控配置等系统对接,获取到当前数据库中所有资源的相关信息以及资源实例,并从计算、存储、网络、数据库及安全五种资源类型的视角查看各资源信息和状态。

云资源监控逻辑结构,如图7-32所示。

图7-32 云资源监控逻辑结构
云资源监控的信息获取来源,如表7-18所示。
表7-18 云资源可展示的资源类型

资源类型

资源子类

计算资源

弹性云服务器、裸金属服务器、镜像

存储资源

云硬盘

网络资源

虚拟私有云、弹性IP、弹性负载均衡、虚拟专有网络、带宽

数据库资源

关系型数据库、Oracle数据库

安全资源

虚拟防火墙、数据库安全服务

监控VDC

VDC监控从租户维度集中管理VDC资源,管理员在进行日常维护或处理用户请求时,可按照需求进行资源查询,帮助用户合理使用资源。能够集中了解VDC下资源统计结果、资源详情、资源间的关联关系和资源拓扑等信息。管理员还可以通过VDC监控各级VDC资源的运行状况,根据资源拓扑、性能指标和告警信息,评估资源是否异常。支撑管理员维护VDC,提升资源使用率。

相关概念

VDC:即虚拟化数据中心(Virtual Data Center),是将云计算概念运用于互联网数据中心(Internet Data Center,IDC)的一种新型的数据中心形态。VDC是与企业与组织层级关系相匹配的资源分配单元,系统为每个租户默认创建一个一级VDC,VDC内能够完成用户管理、配额管理、项目管理、产品定义、资源发放、服务保障等功能。

逻辑结构

VDC监控通过ManageOne运维面获取到VDC信息和租户信息,通过与FusionSphere、云服务等系统对接,获取到资源的相关信息,集中、统一地监控VDC资源。

VDC监控逻辑结构,如图7-33所示。

图7-33 VDC监控逻辑结构

VDC监控的信息获取来源,如表7-19所示。

表7-19 VDC获取信息来源

资源来源

获取信息

ManageOne运维面

获取VDC信息和租户信息。

VDC信息来自ManageOne运维面,管理员需要按照各级VDC对资源进行监控。

FusionSphere

获取虚拟化资源实例信息。

云服务

获取云服务资源实例信息。

支持的云服务包括:弹性云服务器、裸金属服务器、镜像、云硬盘、虚拟私有云、弹性IP、弹性负载均衡、虚拟专有网络、带宽、关系型数据库、Oracle数据库、虚拟防火墙和数据库安全服务等。

集中告警

获取告警信息。

监控配置

获取性能信息。

监控租户应用

租户应用从应用的视角来监控接入的服务资源,准确衡量大数据平台提供服务的质量,对应用资源的使用情况进行持续的评估,及时发现服务运行过程中的异常,保障服务运行的稳定性。

逻辑结构

租户应用的逻辑结构,如图7-34所示。

图7-34 租户应用逻辑结构
逻辑结构说明,如表7-20所示。
表7-20 租户应用逻辑结构说明

分类

说明

存储数据

租户在FusionInsight申请到服务后,将各服务的数据存储在ElasticSearch服务器中。

上报数据

ElasticSearch服务器将大数据资产的使用情况及时上报到租户应用,对各服务的数据资产进行持续监控。

提供标签

标签管理为大数据应用提供标签,方便管理员在大数据应用管理下对用户数据关联标签,进而从分类的标签下监控租户所使用的大数据资产信息。

说明:

ElasticSearch是一个搜索服务器,提供存储、查询和计算数据的能力。

相关概念

HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。

LibrA:是企业级的大规模并行处理关系型数据库。

Hive:是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。

监控云服务系统

服务监控对ManageOne系统服务以及云服务运行时的节点性能指标和进程性能指标进行实时监控,记录服务运行时节点和进程关键性能指标的变化趋势,提示服务运行时的告警信息,通过对服务、节点、实例等不同维度的监控呈现出所监控服务运行节点和进程的详细监控数据,帮助管理员及时预防潜在的服务运行风险。

相关概念

  • 节点:节点是网络服务器上划出的具有一定磁盘空间且具有唯一IP的主机或容器等单元。
  • 实例:实例是针对应用场景和监控需求配置的单一节点上的被监控单元。例如,某一节点和某一监控模板的关联即可组成一个监控实例。每个监控实例有多个进程。

逻辑结构

当需要对ManageOne系统服务和接入ManageOne系统的云服务的节点性能指标和进程性能指标进行监控时,管理员可为要监控的服务创建服务监控任务,配置服务监控指标模板,并通过查看服务监控数据了解各监控对象的告警信息、各项性能指标及其变化趋势,迅速发现异常现象并采取相应的措施,保障服务的正常运行。

服务监控的逻辑结构如图7-35所示。

图7-35 服务监控逻辑结构

服务监控的逻辑结构说明如表7-21所示。

表7-21 服务监控逻辑结构说明

功能

说明

价值

创建服务监控任务

创建服务监控任务需要配置如下信息。

  • 服务基本信息
  • 服务运行节点
  • 服务监控模板
  • 宏变量

管理员通过为需要监控的服务创建服务监控任务,配置服务监控指标模板,来实现对服务运行节点和进程的性能指标监控。

配置监控模板阈值

监控模板由系统提供,用户只能依据不同模板的监控指标进行模板选择,不能自行创建模板。

管理员可对监控模板中的告警阈值进行设置。

查看服务监控信息

可以查看的监控信息如下。

  • 概览信息
  • 监控指标
  • 告警信息

管理员通过查看所监控服务的信息概览、告警信息、监控指标变化趋势,可对服务运行的健康状态做出判断,提前进行风险规避,提高主动运维能力。

翻译
下载文档
更新时间:2019-10-23

文档编号:EDOC1100063195

浏览量:18853

下载量:1458

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页