HPC 22.0.0 用户指南 11
多瑙调度器
Donau Scheduler调度器是HPC软件栈中的核心组件,它主要功能是管理用户的集群资源,对接用户的业务,把用户的业务所产生的计算任务按照一定的规则调度到合适的集群资源上执行。
Donau Scheduler调度器主要提供以下能力:
- 支持串行、并行、数组、交互式、阻塞式、工作流等多种类型的作业提交、调度、执行及各种管理操作。
- 支持集群资源收集、上报和管理。
- 提供FIFO、公平、资源借用、抢占、回收、全局优先级、作业独占节点等多种调度策略,端到端作业吞吐量达到400万/小时。
- 目前规模上单集群最多支持38万Cores,计算节点最多支持3000台,资源利用率可达90%。
- 支持大批量作业实时调度,支持瞬时大规模作业(1500~2000个/秒)同时提交;支持脚本化提交作业。
- 支持多维度资源调度,例如CPU、Memory、GPU等。
- 支持自定义资源和标签的调度。
- 支持用户、队列、组织、集群和Limit级别的QoS管理。
- 支持用户、队列、组织、资源池、资源池策略以及Limit资源限制策略的在线化配置。
禁止用户人为删除Ignite和数据库中的数据记录,否则由此可能产生的后果,由用户自行承担。
- 相关概念
- 快速入门
- License管理
License管理介绍License的使用场景,以及获取ESN、上传License、激活License、去激活License、查询License和配置License有效期检查。 - 作业调度管理
作业调度管理主要介绍调度周期,包括资源分配阶段、资源调度阶段等,以及相关调度策略的配置。 - 资源限制策略
通过本节了解资源限制策略的作用,以及如何配置及查询限制策略。 - 作业生命周期管理
作业生命周期管理主要包括作业提交、作业查询、作业控制等功能,用户可以按照如下章节进行操作。详细命令选项,可参见 章节。 - 节点信息管理
支持用户使用Donau Scheduler CLI提供的dnode命令进行节点信息管理的操作。节点信息管理共分为:资源管理、标签管理、节点控制及节点查询。其中节点控制必须和提交comment配合使用,无法单独使用。 - 作业队列管理
管理员在用户提交作业前可创建队列,包括队列优先级、支持的作业类型等相关信息,用户可将作业提交至指定队列。 - 组织管理
Donau Scheduler支持配置组织树及策略,调度器会实时基于负载按照策略动态地将集群中可用资源分配给各个组织和用户。建议组织与策略配置的用户结构完全一致,即defaultUserxxx、namedUserxxx和othersUserxxx结构一致。其中namedUserxxx中指定用户需一致,weight值可配置不同。 - 用户管理
通过用户配置,可定义了指定用户作业默认提交的队列、组织及其作业数量限制,若未指定用户,则以默认配置为准。 - 热配置项管理
Donau Scheduler支持部分参数的热配置,可以在不重启服务的情况下通过CLI命令行实现配置项的管理,避免频繁重启服务导致系统易用性降低。 - 角色管理及授权
在实际业务中,CLI超级管理员需要根据使用Donau Scheduler的业务场景和业务需求规划,对角色进行管理。为角色赋予特定权限,并授予指定CLI用户或用户组。 - 集群管理
Donau Scheduler集群为了保证用户服务质量的需求建议并发用户数<=100,活跃用户数<=200。其中并发用户数是指同一个时间段内允许同时提交请求的用户数。 - MPI并行作业
Donau Scheduler支持端到端调度MPI应用作业,主要涉及Donau Scheduler命令行工具、Donau Scheduler Master(包括Superior Scheduler Engine)、Donau Scheduler Agent(包括taskmaster)三个模块。 - 故障管理
为了提高Donau Scheduler的可靠可用性,故增加故障告警管理相关的能力。 - 作业数据传输
通过本节了解数据传输作用,以及如何安装、配置及提交作业。 - 应用License资源调度
HPC将应用软件License看做一种集群共享资源进行调度,分为Remote License和Local License两种类型。