跳到主要内容

算力管理

算力管理模块是 CSGHub 管理后台的核心功能之一,旨在为管理员提供全局算力资源的监控、规格定义、集群与节点维护以及任务调度管理能力。

1. 概览

概览页面是全局算力的“健康大盘”,提供实时资源利用率和系统状态的直观展示。

  • 多维展示:支持按全域或单个区域(机房)筛选查看。
  • 核心指标
    • 集群总资源:实时统计 CPU、内存、GPU 及 NPU 的总量。
    • 实时利用率:展示当前资源的占用与实际使用百分比。
    • 节点健康度:监控在线、离线及维护中的节点数量。
    • 排队作业数:实时掌握 Pending Jobs 情况。 alt text

2. 算力规格

算力规格定义了用户申请资源时的“套餐模板”,将底层的资源请求参数映射为易于理解的规格名称。

2.1 规格列表

展示当前系统中定义的算力套餐,包含以下关键字段:

  • ID / 名称:规格的唯一标识与显示名称。
  • 类型 / 状态:资源所属类别及当前是否可用。
  • 虚化属性:标识该规格是否为虚拟化资源。
  • 操作:支持新增规格、编辑配置、删除及查看详情。 alt text

2.2 规格详情

在详情页中,管理员可以查看该规格关联的具体资源参数(如限定的 CPU 核数、内存大小及 GPU 具体分配规则)。 alt text

3. 集群管理

集群是算力资源的最高管理单元,通常对应物理上的地理分区(如北京机房、上海机房)或逻辑上的业务隔离域(如训练中心、推理中心)。

  • 管理操作:支持集群的增删改查。
  • 节点详情:从集群详情页可直接跳转至该集群所属的所有节点管理列表。 alt text

4. 节点管理

节点是算力的最小物理单元,对应真实的物理服务器。

4.1 节点列表

提供对物理服务器的批量监控与操作:

  • 快速筛选:支持按集群名称或算力卡型号进行过滤。
  • 关键字段
    • 状态监控:包括“正常”、“异常”及“调度封锁 ”。
    • 资源负载:直观展示显存占用、GPU 利用率、CPU/内存占用率及当前运行任务数。
    • 硬件描述:例如 8 x Nvidia A100 80Galt text

4.2 节点详情与配置

4.2.1 节点总览

展示节点的基本信息、资源使用情况、任务运行状态以及 GPU 资源分布。 alt text

4.2.2 节点配置与策略

  1. 标签管理
    • 系统标签:自动识别并展示 GPU 型号、驱动版本等关键元数据。
    • 用户标签:支持自定义 Key-Value 键值对,用于配合高级调度策略。
  2. 虚拟化策略
    • 支持 HAMi 等软件虚拟化开关配置。
  3. 访问控制
    • 模式切换:支持“公共共享”与“租户独占”。
    • 独占设置:指定特定组织或用户。系统会自动通过 Taints(污点)机制确保资源隔离。 alt text

4.2.3 任务列表

展示该节点承载的所有任务(运行中与历史记录),包含用户、服务名称、算力规格、运行时长及资源占用详情。 alt text

5. 实例与作业管理

5.1 实例管理

适用于 Notebooks、在线推理、微调等长运行实例。

  • 监控交互:支持日志快照功能,管理员可查看最后 100 行日志或下载完整日志。
  • 管理干预:管理员具备对异常实例的启停权限(需注意计费影响)。 alt text

5.2 作业管理

适用于模型评测、离线微调、数据处理等离线任务。

  • 队列调度:展示作业的优先级、所属队列及当前状态(Pending/Running/Failed/Finish)。
  • 运维操作:支持手动终止异常占用的任务,并支持调整紧急任务的优先级实现“插队”。 alt text