算力管理

算力管理模块是 CSGHub 管理后台的核心功能之一，旨在为管理员提供全局算力资源的监控、规格定义、集群与节点维护以及任务调度管理能力。

1. 概览

概览页面是全局算力的“健康大盘”，提供实时资源利用率和系统状态的直观展示。

多维展示：支持按全域或单个区域（机房）筛选查看。
核心指标：
- 集群总资源：实时统计 CPU、内存、GPU 及 NPU 的总量。
- 实时利用率：展示当前资源的占用与实际使用百分比。
- 节点健康度：监控在线、离线及维护中的节点数量。
- 排队作业数：实时掌握 Pending Jobs 情况。

2. 算力规格

算力规格定义了用户申请资源时的“套餐模板”，将底层的资源请求参数映射为易于理解的规格名称。

2.1 规格列表

展示当前系统中定义的算力套餐，包含以下关键字段：

ID / 名称：规格的唯一标识与显示名称。
类型 / 状态：资源所属类别及当前是否可用。
虚化属性：标识该规格是否为虚拟化资源。
操作：支持新增规格、编辑配置、删除及查看详情。

2.2 规格详情

在详情页中，管理员可以查看该规格关联的具体资源参数（如限定的 CPU 核数、内存大小及 GPU 具体分配规则）。 alt text

3. 集群管理

集群是算力资源的最高管理单元，通常对应物理上的地理分区（如北京机房、上海机房）或逻辑上的业务隔离域（如训练中心、推理中心）。

管理操作：支持集群的增删改查。
节点详情：从集群详情页可直接跳转至该集群所属的所有节点管理列表。

4. 节点管理

节点是算力的最小物理单元，对应真实的物理服务器。

4.1 节点列表

提供对物理服务器的批量监控与操作：

快速筛选：支持按集群名称或算力卡型号进行过滤。
关键字段：
- 状态监控：包括“正常”、“异常”及“调度封锁 ”。
- 资源负载：直观展示显存占用、GPU 利用率、CPU/内存占用率及当前运行任务数。
- 硬件描述：例如 8 x Nvidia A100 80G。

4.2 节点详情与配置

4.2.1 节点总览

展示节点的基本信息、资源使用情况、任务运行状态以及 GPU 资源分布。 alt text

4.2.2 节点配置与策略

标签管理：
- 系统标签：自动识别并展示 GPU 型号、驱动版本等关键元数据。
- 用户标签：支持自定义 Key-Value 键值对，用于配合高级调度策略。
虚拟化策略：
- 支持 HAMi 等软件虚拟化开关配置。
访问控制：
- 模式切换：支持“公共共享”与“租户独占”。
- 独占设置：指定特定组织或用户。系统会自动通过 Taints（污点）机制确保资源隔离。

4.2.3 任务列表

展示该节点承载的所有任务（运行中与历史记录），包含用户、服务名称、算力规格、运行时长及资源占用详情。 alt text

5. 实例与作业管理

5.1 实例管理

适用于 Notebooks、在线推理、微调等长运行实例。

监控交互：支持日志快照功能，管理员可查看最后 100 行日志或下载完整日志。
管理干预：管理员具备对异常实例的启停权限（需注意计费影响）。

5.2 作业管理

适用于模型评测、离线微调、数据处理等离线任务。

队列调度：展示作业的优先级、所属队列及当前状态（Pending/Running/Failed/Finish）。
运维操作：支持手动终止异常占用的任务，并支持调整紧急任务的优先级实现“插队”。

1. 概览​

2. 算力规格​

2.1 规格列表​

2.2 规格详情​

3. 集群管理​

4. 节点管理​

4.1 节点列表​

4.2 节点详情与配置​

4.2.1 节点总览​

4.2.2 节点配置与策略​

4.2.3 任务列表​

5. 实例与作业管理​

5.1 实例管理​

5.2 作业管理​