跳到主要内容

硬件需求

1. 说明

CSGHUB 为云原生 AI 托管平台,包含以下核心负载类型:

  • 控制面服务(API / Web / 调度)
  • 数据面服务(模型、数据集、制品存储)
  • 计算任务(Dataflow / Runner / 推理任务)
  • 可选 AI 组件(GPU / Knative / Argo)

因此硬件需求强依赖部署规模与使用场景

2. 部署模式划分

部署模式适用场景特点
Docker 单机开发 / Demo简单、资源低
单节点 K8s测试 / POC接近生产架构
标准 K8s 集群生产可扩展
高可用集群大规模生产多节点冗余

3. 测试/开发环境(最低配置)

适用于:

  • 功能验证
  • 本地开发
  • 单人使用

3.1 推荐配置

资源配置
CPU4 Core
内存8 GB
存储≥ 200 GB(SSD)
网络≥ 1 Gbps

3.2 说明

  • 可使用 Docker
  • 不建议启用:
    • Dataflow
    • 大规模 Runner
    • GPU 推理
  • 存储可使用本地磁盘(hostPath)

4. 中小规模生产环境(推荐配置)

适用于:

  • 团队使用(10~100 人)
  • 模型 / 数据集管理
  • 中等规模任务调度

4.1 集群规模

  • 3 ~ 5 节点 Kubernetes 集群

4.2 单节点配置

资源推荐
CPU8 ~ 16 Core
内存16 ~ 32 GB
存储≥ 1 TB SSD
网络≥ 1 ~ 10 Gbps

4.3 总体资源(示例)

类型建议
总 CPU≥ 32 Core
总内存≥ 64 GB
存储≥ 3 TB

5. 大规模生产环境(高负载)

适用于:

  • 多团队 / 多租户
  • 高频任务调度
  • AI 推理 / 训练
  • 大规模数据集

5.1 集群规模

  • 5 ~ 20+ 节点

5.2 单节点配置

资源推荐
CPU16 ~ 64 Core
内存64 ~ 256 GB
存储≥ 2 TB NVMe SSD
网络≥ 10 Gbps

6. GPU资源(可选)

适用于:

  • 模型推理
  • AI 训练
  • 模型评测

6.1 推荐配置

场景GPU
轻量推理1 × T4 / L4
中等负载1~4 × A10 / A100
大规模训练多节点 GPU

6.2 注意事项

  • 必须部署:
    • NVIDIA Driver
    • NVIDIA Device Plugin

7. 存储要求(关键)

7.1 必选能力

  • ✅ 支持 CSI
  • ✅ 支持动态卷(Dynamic Provisioning)
  • ✅ 至少一个 StorageClass

7.2 存储类型建议

类型用途推荐
本地 SSD测试
NAS / NFSRWX 场景⚠️(性能一般)
分布式存储(Ceph / Longhorn)生产
对象存储(S3)数据集 / 模型

7.3 RWX(ReadWriteMany)要求

以下组件必须支持 RWX:

  • Dataflow
  • Csgship
  • 部分任务调度

👉 不满足会导致:

  • 任务失败
  • 数据不可共享

7.4 存储容量估算

建议按以下公式估算:

总存储 = 
模型大小 × 模型数量
+ 数据集大小 × 数据集数量
+ 构建缓存(约 20%)
+ 日志(约 10%)

示例:

项目大小
模型500 GB
数据集2 TB
缓存 + 日志500 GB
总计≈ 3 TB

8. 不同组件资源消耗说明

组件CPU内存存储特点
API / Web控制面
Dataflow强依赖 IO
Runner弹性扩展
Knative自动扩缩容
Argo工作流调度

9. 部署方式 vs 硬件建议

9.1 Docker单机

项目配置
CPU≥ 4 Core
内存≥ 8 GB
适用Demo

9.2 Kubernetes单节点

项目配置
CPU≥ 8 Core
内存≥ 16 GB

9.3 标准Kubernetes

项目配置
节点数≥ 3
单节点8C / 16GB

9.4 高可用集群

  • Kubernetes 项目配置Master3 节点Worker≥ 3Master / Worker 单节点4C / 8GB / 8C / 16GB
  • PostgreSQL 项目配置节点数3单节点4C / 8GB
  • Object Storage 项目配置节点数4单节点4C / 8GB
  • Gitaly 项目配置节点数3单节点8C / 16GB

10. 常见问题与风险

10.1 资源不足会导致

  • Pod OOMKilled
  • 调度失败
  • 任务卡死
  • IO 瓶颈(最常见)

10.2 存储问题

  • 不支持 RWX → Dataflow 启动失败
  • IO 慢 → 训练 / 推理性能下降

10.3 网络问题

  • 带宽不足 → 模型拉取慢
  • 延迟高 → 服务不稳定

11. 总结建议

  • 测试环境:4C / 8GB / 200GB
  • 生产环境:8C+ / 16GB+ / 1TB+
  • 推荐使用 Kubernetes 集群部署
  • 存储优先考虑:
    • RWX + 高 IO
  • AI 场景建议单独 GPU 节点