跳到主要内容

XNet 智能块加速引擎

XNet 简介

过去,我们主要依赖 Git LFS(Large File Storage)来管理大文件——它确实解决了 Git 本身不适合存储大文件的问题,但也有明显局限:比如每次读写都必须以整个文件为单位,无法按需加载部分内容;随着模型和数据集越来越大,这种“全有或全无”的方式不仅效率低,还会显著拖慢协作与迭代速度。

为了更好地适配 AI/ML 领域对超大模型、海量数据集以及高效随机访问的需求,我们推出了 XNet —— 一个专为现代 AI 工作流设计的高性能存储后端。它支持细粒度的数据访问、智能缓存和并行传输,在保留与现有工具链兼容的同时,大幅提升存储效率与开发体验。(注:我们仍继续支持 Git LFS,确保旧项目平稳过渡。)

XNet 核心能力

与传统的 Git LFS 等大文件管理方案不同,XNet 从底层架构上针对 AI/ML 工作流进行了深度优化,带来一系列关键能力升级:

1. 智能去重,节省空间又提速

  • XNet 会根据文件内容智能地切分为合适大小的块,并在平台范围内对重复块自动去重。这意味着:
    • 模型或数据集的不同版本之间只需上传变更部分,增量极小;
    • 跨项目、跨仓库复用相同数据时,存储空间大幅节省;
    • 大文件首次上传和后续更新都更快、更高效。

2. 秒级增量更新,告别整文件重传

  • 不再像 LFS 那样必须整文件替换——XNet 只上传发生变化的数据块。对于频繁迭代的大模型或数据集,上传时间可缩短至秒级,显著提升开发与实验效率。

3. 高速并行下载,适配训练与推理场景

  • 借助并行化、流式的块下载机制,XNet 能充分发挥网络带宽,特别适合训练集群、推理服务和分布式任务等高并发场景,让数据“秒级就位”。

4. 数据永不“失真”:可靠、可验、可共享

  • 每个数据块都通过加密哈希唯一标识,天然具备:
    • 端到端的数据完整性校验,杜绝静默损坏;
    • 客户端本地缓存与多节点间高效共享;
    • 跨机房、跨区域环境下的快速同步与一致性保障。

这些能力共同构成了 XNet 的核心优势:它不再只是“存大文件”,而是为 AI 时代的模型与数据管理提供了一套高性能、高效率、高可靠的新基础设施。

使用方式

CSGHub的产品一如既往地保持了对HuggingFace命令行工具的兼容。安装有hf命令行工具的用户可以抢先体验OpenCSG社区的XNet功能特性。

Csghub-sdk 命令行工具正在测试中,很快会提供对XNet存储的支持

  1. 安装huggingface_hub 使用xnet需要通过huggingface_hub来进行,首先确保安装了huggingface_hub库:
pip install -U huggingface_hub
  1. 设置HF_ENDPOINT环境变量
export HF_ENDPOINT="https://hub.opencsg.com/hf"
  1. 登录账号
hf auth login

登录账号时提示的token为你的个人访问令牌,在个人设置中可以找到。

  1. 上传文件
hf upload {user}/{repoName} #上传整个仓库
hf upload {user}/{repoName} {fileName} #上传单个文件

示例:

hf upload demo/test1 Electric_Vehicle_Population_Data.zip
  1. 下载文件
hf download {user}/{repoName} #下载整个仓库
hf download {user}/{repoName} {fileName} #下载单个文件

示例:

hf download demo/test1
hf download demo/test1 Electric_Vehicle_Population_Data.zip