在多集群环境中运行 Kubeflow Job

运行 MultiKueue 调度的 Kubeflow Job。

开始之前

请查阅 MultiKueue 安装指南了解如何正确设置 MultiKueue 集群。

为方便安装和使用,建议使用 Kueue v0.11.0 和 Kubeflow Trainer v1.9.0 以上版本。

有关 Trainer 的安装和配置详情,请参见 Trainer 安装文档

MultiKueue 集成

完成设置后,你可以通过运行其中一个 Kubeflow Job(如 PyTorchJob sample-pytorchjob.yaml)进行测试。

与 MPI Operator 协同工作

为了让 MPI-operator 和 Trainer 能在同一集群上工作,需要:

  1. base/crds/kustomization.yaml 中移除 kubeflow.org_mpijobs.yaml - https://github.com/kubeflow/trainer/issues/1930
  2. 修改 Trainer 部署以启用除 MPI 以外的所有 Kubeflow Job - https://github.com/kubeflow/trainer/issues/1777

最后修改 July 31, 2025: doc (#6341) (bcdbbd4b)