在异构集群上运行训练作业

使用 Training 的 SageMaker 异构集群功能，您可以使用多种类型的机器学习实例运行训练作业，从而更好地扩展资源，更好地利用不同的机器学习训练任务和目的。例如，如果您在包含GPU实例的集群上的训练作业由于任务CPU密集型而出现GPU利用率低和CPU瓶颈问题，那么使用异构集群可以通过添加更具成本效益的CPU实例组来帮助卸载CPU密集型任务，解决此类瓶颈问题并提高利用率。GPU

注意

此功能在 SageMaker Python 版本 SDK 2.98.0 及更高版本中可用。

注意

此功能可通过 SageMaker PyTorch和TensorFlow框架估算器类获得。支持的框架是 PyTorch v1.10 或更高版本以及 TensorFlow v2.6 或更高版本。

另请参阅博客使用 Amazon SageMaker 异构集群提高模型训练的价格性能。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

SageMaker 环境变量和训练存储位置的默认路径

在 Amazon 中使用异构集群配置训练作业 SageMaker