TensorBoard 在亚马逊 A SageMaker I 中 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

TensorBoard 在亚马逊 A SageMaker I 中

Amazon SageMaker AI TensorBoard with 是 Amazon SageMaker AI 的一项功能,它将TensorBoard可视化工具引入 SageMaker 人工智能,并与 SageMaker 训练和域集成。它提供了通过 SageMaker AI 域管理您的 AWS 账户和属于该账户的用户的选项,为域用户授予对 Amazon S3 的适当权限访问 TensorBoard 数据的权限,并帮助域用户使用 TensorBoard 可视化插件执行模型调试任务。 SageMaker AI w TensorBoard ith 通过 SageMaker AI Data Manager 插件进行了扩展,通过该插件,域用户可以在 TensorBoard应用程序中的一个位置访问多个训练作业。

注意

此功能用于使用 PyTorch 或调试深度学习模型的训练 TensorFlow。

对于数据科学家

训练大型模型可能存在科学问题,需要数据科学家进行调试并予以解决,以改善模型收敛性并使梯度下降过程稳定。

当您遇到损失不收敛、权重和梯度消失或迸发等模型训练问题时,需要访问张量数据来深入探究和分析模型参数、标量和任何自定义指标。将 SageMaker AI 与配合使用 TensorBoard,您可以可视化从训练作业中提取的模型输出张量。当你尝试不同的模型、多个训练运行和模型超参数时,你可以在一个地方选择多个训练作业 TensorBoard 并进行比较。

对于管理员

如果您是 AWS 账户或 SageMaker A SageMaker I 域的管理员,则可以通过 AI 控制台或 SageMaker AI 域中的 TensorBoard 登录页面管理 TensorBoard 应用程序用户。只要获得授予的权限,每个域用户都可以访问自己的 TensorBoard 应用程序。作为 A SageMaker I 域管理员和域用户,您可以根据自己的权限级别创建和删除 TensorBoard 应用程序。

注意

您无法出于协作目的共享 TensorBoard 应用程序,因为 SageMaker AI 域不允许在用户之间共享应用程序。如果用户有权访问 S3 存储桶,则可以共享 S3 存储桶中保存的输出张量。

支持的框架和 AWS 区域

SageMaker 人工智能中的 TensorBoard 应用程序可用于以下机器学习框架和 AWS 区域.

框架
  • PyTorch

  • TensorFlow

  • Hugging Face Transformers

AWS 区域
  • 美国东部(弗吉尼亚州北部)(us-east-1)

  • 美国东部(俄亥俄州)(us-east-2)

  • 美国西部(俄勒冈州)(us-west-2)

  • 欧洲地区(法兰克福)(eu-central-1)

  • 欧洲地区(爱尔兰)(eu-west-1)

注意

Amazon SageMaker AI 在ml.r5.large实例上 TensorBoard 运行,在 SageMaker AI 免费套餐或该功能的免费试用期结束后产生费用。有关更多信息,请参阅 Amazon A SageMaker I 定价