必要條件步驟 1：使用開放原始碼 TensorBoard 協助工具修改訓練指令碼使用 TensorBoard 資料組態建構 SageMaker AI 訓練啟動器

準備訓練任務以收集 TensorBoard 輸出資料

SageMaker AI 中機器學習的典型訓練任務包含兩個主要步驟：準備訓練指令碼和設定 SageMaker AI Python SDK 的 SageMaker AI 估算器物件。在本節中，您將了解從 SageMaker 訓練任務收集 TensorBoard 相容資料所需的變更。

必要條件

下列清單顯示開始使用 SageMaker AI 搭配 TensorBoard 的先決條件。

AWS 帳戶中使用 Amazon VPC 設定的 SageMaker AI 網域。

如需設定網域的指示，請參閱使用快速設定加入 Amazon SageMaker AI 網域。您也需要為個別使用者新增網域使用者設定檔，才能存取 SageMaker AI 上的 TensorBoard。如需詳細資訊，請參閱新增使用者設定檔。
下列清單是在 SageMaker AI 上使用 TensorBoard 的最低許可集。
- sagemaker:CreateApp
- sagemaker:DeleteApp
- sagemaker:DescribeTrainingJob
- sagemaker:Search
- s3:GetObject
- s3:ListBucket

步驟 1：使用開放原始碼 TensorBoard 協助工具修改訓練指令碼

請確定您決定要收集哪些輸出張量和純量，並使用下列任一工具修改訓練指令碼中的程式碼：TensorBoardX、TensorFlow 摘要寫入器、PyTorch 摘要寫入器或 SageMaker Debugger。

此外，請務必將 TensorBoard 資料輸出路徑，指定為訓練容器中回調的日誌目錄 (log_dir)。

如需每個架構回調的更多相關資訊，請參閱下列資源。

PyTorch 的話，請使用torch.utils.tensorboard.SummaryWriter。另請參閱PyTorch 教學課程內的在 PyTorch 中使用 TensorBoard 和日誌純量章節。或者，您也可以使用 TensorBoardX 摘要寫入器。
```
LOG_DIR="/opt/ml/output/tensorboard"
tensorboard_callback=torch.utils.tensorboard.writer.SummaryWriter(log_dir=LOG_DIR)
```

針對 TensorFlow，請使用 TensorBoard 的原生回調，tf.keras.callbacks.TensorBoard。


LOG_DIR="/opt/ml/output/tensorboard"
tensorboard_callback=tf.keras.callbacks.TensorBoard(
    log_dir=LOG_DIR, histogram_freq=1)

如為 PyTorch 轉換器，您可以使用transformers.integrations.TensorBoardCallback。

對於 TensorFlow 的轉換器，請使用tf.keras.tensorboard.callback，並將其傳遞給轉換器中的 keras 回調。

提示
您也可以使用不同的容器本機輸出路徑。不過，在中步驟 2：使用 TensorBoard 輸出組態建立 SageMaker 訓練估算器物件，您必須正確對應 SageMaker AI 的路徑，才能成功搜尋本機路徑，並將 TensorBoard 資料儲存至 S3 輸出儲存貯體。
如需使用 SageMaker Debugger Python 程式庫修改訓練指令碼的指引，請參閱調整訓練指令碼以註冊勾點。

步驟 2：使用 TensorBoard 輸出組態建立 SageMaker 訓練估算器物件

在設定 SageMaker AI 架構估算器sagemaker.debugger.TensorBoardOutputConfig時使用。此組態 API 會將您指定用來儲存 TensorBoard 資料的 S3 儲存貯體，與訓練容器 (/opt/ml/output/tensorboard) 中的本機路徑對應。將模組的物件傳遞給估算器類別的tensorboard_output_config參數。下列程式碼片段為一則範例，顯示使用 TensorBoard 輸出組態參數準備 TensorFlow 估算器。

注意

此範例假設您使用 SageMaker Python SDK。如果您使用低階 SageMaker API，則應在 CreateTrainingJob API 的請求語法中包含以下內容。


"TensorBoardOutputConfig": { 
  "LocalPath": "/opt/ml/output/tensorboard",
  "S3OutputPath": "s3_output_bucket"
}


from sagemaker.tensorflow import TensorFlow
from sagemaker.debugger import TensorBoardOutputConfig

# Set variables for training job information, 
# such as s3_out_bucket and other unique tags.
... 

LOG_DIR="/opt/ml/output/tensorboard"

output_path = os.path.join(
    "s3_output_bucket", "sagemaker-output", "date_str", "your-training_job_name"
)

tensorboard_output_config = TensorBoardOutputConfig(
    s3_output_path=os.path.join(output_path, 'tensorboard'),
    container_local_output_path=LOG_DIR
)

estimator = TensorFlow(
    entry_point="train.py",
    source_dir="src",
    role=role,
    image_uri=image_uri,
    instance_count=1,
    instance_type="ml.c5.xlarge",
    base_job_name="your-training_job_name",
    tensorboard_output_config=tensorboard_output_config,
    hyperparameters=hyperparameters
)

注意

TensorBoard 應用程式不提供out-of-the-box可用的 SageMaker AI 超參數調校任務支援，因為 CreateHyperParameterTuningJob API 未與映射的 TensorBoard 輸出組態整合。若要使用 TensorBoard 應用程式進行超參數調校任務，您需要在訓練指令碼中編寫程式碼，以將指標上傳至 Amazon S3。將指標上傳至 Amazon S3 儲存貯體後，您就可以將儲存貯體載入 SageMaker AI 上的 TensorBoard 應用程式。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

SageMaker AI 中的 TensorBoard

在 SageMaker AI 上存取 TensorBoard 應用程式

準備訓練任務以收集 TensorBoard 輸出資料

必要條件

步驟 1：使用開放原始碼 TensorBoard 協助工具修改訓練指令碼

提示

步驟 2：使用 TensorBoard 輸出組態建立 SageMaker 訓練估算器物件

注意

注意