前提条件ステップ 1: オープンソースの TensorBoard ヘルパーツールを使用してトレーニングスクリプトを変更する TensorBoard データ設定を使用して SageMaker AI トレーニングランチャーを構築する

トレーニングジョブを準備して TensorBoard 出力データ設定を収集する

SageMaker AI での機械学習の一般的なトレーニングジョブは、トレーニングスクリプトの準備と SageMaker AI Python SDK の SageMaker AI 推定器オブジェクトの設定という 2 つの主要なステップで構成されます。このセクションでは、SageMaker トレーニングジョブから TensorBoard 互換データを収集するために必要な変更を説明します。

前提条件

次のリストは、TensorBoard で SageMaker AI の使用を開始するための前提条件を示しています。

AWS アカウントの Amazon VPC でセットアップされた SageMaker AI ドメイン。

ドメインの設定手順については、「クイックセットアップを使用して Amazon SageMaker AI ドメインにオンボードする」を参照してください。また、個々のユーザーが SageMaker AI の TensorBoard にアクセスするには、ドメインユーザープロファイルを追加する必要があります。詳細については、「ユーザープロファイルの追加」を参照してください。
次のリストは、SageMaker AI で TensorBoard を使用するための最小限のアクセス許可のセットです。
- sagemaker:CreateApp
- sagemaker:DeleteApp
- sagemaker:DescribeTrainingJob
- sagemaker:Search
- s3:GetObject
- s3:ListBucket

ステップ 1: オープンソースの TensorBoard ヘルパーツールを使用してトレーニングスクリプトを変更する

収集する出力テンソルとスカラーを決定し、TensorBoardX、TensorFlow サマリーライター、PyTorch サマリーライター、または SageMaker Debugger のいずれかのツールを使用してトレーニングスクリプトのコード行を変更してください。

また、トレーニングコンテナのコールバックのログディレクトリ (log_dir) として TensorBoard データ出力パスを指定していることを確認してください。

フレームワークごとのコールバックについて詳しくは、次のリソースを参照してください。

PyTorch の場合は、torch.utils.tensorboard.SummaryWriter を使用します。PyTorch チュートリアルの「Using TensorBoard in PyTorch」および「Log scalars」セクションも参照してください。TensorBoardX サマリーライターを使用することもできます。
```
LOG_DIR="/opt/ml/output/tensorboard"
tensorboard_callback=torch.utils.tensorboard.writer.SummaryWriter(log_dir=LOG_DIR)
```

TensorFlow の場合は、TensorBoard のネイティブコールバック、tf.keras.callbacks.TensorBoard を使用します。


LOG_DIR="/opt/ml/output/tensorboard"
tensorboard_callback=tf.keras.callbacks.TensorBoard(
    log_dir=LOG_DIR, histogram_freq=1)

PyTorch を使用するトランスフォーマーの場合は、transformers.integrations.TensorBoardCallback を使用できます。

TensorFlow を使用するトランスフォーマーの場合は、tf.keras.tensorboard.callback を使用して、トランスフォーマーの keras コールバックに渡します。

ヒント
別のコンテナのローカル出力パスを使用することもできます。ただし、ではステップ 2: TensorBoard 出力設定を使用して SageMaker トレーニング推定器オブジェクトを作成する、SageMaker AI がローカルパスを正常に検索し、TensorBoard データを S3 出力バケットに保存するには、パスを正しくマッピングする必要があります。
SageMaker Debugger Python ライブラリを使用してトレーニングスクリプトを変更する方法については、「フックを登録するためにトレーニングスクリプトを適応させる」を参照してください。

ステップ 2: TensorBoard 出力設定を使用して SageMaker トレーニング推定器オブジェクトを作成する

SageMaker AI フレームワーク推定器を設定するsagemaker.debugger.TensorBoardOutputConfigときは、を使用します。この設定 API は、TensorBoard データを保存するために指定した S3 バケットをトレーニングコンテナ (/opt/ml/output/tensorboard) のローカルパスにマッピングします。モジュールのオブジェクトを推定器クラスの tensorboard_output_config パラメータに渡します。次のコードスニペットは、TensorBoard の出力設定パラメータを使用して TensorFlow 推定器を準備する例を示しています。

注記

この例では、SageMaker Python SDK の使用を想定しています。低レベルの SageMaker API を使用する場合は、CreateTrainingJob API のリクエスト構文に以下を含める必要があります。


"TensorBoardOutputConfig": { 
  "LocalPath": "/opt/ml/output/tensorboard",
  "S3OutputPath": "s3_output_bucket"
}


from sagemaker.tensorflow import TensorFlow
from sagemaker.debugger import TensorBoardOutputConfig

# Set variables for training job information, 
# such as s3_out_bucket and other unique tags.
... 

LOG_DIR="/opt/ml/output/tensorboard"

output_path = os.path.join(
    "s3_output_bucket", "sagemaker-output", "date_str", "your-training_job_name"
)

tensorboard_output_config = TensorBoardOutputConfig(
    s3_output_path=os.path.join(output_path, 'tensorboard'),
    container_local_output_path=LOG_DIR
)

estimator = TensorFlow(
    entry_point="train.py",
    source_dir="src",
    role=role,
    image_uri=image_uri,
    instance_count=1,
    instance_type="ml.c5.xlarge",
    base_job_name="your-training_job_name",
    tensorboard_output_config=tensorboard_output_config,
    hyperparameters=hyperparameters
)

注記

API はマッピングの TensorBoard 出力設定と統合されていないため、TensorBoard アプリケーションCreateHyperParameterTuningJobは SageMaker AI ハイパーパラメータ調整ジョブをout-of-the-boxサポートしません。TensorBoard アプリケーションをハイパーパラメータチューニングジョブに使用するには、トレーニングスクリプトでメトリクスを Amazon S3 にアップロードするコードを記述する必要があります。メトリクスが Amazon S3 バケットにアップロードされたら、SageMaker AI の TensorBoard アプリケーションにバケットをロードできます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

SageMaker AI の TensorBoard

SageMaker AI での TensorBoard アプリケーションへのアクセス

トレーニングジョブを準備して TensorBoard 出力データ設定を収集する

前提条件

ステップ 1: オープンソースの TensorBoard ヘルパーツールを使用してトレーニングスクリプトを変更する

ヒント

ステップ 2: TensorBoard 出力設定を使用して SageMaker トレーニング推定器オブジェクトを作成する

注記

注記