翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
組み込みアルゴリズムのログ
Amazon SageMaker アルゴリズムは Amazon CloudWatch ログを生成し、トレーニングプロセスに関する詳細情報を提供します。ログを表示するには、 AWS 管理コンソールで を選択しCloudWatch、ログ を選択し、/aws/sagemaker/TrainingJobs log グループ を選択します。各トレーニングジョブには、トレーニングされたノードごとに 1 つのログストリームがあります。ログストリームの名前は、ジョブの作成時に TrainingJobName
パラメータで指定された値で始まります。
注記
ジョブが失敗し、ログが に表示されない場合 CloudWatch、トレーニング開始前にエラーが発生した可能性があります。理由は、間違ったトレーニングイメージや S3 の場所の指定が含まれます。
ログの内容は、アルゴリズムによって異なります。ただし、一般的には次の情報が表示されます。
-
ログの先頭で指定された引数の確認
-
トレーニング中に発生したエラー
-
アルゴリズム精度や数値パフォーマンスの測定
-
アルゴリズムのタイミングとアルゴリズム内の主要なステージ
共通エラー
トレーニングジョブが失敗した場合、一部のエラーの詳細はトレーニングジョブ説明の FailureReason
戻り値によって以下のように提供されます。
sage = boto3.client('sagemaker')
sage.describe_training_job(TrainingJobName=job_name)['FailureReason']
その他の は CloudWatch ログでのみ報告されます。一般的なエラーは以下のとおりです。
-
ハイパーパラメータを指定しない、またはアルゴリズムに対して無効なハイパーパラメータの指定。
CloudWatch ログから
[10/16/2017 23:45:17 ERROR 139623806805824 train.py:48] Additional properties are not allowed (u'mini_batch_siz' was unexpected)
-
ハイパーパラメータへの無効な値の指定。
FailureReason
AlgorithmError: u'abc' is not valid under any of the given schemas\n\nFailed validating u'oneOf' in schema[u'properties'][u'feature_dim']:\n {u'oneOf': [{u'pattern': u'^([1-9][0-9]*)$', u'type': u'string'},\n {u'minimum': 1, u'type': u'integer'}]}\
FailureReason
[10/16/2017 23:57:17 ERROR 140373086025536 train.py:48] u'abc' is not valid under any of the given schemas
-
不正確な protobuf ファイル形式。
CloudWatch ログから
[10/17/2017 18:01:04 ERROR 140234860816192 train.py:48] cannot copy sequence with size 785 to array axis with dimension 784