SageMaker Clarify 処理ジョブのトラブルシューティング - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker Clarify 処理ジョブのトラブルシューティング

SageMaker Clarify 処理ジョブで障害が発生した場合は、次のシナリオを参照して問題を特定してください。

注記

エラーの理由と終了メッセージは、実行中に発生した場合に、説明メッセージと例外を含めることを目的としています。エラーの原因としてよくあるのは、パラメータが欠落しているか、有効でないことです。不明確、紛らわしい、または誤解を招くようなメッセージが表示された場合や、解決策が見つからない場合は、フィードバックを送信してください。

処理ジョブを終了できない

処理ジョブを終了できない場合は、以下を試してください。

  • ジョブを実行したノートブックでジョブログを直接調べます。ジョブログは、実行を開始したノートブックセルの出力にあります。

  • のジョブログを検査します CloudWatch。

  • 次の行をノートブックに追加して、最後の処理ジョブを記述し、エラーの理由と終了メッセージを探します。

    • clarify_processor.jobs[-1].describe()

  • 次の AWS CLI; コマンドを実行して処理ジョブを記述し、障害の理由と終了メッセージを探します。

    • aws sagemaker describe-processing-job —processing-job-name <processing-job-id>

処理ジョブの実行に時間がかかりすぎる

処理ジョブの実行に時間がかかりすぎる場合は、以下の方法で根本原因を突き止めます。

リソース設定がコンピューティング負荷を処理するのに十分であるかどうかを確認します。ジョブをスピードアップするには、次のことを試してください。

  • より大きなインスタンスタイプを使用します。 SageMaker Clarify はモデルを繰り返しクエリするため、インスタンスが大きいほど計算時間が大幅に短縮されます。使用可能なインスタンス、そのメモリサイズ、帯域幅、およびその他のパフォーマンスの詳細については、「Amazon SageMaker 料金」を参照してください。

  • インスタンスをさらに追加します。 SageMaker Clarify は複数のインスタンスを使用して、複数の入力データポイントを並行して説明できます。並列コンピューティングを有効にするには、SageMakerClarifyProcessor を呼び出すときに、instance_count1 より大きく設定します。詳細については、「並列 SageMaker Clarify 処理ジョブを実行する方法」を参照してください。インスタンス数を増やす場合は、エンドポイントのパフォーマンスをモニタリングして、増加した負荷をデプロイできるかどうかを確認します。詳細については、「リアルタイムエンドポイントからデータをキャプチャする」を参照してください。

  • コンピューティングしている場合 SHapley Additive exPlanations (SHAP) 値の場合は、分析設定ファイルの num_samplesパラメータを減らします。サンプル数は以下に直接影響します。

    • エンドポイントに送信される合成データセットのサイズ

    • ジョブランタイム

    サンプル数を減らすと、推定の精度が低下する可能性もあります。SHAP 値。詳細については、「分析設定ファイル」を参照してください。

処理ジョブが結果なしで終了し、 CloudWatch 警告メッセージが表示されます

処理ジョブが終了しても結果が見つからなかった場合、 CloudWatch ログはシグナル 15 が受信し、クリーンアップしたことを示す警告メッセージを生成します。この警告は、カスタマーリクエストが StopProcessingJob を呼び出したためにジョブが停止されたかAPI、ジョブが完了の指定時間内に不足したことを示します。後者の場合、ジョブ設定の最大ランタイム (max_runtime_in_seconds) を確認し、必要に応じて増やしてください。

無効な分析設定に関するエラーメッセージ

  • エラーメッセージが表示された場合、分析設定を としてロードできませんJSON。つまり、処理ジョブの分析設定入力ファイルには有効なJSONオブジェクトが含まれていません。linter JSON を使用してJSONオブジェクトの有効性を確認します。

  • 分析設定スキーマの検証エラー」というエラーメッセージが表示される場合は、処理ジョブの分析設定入力ファイルに、不明なフィールドが含まれているか一部のフィールド値に無効なタイプが含まれていることを意味します。ファイル内の設定パラメータを確認し、分析設定ファイルに記載されているパラメータと照合してください。詳細については、「分析設定ファイル」を参照してください。

バイアスメトリクスのコンピュテーションが、一部またはすべてのメトリクスで失敗する

予測ラベル列にラベル値が存在しません。正の予測インデックスシリーズに含まれている値がすべて False です」または「予測ラベル列シリーズのデータ型がラベル列シリーズと同じではありません」のいずれかのエラーメッセージが表示された場合は、次のことを試してください。

  • 正しいデータセットが使用されているかチェックします。

  • データセットのサイズが小さすぎないか、例えば、数行しか含まれていないか、などをチェックします。これにより、モデルの出力が同じ値になったり、データ型が正しく推測されなかったりする可能性があります。

  • ラベルまたはファセットが連続またはカテゴリとして扱われるかどうかを確認します。 SageMaker Clarify はヒューリスティックを使用して を決定しますDataType。トレーニング後のバイアスメトリクスの場合、モデルによって返されるデータ型がデータセット内のデータ型と一致しないか、 SageMaker Clarify が正しく変換できない可能性があります。

    • バイアスレポートでは、カテゴリ列の場合は 1 つの値、連続列の場合は間隔が表示されます。

    • 例えば、列の値が 0.0 と 1.0 の浮動小数点である場合、一意の値が少なすぎる場合にも連続として扱われます。

分析設定とデータセット/モデルの入出力が一致しない

  • 分析設定のベースライン形式がデータセット形式と同じかチェックします。

  • 文字列を浮動小数点に変換できませんでした」というエラーメッセージが表示される場合は、形式が正しく指定されているかチェックします。また、モデル予測がラベル列と異なる形式であることや、ラベルや確率の設定が正しくないことを示す可能性もあります。

  • ファセットが見つかりません」、「ヘッダーにはラベルが含まれている必要があります」、「設定内のヘッダーがデータセット内の列の数と一致しません」、「特徴量名が見つかりません」のいずれかのエラーメッセージが表示された場合は、ヘッダーが列と一致しているかどうか確認してください。

  • がエラーメッセージを受信した場合、データには機能が含まれている必要があります。 は、JSONLines のコンテンツテンプレートをチェックし、利用可能な場合はデータセットサンプルと比較します。

モデルが 500 内部サーバーエラーを返すか、コンテナがモデルエラーによりレコードごとの予測にフォールバックする

モデルエラーのためにレコードごとの予測にフォールバックします」というエラーメッセージが表示される場合は、モデルがバッチサイズを処理できないか、スロットルされているか、シリアル化の問題のためにコンテナから渡された入力を受け入れないことを示す可能性があります。 SageMaker エンドポイントの CloudWatch ログを確認し、エラーメッセージやトレースバックを探します。モデルスロットリングの場合は、別のインスタンスタイプを使用するか、エンドポイントのインスタンス数を増やすと役立つ場合があります。

実行ロールが無効

これは、提供されたロールが正しくないか、必要なアクセス許可がないことを示します。処理ジョブの設定に使用されたロールとそのアクセス許可をチェックし、ロールの許可と信頼ポリシーを確認してください。

データのダウンロードに失敗しました

これは、ジョブを開始するためのジョブ入力をダウンロードできなかったことを示します。バケット名と、データセットおよび設定入力の許可を確認してください。

に接続できませんでした SageMaker

これは、ジョブが SageMaker サービスエンドポイントに到達できなかったことを示します。処理ジョブのネットワーク設定を確認し、仮想プライベートクラウド (VPC) 設定を確認します。