データ形式互換性ガイド - Amazon SageMaker

データ形式互換性ガイド

このガイドでは、SageMaker Clarify 処理ジョブと互換性のあるデータ形式タイプについて説明します。サポートされているデータ形式のタイプには、ファイル拡張子、データ構造、表形式、画像、時系列データセットの特定の要件または制限などがあります。このガイドでは、データセットがこれらの要件を満たしているかどうかを確認する方法についても説明します。

大まかに言うと、SageMaker Clarify 処理ジョブは、入力-処理-出力モデルに従ってバイアスメトリクスと特徴量属性を計算します。詳細については、次の例を参照してください。

SageMaker Clarify 処理ジョブへの入力は、以下の内容で構成されています。

  • 分析対象のデータセット。

  • 分析設定。分析の設定方法の詳細については、「分析設定ファイル」を参照してください。

SageMaker Clarify は処理段階でバイアスメトリクスと特徴量属性を計算します。SageMaker Clarify 処理ジョブはバックエンドで次のステップを完了します。

  • SageMaker Clarify 処理ジョブは、分析設定を解析し、データセットを読み込みます。

  • トレーニング後のバイアスメトリクスと特徴量属性を計算するには、ジョブにはモデルからのモデル予測が必要です。SageMaker Clarify 処理ジョブはデータをシリアル化し、SageMaker リアルタイム推論エンドポイントにデプロイされたモデルにリクエストとして送信します。その後、SageMaker Clarify 処理ジョブは応答から予測を抽出します。

  • SageMaker Clarify 処理ジョブは、バイアスと説明可能性の分析を実行し、結果を出力します。

詳細については、「SageMaker Clarify 処理ジョブの仕組み」を参照してください。

データの形式を指定するために使用するパラメータは、次のように、処理フロー内のデータが使用される場所によって異なります。

  • 入力データセットの場合は、dataset_type パラメータを使用して形式または MIME タイプを指定します。

  • エンドポイントへのリクエストの場合、content_type パラメータを使用して形式を指定します。

  • エンドポイントからの応答の場合、accept_type パラメータを使用して形式を指定します。

入力データセット、リクエスト、エンドポイントとの間での応答は、同じ形式である必要はありません。例えば、次の条件を満たしている場合、CSV リクエストペイロードと JSON 行の応答ペイロードを含む Parquet データセットを使用できます。

  • 分析は正しく設定されています。

  • モデルは、リクエスト形式と応答形式をサポートしています。

注記

content_type または accept_type が指定されていない場合、SageMaker Clarify コンテナは content_typeaccept_type を推測します。