制約のスキーマ (constraints.json ファイル) - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

制約のスキーマ (constraints.json ファイル)

constraints.json ファイルは、データセットが満たす必要がある制約を示すために使用されます。Amazon SageMaker Model Monitor コンテナは、constrained.json ファイルを使用してデータセットを評価できます。ビルド済みコンテナは、ベースラインデータセットの constraints.json ファイルを自動的に生成する機能を提供します。独自のコンテナを持ち込む場合は、同様の機能を提供することも、他の方法で constraints.json ファイルを作成することもできます。以下は、ビルド済みコンテナが使用する制約ファイルのスキーマです。独自のコンテナを取り込む場合、同じ形式を採用するか、必要に応じてその機能を拡張できます。

{ "version": 0, "features": [ { "name": "string", "inferred_type": "Integral" | "Fractional" | | "String" | "Unknown", "completeness": number, "num_constraints": { "is_non_negative": boolean }, "string_constraints": { "domains": [ "list of", "observed values", "for small cardinality" ] }, "monitoringConfigOverrides": {} } ], "monitoring_config": { "evaluate_constraints": "Enabled", "emit_metrics": "Enabled", "datatype_check_threshold": 0.1, "domain_content_threshold": 0.1, "distribution_constraints": { "perform_comparison": "Enabled", "comparison_threshold": 0.1, "comparison_method": "Simple"||"Robust", "categorical_comparison_threshold": 0.1, "categorical_drift_method": "LInfinity"||"ChiSquared" } } }

monitoring_config オブジェクトには、機能のモニタリングジョブのオプションが含まれています。次の表で各オプションについて説明します。

制約のモニタリング

制約事項 説明
evaluate_constraints

Enabled の場合、分析中の現在のデータセットが、ベースラインとして採用された constraints.json ファイルに指定されている制約を満たしているかどうかを評価します。

有効な値: Enabled または Disabled

デフォルト: Enabled

emit_metrics

の場合Enabled、 は ファイルに含まれるデータの CloudWatch メトリクスを出力します。

有効な値: Enabled または Disabled

デフォルト: Enabled

datatype_check_threshold

指定されている datatype_check_threshold の値をしきい値が超えると、違反レポートで違反として扱われる障害が発生します。現在の実行のデータ型がベースラインデータセットのデータ型と同じでない場合、このしきい値は、違反としてフラグを付ける必要があるかどうかを評価するために使用されます。

ベースラインステップでは、生成された制約によって、各列の推定データ型が推奨されます。datatype_check_threshold パラメータを微調整すると、違反としてフラグが付けられる際のしきい値を調整できます。

有効な値: 浮動小数点数

デフォルト: 0.1

domain_content_threshold

現在のデータセットの String フィールドの未知の値が、ベースラインデータセットよりも多い場合は、このしきい値を使用して、違反としてフラグを付ける必要があるかどうかを決定できます。

有効な値: 浮動小数点数

デフォルト: 0.1

distribution_constraints perform_comparison

Enabled の場合、このフラグは、ベースラインディストリビューションと現在のデータセットで確認されたディストリビューションの間のディストリビューション比較を実行するようコードに指示します。

有効な値: Enabled または Disabled

デフォルト: Enabled

comparison_threshold

しきい値が comparison_threshold に設定されている値を超えると、違反レポートで違反として扱われる障害が発生します。距離は、2 つのディストリビューションの累積ディストリビューション関数間の最大絶対差を得ることによって計算されます。

有効な値: 浮動小数点数

デフォルト: 0.1

comparison_method

linf_simple または linf_robust を計算するかどうか。linf_simple は、2 つのディストリビューションの累積ディストリビューション関数の最大絶対差に基づいています。linf_robust の計算は linf_simple に基づいていますが、サンプルが足りない場合に使用されます。この linf_robust 式は、2 標本コルモゴロフ=スミルノフ検定に基づいています。

有効な値: linf_simple または linf_robust

categorical_comparison_threshold

オプション。カテゴリ機能のしきい値を設定します。データセットの値が設定したしきい値を超えると、違反レポートに違反が記録されます。

有効な値: 浮動小数点数

デフォルト: comparison_threshold パラメータに割り当てられた値

categorical_drift_method

オプション。カテゴリ特徴量の場合、分布ドリフトの検出に使用される計算方法を指定します。このパラメータを設定しない場合、K-S (LInfinity) テストが使用されます。

有効な値: LInfinity または ChiSquared

デフォルト: LInfinity