データ品質 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データ品質

データ品質モニタリング機能は、本番稼働中の機械学習 (ML) モデルを自動的にモニタリングし、データ品質の問題が発生したときに通知します。本番稼働中の ML モデルは、実際のデータを予測する必要があります。こうしたデータは、ほとんどのトレーニングデータセットとは異なり、慎重に厳選されていません。本番稼働中にモデルが受け取るデータの統計的性質が、トレーニングに使用されたベースラインデータの性質からドリフトすると、モデルの予測精度が低下していきます。Amazon SageMaker Model Monitor は、ルールを使用してデータドリフトを検出し、発生したときに警告します。データ品質を監視するには、次のステップを実行します。

  • データキャプチャを有効にします。データキャプチャは、リアルタイム推論エンドポイントまたはバッチ変換ジョブからの推論の入出力をキャプチャするか、データを Amazon S3 に保存します。詳細については、「データキャプチャ」を参照してください。

  • ベースラインを作成します。このステップでは、指定した入力データセットを分析するベースラインジョブを実行します。このベースラインは、Apache Spark に構築されたオープンソースライブラリである Deequ を使用して、各特徴のベースラインスキーマの制約と統計を計算します。このライブラリは、大規模なデータセットのデータ品質を測定するために使用されます。詳細については、「ベースラインの作成」を参照してください。

  • データ品質モニタリングジョブを定義し、スケジュールします。データ品質モニタリングジョブの具体的な情報とコードサンプルについては、「データ品質モニタリングジョブのスケジューリング」を参照してください。モニタリングジョブのスケジュールに関する一般的な情報については、「モニタリングジョブのスケジューリング」を参照してください。

    • オプションで、前処理スクリプトと後処理スクリプトを使用して、データ品質分析から得られたデータを変換します。詳細については、「前処理と後処理」を参照してください。

  • データ品質メトリクスを表示します。詳細については、「統計のスキーマ (statistics.json ファイル)」を参照してください。

  • データ品質モニタリングを Amazon と統合します CloudWatch。詳細については、「CloudWatch メトリクス」を参照してください。

  • モニタリングジョブの結果を解釈します。詳細については、「結果の解釈」を参照してください。

  • リアルタイムエンドポイントを使用している場合は、 SageMaker Studio を使用してデータ品質モニタリングを有効にし、結果を視覚化します。詳細については、「Amazon SageMaker Studio のリアルタイムエンドポイントの結果を視覚化する」を参照してください。

注記

Model Monitor は、表形式のデータのみに基づいてモデルメトリクスと統計を計算します。例えば、イメージを入力として受け取り、そのイメージに基づいてラベルを出力するイメージ分類モデルも引き続きモニタリングできます。Model Monitor は、入力ではなく出力のメトリクスと統計を計算できます。