SageMaker Processing を使用したデータ変換ワークロード - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker Processing を使用したデータ変換ワークロード

SageMaker 処理とは、 SageMaker AI のフルマネージドインフラストラクチャでデータの前処理と後処理、特徴量エンジニアリング、モデル評価タスクを実行する SageMaker AI の機能を指します。これらのタスクは、処理ジョブとして実行されます。以下に、 SageMaker 処理について学習するための情報とリソースを示します。

SageMaker Processing を使用するとAPI、データサイエンティストはスクリプトとノートブックを実行してデータセットを処理、変換、分析し、機械学習に備えることができます。トレーニングやホスティングなど、 SageMaker AI が提供する他の重要な機械学習タスクと組み合わせると、Processing は SageMaker AI に組み込まれているすべてのセキュリティとコンプライアンスのサポートを含む、フルマネージド型の機械学習環境の利点を提供します。組み込みのデータ処理コンテナを使用するか、カスタム処理ロジック用に独自のコンテナを持ち込んで、 SageMaker AI マネージドインフラストラクチャで実行するジョブを送信する柔軟性があります。

注記

処理ジョブは、 SageMaker AI でサポートされている任意の言語で CreateProcessingJobAPIアクションを呼び出すか、 を使用してプログラムで作成できます AWS CLI。このAPIアクションが任意の言語で関数に変換される方法については、「」のhttps://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateProcessingJob.html#API_CreateProcessingJob_SeeAlso「」セクションを参照して、 CreateProcessingJob を選択しますSDK。例として、Python ユーザーの場合は、Python の「Amazon SageMaker Processing SageMaker 」セクションを参照してくださいSDK。または、 AWS SDK for Python (Boto3)で create_processing_job の完全なリクエスト構文を参照してください。

次の図は、Amazon SageMaker AI が処理ジョブを起動する方法を示しています。Amazon SageMaker AI はスクリプトを取得し、Amazon Simple Storage Service (Amazon S3) からデータをコピーして、処理コンテナをプルします。Processing ジョブの基盤となるインフラストラクチャは、Amazon SageMaker AI によって完全に管理されます。処理ジョブを送信すると、 SageMaker AI はコンピューティングインスタンスを起動し、入力データを処理および分析し、完了時にリソースを解放します。Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。

注記

入力データは Amazon S3 バケットに保存されている必要があります。または、Amazon Athena または Amazon Redshift を入力ソースとして使用することもできます。

処理ジョブの実行。
ヒント

機械学習 (ML) のトレーニングや処理ジョブ全般の分散コンピューティングのベストプラクティスについては、「 SageMaker AI による分散コンピューティングのベストプラクティス」を参照してください。

Amazon SageMaker Processing サンプルノートブックを使用する

データの前処理、モデル評価、またはその両方を実行する方法を示す 2 つのサンプル Jupyter ノートブックが用意されています。

scikit-learn スクリプトを実行して Python SDK for Processing SageMaker でデータの前処理とモデルトレーニングと評価を実行する方法を示すサンプルノートブックについては、「scikit-learn Processing」を参照してください。このノートブックでは、独自のカスタムコンテナを使用して、Python ライブラリやその他の特定の依存関係で処理ワークロードを実行する方法についても説明します。

Amazon SageMaker Processing を使用して Spark で分散データ前処理を実行する方法を示すサンプルノートブックについては、「分散処理 (Spark)」を参照してください。このノートブックでは、前処理されたデータセットXGBoostで を使用して回帰モデルをトレーニングする方法も示します。

SageMaker AI でこれらのサンプルを実行するために使用できる Jupyter ノートブックインスタンスを作成してアクセスする方法については、「」を参照してくださいAmazon SageMaker Notebook インスタンス。ノートブックインスタンスを作成して開いたら、SageMaker AI Examples タブを選択して、すべての SageMaker AI サンプルのリストを表示します。ノートブックを開くには、その [Use (使用)] タブを選択し、[Create copy (コピーを作成)] を選択します。

CloudWatch ログとメトリクスを使用して Amazon SageMaker 処理ジョブをモニタリングする

Amazon SageMaker Processing は、処理ジョブをモニタリングするための Amazon CloudWatch ログとメトリクスを提供します。 CloudWatch はCPU、、GPU、メモリ、GPUメモリ、ディスクのメトリクス、およびイベントログ記録を提供します。詳細については、Amazon で Amazon SageMaker AI をモニタリングするためのメトリクス CloudWatchおよびAmazon SageMaker AI が Amazon CloudWatch Logs に送信するロググループとストリームを参照してください。