Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

SageMaker Processing によるデータ変換ワークロード

フォーカスモード
SageMaker Processing によるデータ変換ワークロード - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker Processing は、SageMaker AI のフルマネージドインフラストラクチャでデータの事前処理と事後処理、特徴量エンジニアリング、モデル評価タスクを実行する SageMaker AI の機能を指します。これらのタスクは、処理ジョブとして実行されます。以降では、SageMaker Processing に関する情報とリソースを説明します。

SageMaker Processing API を使用すると、データサイエンティストはスクリプトとノートブックを実行してデータセットを処理、変換、分析し、機械学習に備えることができます。Processing は、トレーニングやホスティングなど、SageMaker AI が提供する他の重要な機械学習タスクと組み合わせると、SageMaker AI に組み込まれているすべてのセキュリティとコンプライアンスのサポートなど、フルマネージド型の機械学習環境の利点を提供します。組み込みのデータ処理コンテナを使用するか、カスタム処理ロジック用に独自のコンテナを持ち込んで、SageMaker AI マネージドインフラストラクチャで実行するジョブを送信する柔軟性があります。

注記

SageMaker AI でサポートされている任意の言語で CreateProcessingJob API アクションを呼び出すか、 を使用して、処理ジョブをプログラムで作成できます AWS CLI。この API アクションが選択した言語の関数にどのように変換されるかについては、「CreateProcessingJob and choose an SDK」の関連項目セクションを参照してください。Python ユーザーの場合の一例として、「SageMaker Python SDK」の「Amazon SageMaker Processing」セクションを参照してください。または、 AWS SDK for Python (Boto3)で create_processing_job の完全なリクエスト構文を参照してください。

次の図は、Amazon SageMaker AI が処理ジョブを起動する方法を示しています。Amazon SageMaker AI はスクリプトを取得し、Amazon Simple Storage Service (Amazon S3) からデータをコピーして、処理コンテナをプルします。Processing ジョブの基盤となるインフラストラクチャは、Amazon SageMaker AI によって完全に管理されます。処理ジョブを送信すると、SageMaker AI はコンピューティングインスタンスを起動し、入力データを処理および分析し、完了時にリソースを解放します。Processing ジョブの出力は、指定した Amazon S3 バケットに保存されます。

注記

入力データは Amazon S3 バケットに保存されている必要があります。または、Amazon Athena または Amazon Redshift を入力ソースとして使用することもできます。

処理ジョブの実行。
ヒント

機械学習 (ML) のトレーニングや処理ジョブ全般の分散コンピューティングのベストプラクティスについては、「SageMaker AI ベストプラクティスを使用した分散コンピューティング」を参照してください。

Amazon SageMaker Processing のサンプルノートブックを使う

データの前処理、モデル評価、またはその両方を実行する方法を示す 2 つのサンプル Jupyter ノートブックが用意されています。

scikit-learn スクリプトを実行して、SageMaker Python SDK for Processing を使ってデータの前処理やモデルトレーニングと評価を行う方法を示したサンプルノートブックについては、「scikit-learn 処理」を参照してください。このノートブックでは、独自のカスタムコンテナを使用して、Python ライブラリやその他の特定の依存関係で処理ワークロードを実行する方法についても説明します。

Amazon SageMaker Processing を使い、Spark を使って分散データを前処理する方法を示したサンプルノートブックについては、「分散処理 (Spark)」を参照してください。このノートブックでは、前処理されたデータセットで XGBoost を使用して回帰モデルをトレーニングする方法についても説明します。

SageMaker AI でこれらのサンプルを実行するために使用できる Jupyter Notebook インスタンスを作成してアクセスする方法については、「」を参照してくださいAmazon SageMaker ノートブックインスタンス。ノートブックインスタンスを作成して開いたら、SageMaker AI Examples タブを選択して、すべての SageMaker AI サンプルのリストを表示します。ノートブックを開くには、その [Use (使用)] タブを選択し、[Create copy (コピーを作成)] を選択します。

CloudWatch のログとメトリクスを使って Amazon SageMaker Processing ジョブをモニタリングする

Processing ジョブをモニタリングするために、Amazon SageMaker Processing は Amazon CloudWatch のログとメトリクスを提供します。CloudWatch は、CPU、GPU、メモリ、GPU メモリ、ディスクメトリクス、イベントログを提供します。詳細については、Amazon CloudWatch で Amazon SageMaker AI をモニタリングするためのメトリクスおよびAmazon SageMaker AI が Amazon CloudWatch Logs に送信するロググループとストリームを参照してください。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.