Data Wrangler でのデータ処理の仕組み - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Data Wrangler でのデータ処理の仕組み

Amazon SageMaker Data Wrangler データフローでデータをインタラクティブに操作している間、Amazon SageMaker Canvas はサンプルデータセットにのみ変換を適用し、プレビューできるようにします。 SageMaker Canvas でデータフローが完了したら、すべてのデータを処理して、機械学習ワークフローに適した場所に保存できます。

Data Wrangler でのデータの変換が完了したら、いくつかの方法があります。

  • モデル を作成します。Canvas モデルを作成できます。ここでは、準備したデータを使用してモデルの作成を直接開始します。データセット全体を処理した後、または Data Wrangler で操作したサンプルデータのみをエクスポートすることで、モデルを作成できます。Canvas は、処理されたデータ (データセット全体またはサンプルデータ) を Canvas データセットとして保存します。

    サンプルデータを使用して迅速な反復を行うことをお勧めしますが、最終モデルをトレーニングする場合はデータ全体を使用することをお勧めします。表形式モデルを構築する場合、5 GB を超えるデータセットは自動的に 5 GB にダウンサンプリングされ、時系列予測モデルの場合、30 GB を超えるデータセットは 30 GB にダウンサンプリングされます。

    モデルの作成の詳細については、「」を参照してくださいカスタムモデルの仕組み

  • データをエクスポートします。データをエクスポートして、機械学習ワークフローで使用できます。データをエクスポートする場合は、いくつかのオプションがあります。

    • Canvas アプリケーションにデータセットとしてデータを保存できます。Canvas データセットでサポートされているファイルタイプと、Canvas にデータをインポートする際の追加要件の詳細については、「」を参照してくださいデータセットを作成する

    • Amazon S3 にデータを保存できます。Canvas メモリの可用性に応じて、データはアプリケーションで処理され、Amazon S3 にエクスポートされます。データセットのサイズが Canvas が処理できるサイズを超える場合、デフォルトで Canvas はEMRサーバーレスジョブを使用して複数のコンピューティングインスタンスにスケーリングし、完全なデータセットを処理し、Amazon S3 にエクスポートします。 SageMaker データ処理ジョブを手動で設定して、データの処理に使用されるコンピューティングリソースをより詳細に制御することもできます。

  • データフロー をエクスポートします。Canvas の外部で変換を変更または実行できるように、データフローのコードを保存することもできます。Canvas には、データフロー変換を Jupyter ノートブックに Python コードとして保存するためのオプションがあり、機械学習ワークフローの他の場所で使用するために Amazon S3 にエクスポートできます。

データフローからデータをエクスポートし、Canvas データセットとして、または Amazon S3 に保存すると、Canvas はデータフローに新しい送信先ノードを作成します。これは、処理されたデータがどこに保存されているかを示す最後のノードです。複数のエクスポートオペレーションを実行する場合は、フローに追加の送信先ノードを追加できます。例えば、データフローの異なるポイントからデータをエクスポートして、変換の一部のみを適用したり、変換したデータを異なる Amazon S3 ロケーションにエクスポートしたりできます。送信先ノードを追加または編集する方法の詳細については、送信先ノードを追加する「」および「」を参照してください送信先ノードを編集する

Amazon でスケジュールを設定 EventBridge して、スケジュールに従ってデータを自動的に処理およびエクスポートする方法の詳細については、「」を参照してください新しいデータを自動的に処理するスケジュールを作成する