翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データのエクスポート
データをエクスポートして、データフローからインポートされたデータセット全体に変換を適用します。データフロー内の任意のノードを次の場所にエクスポートできます。
-
SageMaker Canvas データセット
-
Amazon S3
Canvas でモデルをトレーニングする場合は、変換された完全なデータセットを Canvas データセットとしてエクスポートできます。 SageMaker Canvas 外部の機械学習ワークフローで変換されたデータを使用する場合は、データセットを Amazon S3 にエクスポートできます。
Canvas データセットへのエクスポート
データフロー内のノードから SageMaker Canvas データセットをエクスポートするには、次の手順に従います。
フロー内のノードを Canvas SageMaker データセットとしてエクスポートするには
-
データフローに移動します。
-
エクスポートするノードの横にある省略記号アイコンを選択します。
-
コンテキストメニューで、エクスポート にカーソルを合わせ、Canvas データセット にデータをエクスポート を選択します。
-
キャンバスへのエクスポートデータセットのサイドパネルで、新しいデータセットのデータセット名を入力します。
-
SageMaker Canvas でデータセット全体を処理および保存する場合は、データセット全体の処理オプションを選択したままにします。このオプションをオフにすると、データフローで作業しているサンプルデータにのみ変換が適用されます。
-
[エクスポート] をクリックします。
これで、Canvas アプリケーションのデータセットページに移動し、新しいデータセットを表示できるようになりました。
Amazon S3 へのエクスポート
Amazon S3 にデータをエクスポートするときは、スケールして任意のサイズのデータを変換および処理できます。Canvas は、アプリケーションのメモリがデータセットのサイズを処理できる場合、データをローカルで自動的に処理します。データセットのサイズがローカルメモリ容量の 5 GB を超える場合、Canvas はユーザーに代わってリモートジョブを開始し、追加のコンピューティングリソースをプロビジョニングしてデータをより迅速に処理します。デフォルトでは、Canvas は Amazon EMR Serverless を使用してこれらのリモートジョブを実行します。ただし、独自の設定でEMRサーバーレスジョブまたは SageMaker 処理ジョブを使用するように Canvas を手動で設定できます。
注記
EMR Serverless ジョブを実行すると、デフォルトでジョブは Canvas アプリケーションのIAMロール、KMSキー設定、タグを継承します。
Canvas のリモートジョブのオプションを以下にまとめます。
-
EMR Serverless : Canvas がリモートジョブに使用するデフォルトのオプションです。EMR Serverless は、コンピューティングリソースを自動的にプロビジョニングしてスケーリングし、データを処理します。これにより、ワークロードに適したコンピューティングリソースを選択する心配がなくなります。EMR Serverless の詳細については、EMR「Serverless ユーザーガイド」を参照してください。
-
SageMaker 処理 : SageMaker 処理ジョブは、データの処理に使用されるコンピューティングリソースをより高度なオプションときめ細かな制御を提供します。例えば、コンピューティングインスタンスのタイプと数を指定したり、独自の でジョブを設定VPCしたり、ネットワークアクセスを制御したり、処理ジョブを自動化したりできます。処理ジョブの自動化の詳細については、「」を参照してください新しいデータを自動的に処理するスケジュールを作成する。ジョブ SageMaker の処理の詳細については、「」を参照してください SageMaker 処理によるデータ変換ワークロード。
Amazon S3 へのエクスポートでは、次のファイルタイプがサポートされています。
-
CSV
-
Parquet
開始するには、以下の前提条件を参照してください。
EMR Serverless ジョブの前提条件
EMR Serverless リソースを使用するリモートジョブを作成するには、必要なアクセス許可が必要です。Amazon SageMaker ドメインまたはユーザープロファイル設定を使用してアクセス許可を付与することも、ユーザー AWS IAMロールを手動で設定することもできます。大規模なデータ処理を実行するアクセス許可をユーザーに付与する方法については、「」を参照してくださいML ライフサイクル全体でラージデータを使用するアクセス許可をユーザーに付与する。
これらのポリシーを設定しなくても、Data Wrangler を使用して大規模なデータセットを処理する必要がある場合は、処理 SageMaker ジョブを使用することもできます。
Amazon S3 にデータをエクスポートするには、次の手順を使用します。リモートジョブを設定するには、オプションの高度なステップに従います。
フロー内のノードを Amazon S3 にエクスポートするには
-
データフローに移動します。
-
エクスポートするノードの横にある省略記号アイコンを選択します。
-
コンテキストメニューで、エクスポート にカーソルを合わせ、Amazon S3 にデータをエクスポートを選択します。
-
Amazon S3 へのエクスポートサイドパネルで、新しいデータセットのデータセット名を変更できます。
-
S3 ロケーション には、データセットをエクスポートする Amazon S3 ロケーションを入力します。S3URI、エイリアス、または S3 ロケーションまたは ARN S3 アクセスポイントを入力できます。アクセスポイントの詳細については、Amazon S3 ユーザーガイド」の「Amazon S3 アクセスポイントによるデータアクセスの管理」を参照してください。 Amazon S3
-
(オプション) 詳細設定 では、次のフィールドに値を指定します。
-
ファイルタイプ – エクスポートされたデータのファイル形式。
-
区切り文字 – ファイル内の値を区切るために使用される区切り文字。
-
圧縮 – ファイルサイズを小さくするために使用される圧縮方法。
-
パーティションの数 – Canvas がジョブの出力として書き込むデータセットファイルの数。
-
列の選択 – データから列のサブセットを選択して、パーティションに含めることができます。
-
-
Canvas でデータフロー変換をデータセット全体に適用し、結果をエクスポートする場合は、データセット全体の処理オプションを選択したままにします。このオプションの選択を解除すると、Canvas はインタラクティブ Data Wrangler データフローで使用されるデータセットのサンプルにのみ変換を適用します。
注記
データのサンプルのみをエクスポートする場合、Canvas はアプリケーション内のデータを処理し、リモートジョブを作成しません。
-
Canvas で Canvas アプリケーションメモリまたは EMR Serverless ジョブを使用してジョブを実行するかどうかを自動的に判断する場合は、Auto job configuration オプションを選択したままにします。このオプションの選択を解除し、ジョブを手動で設定する場合は、EMRサーバーレスジョブまたは SageMaker 処理ジョブのいずれかを使用できます。EMR サーバーレスジョブまたは SageMaker 処理ジョブを設定する方法については、データをエクスポートする前に、この手順の後のセクションを参照してください。
-
[エクスポート] をクリックします。
次の手順は、完全なデータセットを Amazon S3 にエクスポートするときに、EMRサーバーレスまたは SageMaker 処理のいずれかのリモートジョブ設定を手動で設定する方法を示しています。
データをエクスポートしたら、完全に処理されたデータセットが指定された Amazon S3 の場所にあるはずです。