翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データをエクスポートして、データフローからの変換を、インポートされた完全なデータセットに適用します。データフロー内の任意のノードを次の場所にエクスポートできます。
-
SageMaker Canvas データセット
-
Amazon S3
Canvas でモデルをトレーニングする場合は、変換された完全なデータセットを Canvas データセットとしてエクスポートできます。SageMaker Canvas の外部にある機械学習ワークフローで変換されたデータを使用する場合は、データセットを Amazon S3 にエクスポートできます。
Canvas データセットへのエクスポート
データフロー内のノードから SageMaker Canvas データセットをエクスポートするには、次の手順に従います。
フロー内のノードを SageMaker Canvas データセットとしてエクスポートするには
-
データフローに移動します。
-
エクスポートするノードの横にある省略記号アイコンを選択します。
-
コンテキストメニューで、[エクスポート] にカーソルを合わせ、[データを Canvas データセットにエクスポート] を選択します。
-
[キャンバスデータセットへのエクスポート] サイドパネルで、新しいデータセットの [データセット名] を入力します。
-
SageMaker Canvas で完全なデータセットを処理して保存する場合は、[データセット全体を処理] オプションを選択したままにします。このオプションをオフにすると、データフローで作業しているサンプルデータにのみ変換が適用されます。
-
[エクスポート] をクリックします。
これで、Canvas アプリケーションの [データセット] ページに移動し、新しいデータセットを表示できるようになりました。
Amazon S3 へのエクスポート
データを Amazon S3 にエクスポートするときは、あらゆるサイズのデータを変換して処理するようにスケールできます。Canvas では、アプリケーションのメモリがデータセットのサイズを処理できる場合、データをローカルで自動的に処理します。データセットのサイズが 5 GB のローカルメモリ容量を超える場合、Canvas はユーザーに代わってリモートジョブを開始し、追加のコンピューティングリソースをプロビジョニングしてデータをより迅速に処理します。デフォルトでは、Canvas は Amazon EMR Serverless を使用してこれらのリモートジョブを実行します。ただし、独自の設定を使用して、EMR Serverless ジョブまたは SageMaker 処理ジョブを使用するように Canvas を手動で設定できます。
注記
EMR Serverless ジョブを実行すると、デフォルトでジョブは Canvas アプリケーションの IAM ロール、KMS キー設定、タグを継承します。
Canvas のリモートジョブのオプションを以下にまとめます。
-
EMR Serverless:Canvas がリモートジョブに使用するデフォルトのオプションです。EMR Serverless では、コンピューティングリソースを自動的にプロビジョニングおよびスケールしてデータを処理するため、ワークロードに適したコンピューティングリソースの選択を心配する必要がありません。EMR Serverless の詳細については、EMR Serverless ユーザーガイドを参照してください。
-
SageMaker 処理:SageMaker 処理ジョブは、データの処理に使用されるコンピューティングリソースに対して高度なオプションときめ細かな制御を提供します。例えば、コンピューティングインスタンスのタイプと数を指定したり、独自の VPC でジョブを設定してネットワークアクセスを制御したり、処理ジョブを自動化したりできます。処理ジョブの自動化の詳細については、「新しいデータを自動的に処理するスケジュールを作成する」を参照してください。SageMaker Processing ジョブの一般的な情報については、「」を参照してくださいSageMaker Processing によるデータ変換ワークロード。
Amazon S3 へのエクスポートでは、次のファイルの種類がサポートされています。
-
CSV
-
Parquet
開始するには、以下の前提条件を参照してください。
EMR Serverless ジョブの前提条件
EMR Serverless リソースを使用するリモートジョブを作成するには、必要な権限が必要です。Amazon SageMaker AI ドメインまたはユーザープロファイル設定を使用してアクセス許可を付与することも、ユーザーの IAM AWS ロールを手動で設定することもできます。大規模なデータ処理を実行する権限をユーザーに付与する方法については、「ML ライフサイクル全体で大容量データを使用するための権限をユーザーに付与する」を参照してください。
これらのポリシーを設定せずに、Data Wrangler を使用して大規模なデータセットを処理する必要がある場合は、代わりに SageMaker 処理ジョブを使用できます。
データを Amazon S3 にエクスポートする場合は、以下の手順に従います。リモートジョブを設定するには、オプションの高度なステップに従います。
フロー内のノードを Amazon S3 にエクスポートするには
-
データフローに移動します。
-
エクスポートするノードの横にある省略記号アイコンを選択します。
-
コンテキストメニューで、[エクスポート] にカーソルを合わせ、[データを Amazon S3 にエクスポート] を選択します。
-
[Amazon S3 にエクスポート] サイドパネルで、新しいデータセットの [データセット名] を変更できます。
-
[S3 の場所] には、データセットのエクスポート先の Amazon S3 の場所を入力します。S3 の場所または S3 のアクセスポイントの S3 URI、エイリアス、または ARN を入力できます。アクセスポイントの詳細については、Amazon S3 ユーザーガイドの「Amazon S3 アクセスポイントを使用したデータアクセスの管理」を参照してください。
-
(オプション) [詳細設定] では、以下のフィールドの値を指定します。
-
ファイルタイプ – エクスポートされたデータのファイル形式。
-
区切り記号 – ファイル内の値を区切るために使用する区切り記号。
-
圧縮 – ファイルサイズを小さくするために使用する圧縮方法。
-
パーティション数 – Canvas がジョブの出力として書き込むデータセットファイルの数。
-
列を選択 – データから列のサブセットを選択して、パーティションに含めることができます。
-
-
Canvas でデータフロー変換をデータセット全体に適用し、結果をエクスポートする場合は、[データセット全体を処理] オプションを選択したままにします。このオプションの選択を解除すると、Canvas はインタラクティブ Data Wrangler データフローで使用されるデータセットのサンプルにのみ変換を適用します。
注記
データのサンプルのみをエクスポートする場合は、アプリケーション内のデータが処理され、リモートジョブは作成されません。
-
Canvas アプリケーションメモリまたは EMR Serverless ジョブを使用してジョブを実行するかどうかを Canvas に自動的に判断させる場合は、[自動ジョブ設定] オプションを選択したままにします。このオプションの選択を解除し、ジョブを手動で設定する場合は、EMR Serverless ジョブまたは SageMaker 処理ジョブのどちらを使用するかを選択できます。EMR Serverless ジョブまたは SageMaker 処理ジョブを設定する方法については、データをエクスポートする前に、この手順の後のセクションを参照してください。
-
[エクスポート] をクリックします。
次の手順は、完全なデータセットを Amazon S3 にエクスポートするときに、EMR Serverless または SageMaker 処理のリモートジョブ設定を手動で設定する方法を示します。
Amazon S3 へのエクスポート中に EMR Serverless ジョブを設定するには、以下を実行します。
-
[Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] オプションをオフにします。
-
[EMR Serverless] を選択します。
-
[ジョブ名] に、EMR Serverless ジョブの名前を入力します。名前には、文字、数字、ハイフン、アンダースコアを含めることができます。
-
[IAM ロール] には、ユーザーの IAM 実行ロールを入力します。このロールには、EMR Serverless アプリケーションを実行するために必要な権限が必要です。詳細については、「ML ライフサイクル全体で大容量データを使用するための権限をユーザーに付与する」を参照してください。
-
(オプション) KMS キーで、ジョブログを暗号化 AWS KMS key する のキー ID または ARN を指定します。キーを入力しない場合、Canvas は EMR Serverless のデフォルトキーを使用します。
-
(オプション) [モニタリング設定] には、ログを発行する Amazon CloudWatch Logs ロググループの名前を入力します。
-
(オプション) [タグ] では、キーと値のペアで構成される EMR Serverless ジョブにメタデータタグを追加します。これらのタグは、ジョブの分類と検索に使用できます。
-
[エクスポート] を選択してジョブを開始します。
データをエクスポートすると、完全に処理されたデータセットが指定の Amazon S3 の場所に含まれます。