データのエクスポート

フォーカスモード

データのエクスポート - Amazon SageMaker AI

Canvas データセットへのエクスポート Amazon S3 へのエクスポート

データをエクスポートして、データフローからの変換を、インポートされた完全なデータセットに適用します。データフロー内の任意のノードを次の場所にエクスポートできます。

SageMaker Canvas データセット
Amazon S3

Canvas でモデルをトレーニングする場合は、変換された完全なデータセットを Canvas データセットとしてエクスポートできます。SageMaker Canvas の外部にある機械学習ワークフローで変換されたデータを使用する場合は、データセットを Amazon S3 にエクスポートできます。

Canvas データセットへのエクスポート

データフロー内のノードから SageMaker Canvas データセットをエクスポートするには、次の手順に従います。

フロー内のノードを SageMaker Canvas データセットとしてエクスポートするには

データフローに移動します。
エクスポートするノードの横にある省略記号アイコンを選択します。
コンテキストメニューで、[エクスポート] にカーソルを合わせ、[データを Canvas データセットにエクスポート] を選択します。
[キャンバスデータセットへのエクスポート] サイドパネルで、新しいデータセットの [データセット名] を入力します。
SageMaker Canvas で完全なデータセットを処理して保存する場合は、[データセット全体を処理] オプションを選択したままにします。このオプションをオフにすると、データフローで作業しているサンプルデータにのみ変換が適用されます。
[エクスポート] をクリックします。

これで、Canvas アプリケーションの [データセット] ページに移動し、新しいデータセットを表示できるようになりました。

Amazon S3 へのエクスポート

データを Amazon S3 にエクスポートするときは、あらゆるサイズのデータを変換して処理するようにスケールできます。Canvas では、アプリケーションのメモリがデータセットのサイズを処理できる場合、データをローカルで自動的に処理します。データセットのサイズが 5 GB のローカルメモリ容量を超える場合、Canvas はユーザーに代わってリモートジョブを開始し、追加のコンピューティングリソースをプロビジョニングしてデータをより迅速に処理します。デフォルトでは、Canvas は Amazon EMR Serverless を使用してこれらのリモートジョブを実行します。ただし、独自の設定を使用して、EMR Serverless ジョブまたは SageMaker 処理ジョブを使用するように Canvas を手動で設定できます。

注記

EMR Serverless ジョブを実行すると、デフォルトでジョブは Canvas アプリケーションの IAM ロール、KMS キー設定、タグを継承します。

Canvas のリモートジョブのオプションを以下にまとめます。

EMR Serverless：Canvas がリモートジョブに使用するデフォルトのオプションです。EMR Serverless では、コンピューティングリソースを自動的にプロビジョニングおよびスケールしてデータを処理するため、ワークロードに適したコンピューティングリソースの選択を心配する必要がありません。EMR Serverless の詳細については、EMR Serverless ユーザーガイドを参照してください。
SageMaker 処理：SageMaker 処理ジョブは、データの処理に使用されるコンピューティングリソースに対して高度なオプションときめ細かな制御を提供します。例えば、コンピューティングインスタンスのタイプと数を指定したり、独自の VPC でジョブを設定してネットワークアクセスを制御したり、処理ジョブを自動化したりできます。処理ジョブの自動化の詳細については、「新しいデータを自動的に処理するスケジュールを作成する」を参照してください。SageMaker Processing ジョブの詳細については、「」を参照してくださいSageMaker Processing によるデータ変換ワークロード。

Amazon S3 へのエクスポートでは、次のファイルの種類がサポートされています。

CSV
Parquet

開始するには、以下の前提条件を参照してください。

EMR Serverless ジョブの前提条件

EMR Serverless リソースを使用するリモートジョブを作成するには、必要な権限が必要です。Amazon SageMaker AI ドメインまたはユーザープロファイル設定を使用してアクセス許可を付与することも、ユーザーの IAM AWS ロールを手動で設定することもできます。大規模なデータ処理を実行する権限をユーザーに付与する方法については、「ML ライフサイクル全体で大容量データを使用するための権限をユーザーに付与する」を参照してください。

これらのポリシーを設定せずに、Data Wrangler を使用して大規模なデータセットを処理する必要がある場合は、代わりに SageMaker 処理ジョブを使用できます。

データを Amazon S3 にエクスポートする場合は、以下の手順に従います。リモートジョブを設定するには、オプションの高度なステップに従います。

フロー内のノードを Amazon S3 にエクスポートするには

データフローに移動します。
エクスポートするノードの横にある省略記号アイコンを選択します。
コンテキストメニューで、[エクスポート] にカーソルを合わせ、[データを Amazon S3 にエクスポート] を選択します。
[Amazon S3 にエクスポート] サイドパネルで、新しいデータセットの [データセット名] を変更できます。
[S3 の場所] には、データセットのエクスポート先の Amazon S3 の場所を入力します。S3 の場所または S3 のアクセスポイントの S3 URI、エイリアス、または ARN を入力できます。アクセスポイントの詳細については、Amazon S3 ユーザーガイドの「Amazon S3 アクセスポイントを使用したデータアクセスの管理」を参照してください。
(オプション) [詳細設定] では、以下のフィールドの値を指定します。
1. ファイルタイプ – エクスポートされたデータのファイル形式。
2. 区切り記号 – ファイル内の値を区切るために使用する区切り記号。
3. 圧縮 – ファイルサイズを小さくするために使用する圧縮方法。
4. パーティション数 – Canvas がジョブの出力として書き込むデータセットファイルの数。
5. 列を選択 – データから列のサブセットを選択して、パーティションに含めることができます。
Canvas でデータフロー変換をデータセット全体に適用し、結果をエクスポートする場合は、[データセット全体を処理] オプションを選択したままにします。このオプションの選択を解除すると、Canvas はインタラクティブ Data Wrangler データフローで使用されるデータセットのサンプルにのみ変換を適用します。

注記
データのサンプルのみをエクスポートする場合は、アプリケーション内のデータが処理され、リモートジョブは作成されません。
Canvas アプリケーションメモリまたは EMR Serverless ジョブを使用してジョブを実行するかどうかを Canvas に自動的に判断させる場合は、[自動ジョブ設定] オプションを選択したままにします。このオプションの選択を解除し、ジョブを手動で設定する場合は、EMR Serverless ジョブまたは SageMaker 処理ジョブのどちらを使用するかを選択できます。EMR Serverless ジョブまたは SageMaker 処理ジョブを設定する方法については、データをエクスポートする前に、この手順の後のセクションを参照してください。
[エクスポート] をクリックします。

次の手順は、完全なデータセットを Amazon S3 にエクスポートするときに、EMR Serverless または SageMaker 処理のリモートジョブ設定を手動で設定する方法を示します。

EMR Serverless

Amazon S3 へのエクスポート中に EMR Serverless ジョブを設定するには、以下を実行します。

[Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] オプションをオフにします。
[EMR Serverless] を選択します。
[ジョブ名] に、EMR Serverless ジョブの名前を入力します。名前には、文字、数字、ハイフン、アンダースコアを含めることができます。
[IAM ロール] には、ユーザーの IAM 実行ロールを入力します。このロールには、EMR Serverless アプリケーションを実行するために必要な権限が必要です。詳細については、「ML ライフサイクル全体で大容量データを使用するための権限をユーザーに付与する」を参照してください。
（オプション) KMS キーで、ジョブログを暗号化 AWS KMS key するのキー ID または ARN を指定します。キーを入力しない場合、Canvas は EMR Serverless のデフォルトキーを使用します。
(オプション) [モニタリング設定] には、ログを発行する Amazon CloudWatch Logs ロググループの名前を入力します。
(オプション) [タグ] では、キーと値のペアで構成される EMR Serverless ジョブにメタデータタグを追加します。これらのタグは、ジョブの分類と検索に使用できます。
[エクスポート] を選択してジョブを開始します。

SageMaker Processing

Amazon S3 へのエクスポート中に SageMaker 処理ジョブを設定するには、以下を実行します。

[Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] オプションをオフにします。
[SageMaker 処理] を選択します。
ジョブ名に、SageMaker AI Processing ジョブの名前を入力します。
[インスタンスタイプ] では、処理ジョブを実行するコンピューティングインスタンスのタイプを選択します。
[インスタンス数] で、起動するコンピューティングインスタンスの数を指定します。
[IAM ロール] には、ユーザーの IAM 実行ロールを入力します。このロールには、SageMaker AI がユーザーに代わって処理ジョブを作成および実行するために必要なアクセス許可が必要です。これらの権限は、AmazonSageMakerFullAccess ポリシーが IAM ロールにアタッチされている場合に付与されます。
[ボリュームサイズ] には、各処理インスタンスにアタッチされている ML ストレージボリュームのストレージサイズを GB 単位で入力します。予想される入出力データサイズに基づいてサイズを選択します。
(オプション) [ボリューム KMS キー] には、ストレージボリュームを暗号化するための KMS キーを指定します。キーを指定しない場合は、デフォルトの Amazon EBS 暗号化キーが使用されます。
(オプション) [KMS キー] には、処理ジョブで使用される Amazon S3 データソースの入出力を暗号化するための KMS キーを指定します。
(オプション) [Spark メモリ設定] では、以下を実行します｡
1. ジョブの調整とスケジューリングを処理する Spark ドライバーノードの [ドライバーメモリ (MB)] を入力します。
2. ジョブで個々のタスクを実行する Spark エグゼキューターノードの [エグゼキューターメモリ (MB)] を入力します。
(オプション) [ネットワーク設定] で、以下を実行します。
1. [サブネット設定] には、起動する処理インスタンスの VPC サブネットの ID を入力します。デフォルトでは、ジョブはデフォルトの VPC の設定を使用します。
2. [セキュリティグループ設定] には、インバウンドおよびアウトバウンドの接続ルールを制御するセキュリティグループの ID を入力します。
3. [コンテナ間のトラフィック暗号化を有効にする] オプションをオンにして、ジョブの実行中に処理コンテナ間のネットワーク通信を暗号化します。
(オプション) [スケジュールの関連付け] では、Amazon EventBridge スケジュールを作成して、処理ジョブを定期的な間隔で実行することを選択できます。[新しいスケジュールを作成] を選択し、ダイアログボックスに入力します。このセクションへの入力とスケジュールどおりに処理ジョブを実行する方法の詳細については、「新しいデータを自動的に処理するスケジュールを作成する」を参照してください。
(オプション) [タグ] をキーと値のペアとして追加し、処理ジョブを分類して検索できるようにします。
[エクスポート] を選択してジョブを開始します。

anchor anchor

Amazon S3 へのエクスポート中に EMR Serverless ジョブを設定するには、以下を実行します。

[Amazon S3 にエクスポート] サイドパネルで、[自動ジョブ設定] オプションをオフにします。
[EMR Serverless] を選択します。
[ジョブ名] に、EMR Serverless ジョブの名前を入力します。名前には、文字、数字、ハイフン、アンダースコアを含めることができます。
[IAM ロール] には、ユーザーの IAM 実行ロールを入力します。このロールには、EMR Serverless アプリケーションを実行するために必要な権限が必要です。詳細については、「ML ライフサイクル全体で大容量データを使用するための権限をユーザーに付与する」を参照してください。
（オプション) KMS キーで、ジョブログを暗号化 AWS KMS key するのキー ID または ARN を指定します。キーを入力しない場合、Canvas は EMR Serverless のデフォルトキーを使用します。
(オプション) [モニタリング設定] には、ログを発行する Amazon CloudWatch Logs ロググループの名前を入力します。
(オプション) [タグ] では、キーと値のペアで構成される EMR Serverless ジョブにメタデータタグを追加します。これらのタグは、ジョブの分類と検索に使用できます。
[エクスポート] を選択してジョブを開始します。

データをエクスポートすると、完全に処理されたデータセットが指定の Amazon S3 の場所に含まれます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

エクスポートしてモデルを作成する

データフローのエクスポート

このページの内容

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

データのエクスポート

Canvas データセットへのエクスポート

フロー内のノードを SageMaker Canvas データセットとしてエクスポートするには

Amazon S3 へのエクスポート

注記

EMR Serverless ジョブの前提条件

フロー内のノードを Amazon S3 にエクスポートするには

注記

このページの内容

Related resources

このページは役に立ちましたか?

Related resources

次のトピック

前のトピック:

ヘルプが必要ですか?