データのエクスポート - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データのエクスポート

データをエクスポートして、データフローからインポートされたデータセット全体に変換を適用します。データフロー内の任意のノードを次の場所にエクスポートできます。

  • SageMaker Canvas データセット

  • Amazon S3

Canvas でモデルをトレーニングする場合は、変換された完全なデータセットを Canvas データセットとしてエクスポートできます。 SageMaker Canvas 外部の機械学習ワークフローで変換されたデータを使用する場合は、データセットを Amazon S3 にエクスポートできます。

Canvas データセットへのエクスポート

データフロー内のノードから SageMaker Canvas データセットをエクスポートするには、次の手順に従います。

フロー内のノードを Canvas SageMaker データセットとしてエクスポートするには
  1. データフローに移動します。

  2. エクスポートするノードの横にある省略記号アイコンを選択します。

  3. コンテキストメニューで、エクスポート にカーソルを合わせ、Canvas データセット にデータをエクスポート を選択します。

  4. キャンバスへのエクスポートデータセットのサイドパネルで、新しいデータセットのデータセット名を入力します。

  5. SageMaker Canvas でデータセット全体を処理および保存する場合は、データセット全体の処理オプションを選択したままにします。このオプションをオフにすると、データフローで作業しているサンプルデータにのみ変換が適用されます。

  6. [エクスポート] をクリックします。

これで、Canvas アプリケーションのデータセットページに移動し、新しいデータセットを表示できるようになりました。

Amazon S3 へのエクスポート

Amazon S3 にデータをエクスポートするときは、スケールして任意のサイズのデータを変換および処理できます。Canvas は、アプリケーションのメモリがデータセットのサイズを処理できる場合、データをローカルで自動的に処理します。データセットのサイズがローカルメモリ容量の 5 GB を超える場合、Canvas はユーザーに代わってリモートジョブを開始し、追加のコンピューティングリソースをプロビジョニングしてデータをより迅速に処理します。デフォルトでは、Canvas は Amazon EMR Serverless を使用してこれらのリモートジョブを実行します。ただし、独自の設定でEMRサーバーレスジョブまたは SageMaker 処理ジョブを使用するように Canvas を手動で設定できます。

注記

EMR Serverless ジョブを実行すると、デフォルトでジョブは Canvas アプリケーションのIAMロール、KMSキー設定、タグを継承します。

Canvas のリモートジョブのオプションを以下にまとめます。

  • EMR Serverless : Canvas がリモートジョブに使用するデフォルトのオプションです。EMR Serverless は、コンピューティングリソースを自動的にプロビジョニングしてスケーリングし、データを処理します。これにより、ワークロードに適したコンピューティングリソースを選択する心配がなくなります。EMR Serverless の詳細については、EMR「Serverless ユーザーガイド」を参照してください。

  • SageMaker 処理 : SageMaker 処理ジョブは、データの処理に使用されるコンピューティングリソースをより高度なオプションときめ細かな制御を提供します。例えば、コンピューティングインスタンスのタイプと数を指定したり、独自の でジョブを設定VPCしたり、ネットワークアクセスを制御したり、処理ジョブを自動化したりできます。処理ジョブの自動化の詳細については、「」を参照してください新しいデータを自動的に処理するスケジュールを作成する。ジョブ SageMaker の処理の詳細については、「」を参照してください SageMaker 処理によるデータ変換ワークロード

Amazon S3 へのエクスポートでは、次のファイルタイプがサポートされています。

  • CSV

  • Parquet

開始するには、以下の前提条件を参照してください。

EMR Serverless ジョブの前提条件

EMR Serverless リソースを使用するリモートジョブを作成するには、必要なアクセス許可が必要です。Amazon SageMaker ドメインまたはユーザープロファイル設定を使用してアクセス許可を付与することも、ユーザー AWS IAMロールを手動で設定することもできます。大規模なデータ処理を実行するアクセス許可をユーザーに付与する方法については、「」を参照してくださいML ライフサイクル全体でラージデータを使用するアクセス許可をユーザーに付与する

これらのポリシーを設定しなくても、Data Wrangler を使用して大規模なデータセットを処理する必要がある場合は、処理 SageMaker ジョブを使用することもできます。

Amazon S3 にデータをエクスポートするには、次の手順を使用します。リモートジョブを設定するには、オプションの高度なステップに従います。

フロー内のノードを Amazon S3 にエクスポートするには
  1. データフローに移動します。

  2. エクスポートするノードの横にある省略記号アイコンを選択します。

  3. コンテキストメニューで、エクスポート にカーソルを合わせ、Amazon S3 にデータをエクスポートを選択します。

  4. Amazon S3 へのエクスポートサイドパネルで、新しいデータセットのデータセット名を変更できます。

  5. S3 ロケーション には、データセットをエクスポートする Amazon S3 ロケーションを入力します。S3URI、エイリアス、または S3 ロケーションまたは ARN S3 アクセスポイントを入力できます。アクセスポイントの詳細については、Amazon S3 ユーザーガイド」の「Amazon S3 アクセスポイントによるデータアクセスの管理」を参照してください。 Amazon S3

  6. (オプション) 詳細設定 では、次のフィールドに値を指定します。

    1. ファイルタイプ – エクスポートされたデータのファイル形式。

    2. 区切り文字 – ファイル内の値を区切るために使用される区切り文字。

    3. 圧縮 – ファイルサイズを小さくするために使用される圧縮方法。

    4. パーティションの数 – Canvas がジョブの出力として書き込むデータセットファイルの数。

    5. 列の選択 – データから列のサブセットを選択して、パーティションに含めることができます。

  7. Canvas でデータフロー変換をデータセット全体に適用し、結果をエクスポートする場合は、データセット全体の処理オプションを選択したままにします。このオプションの選択を解除すると、Canvas はインタラクティブ Data Wrangler データフローで使用されるデータセットのサンプルにのみ変換を適用します。

    注記

    データのサンプルのみをエクスポートする場合、Canvas はアプリケーション内のデータを処理し、リモートジョブを作成しません。

  8. Canvas で Canvas アプリケーションメモリまたは EMR Serverless ジョブを使用してジョブを実行するかどうかを自動的に判断する場合は、Auto job configuration オプションを選択したままにします。このオプションの選択を解除し、ジョブを手動で設定する場合は、EMRサーバーレスジョブまたは SageMaker 処理ジョブのいずれかを使用できます。EMR サーバーレスジョブまたは SageMaker 処理ジョブを設定する方法については、データをエクスポートする前に、この手順の後のセクションを参照してください。

  9. [エクスポート] をクリックします。

次の手順は、完全なデータセットを Amazon S3 にエクスポートするときに、EMRサーバーレスまたは SageMaker 処理のいずれかのリモートジョブ設定を手動で設定する方法を示しています。

EMR Serverless

Amazon S3 へのエクスポート中に EMR Serverless ジョブを設定するには、次の手順を実行します。

  1. Amazon S3 へのエクスポートサイドパネルで、自動ジョブ設定オプションをオフにします。

  2. EMR Serverless を選択します。

  3. ジョブ名 には、EMRサーバーレスジョブの名前を入力します。名前には、文字、数字、ハイフン、アンダースコアを含めることができます。

  4. IAM ロール には、ユーザーのIAM実行ロールを入力します。このロールには、EMRサーバーレスアプリケーションを実行するために必要なアクセス許可が必要です。詳細については、「ML ライフサイクル全体でラージデータを使用するアクセス許可をユーザーに付与する」を参照してください。

  5. (オプション) KMSキー には、 ARNのキー ID または を指定 AWS KMS key してジョブログを暗号化します。キーを入力しない場合、Canvas は EMR Serverless のデフォルトキーを使用します。

  6. (オプション) モニタリング設定 には、ログを発行する Amazon CloudWatch Logs ロググループの名前を入力します。

  7. (オプション) タグ では、キーと値のペアで構成される EMR Serverless ジョブにメタデータタグを追加します。これらのタグは、ジョブの分類と検索に使用できます。

  8. ジョブを開始するには、[Export (エクスポート)] を選択します。

SageMaker Processing

Amazon S3 へのエクスポート中に SageMaker 処理ジョブを設定するには、次の手順を実行します。

  1. Amazon S3 へのエクスポートサイドパネルで、自動ジョブ設定オプションをオフにします。

  2. SageMaker Processing を選択します。

  3. ジョブ名 には、処理ジョブの名前 SageMakerを入力します。

  4. インスタンスタイプ では、処理ジョブを実行するコンピューティングインスタンスのタイプを選択します。

  5. インスタンス数 には、起動するコンピューティングインスタンスの数を指定します。

  6. IAM ロール には、ユーザーのIAM実行ロールを入力します。このロールには、ユーザーに代わって処理ジョブを作成および実行 SageMaker するために必要なアクセス許可が必要です。これらのアクセス許可は、AmazonSageMakerFullAccessポリシーがIAMロールにアタッチされている場合に付与されます。

  7. ボリュームサイズ には、各処理インスタンスにアタッチされている ML ストレージボリュームのストレージサイズを GB 単位で入力します。予想される入出力データサイズに基づいてサイズを選択します。

  8. (オプション) ボリュームKMSキー には、ストレージボリュームを暗号化するKMSキーを指定します。キーを指定しない場合、デフォルトの Amazon EBS暗号化キーが使用されます。

  9. (オプション) KMSキー には、処理ジョブで使用される Amazon S3 データソースの入力と出力を暗号化するKMSキーを指定します。

  10. (オプション) Spark メモリ設定 の場合は、以下を実行します。

    1. ジョブの調整とスケジューリングを処理する Spark ドライバーノードのドライバーメモリを MB で入力します。

    2. ジョブで個々のタスクを実行する Spark エグゼキュターノードの Executor メモリを MB で入力します。

  11. (オプション) ネットワーク設定 の場合は、以下を実行します。

    1. サブネット設定 には、起動する処理インスタンスのVPCサブネットIDsの を入力します。デフォルトでは、ジョブはデフォルトの の設定を使用しますVPC。

    2. セキュリティグループ設定 には、インバウンドおよびアウトバウンドの接続ルールを制御するIDsセキュリティグループの を入力します。

    3. コンテナ間のトラフィック暗号化を有効にするオプションをオンにして、ジョブ中の処理コンテナ間のネットワーク通信を暗号化します。

  12. (オプション) アソシエイトスケジュール では、Amazon EventBridge スケジュールを作成して、処理ジョブを定期的な間隔で実行するように選択できます。「新しいスケジュールの作成」を選択し、ダイアログボックスに入力します。このセクションへの入力とスケジュールどおりに処理ジョブを実行する方法の詳細については、「」を参照してください新しいデータを自動的に処理するスケジュールを作成する

  13. (オプション) タグをキーと値のペアとして追加し、処理ジョブを分類して検索できるようにします。

  14. エクスポートを選択して処理ジョブを開始します。

データをエクスポートしたら、完全に処理されたデータセットが指定された Amazon S3 の場所にあるはずです。