翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon FSx for Lustre を使用するようにデータ入力チャネルを設定する
Amazon FSx for Lustre をデータソースとして使用して、データのロード時間を短縮することで、スループットを高め、トレーニングを高速化する方法について説明します。
注記
P4d や P3dn などの EFA対応インスタンスを使用する場合は、セキュリティグループで適切なインバウンドルールと出力ルールを設定してください。特に、トレーニングジョブで Amazon FSx ファイルシステムにアクセスするには SageMaker 、これらのポートを開く必要があります。詳細については、「Amazon でのファイルシステムアクセスコントロールVPC」を参照してください。
Amazon S3 と Amazon FSx for Lustre を同期する
Amazon S3 を Amazon FSx for Lustre にリンクし、トレーニングデータセットをアップロードするには、以下を実行します。
-
データセットを準備して Amazon S3 バケットにアップロードします。例えば、トレーニングデータセットとテストデータセットの Amazon S3 パスが次の形式であると仮定します。
s3://amzn-s3-demo-bucket/data/train s3://amzn-s3-demo-bucket/data/test
-
トレーニングデータを含む Amazon S3 バケットにリンクされた FSx for Lustre ファイルシステムを作成するには、「Amazon FSx for Lustre ユーザーガイド」の「ファイルシステムを Amazon S3 バケットにリンクする」のステップに従います。Amazon S3 アクセスVPCを許可する にエンドポイントを追加していることを確認してください。詳細については、「Amazon S3 VPCエンドポイントを作成する」を参照してください。データリポジトリパス を指定するときは、データセットを含むフォルダURIの Amazon S3 バケットを指定します。例えば、ステップ 1 の S3 パスの例に基づくと、データリポジトリのパスは次のようになります。
s3://amzn-s3-demo-bucket/data
-
FSx for Lustre ファイルシステムを作成したら、次のコマンドを実行して設定情報を確認します。
aws fsx describe-file-systems && \ aws fsx describe-data-repository-association
これらのコマンドは
FileSystemId
、MountName
、FileSystemPath
、およびDataRepositoryPath
を返します。例えば、出力は以下のようになるはずです。# Output of aws fsx describe-file-systems "FileSystemId": "fs-0123456789abcdef0" "MountName": "1234abcd" # Output of aws fsx describe-data-repository-association "FileSystemPath": "/ns1", "DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"
Amazon S3 と Amazon の同期FSxが完了すると、データセットは次のディレクトリFSxに Amazon に保存されます。
/ns1/train # synced with s3://amzn-s3-demo-bucket/data/train /ns1/test # synced with s3://amzn-s3-demo-bucket/data/test
Amazon FSx ファイルシステムパスを SageMaker トレーニングのデータ入力チャネルとして設定する
次の手順では、Amazon FSx ファイルシステムを SageMaker トレーニングジョブのデータソースとして設定するプロセスについて説明します。