本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将数据输入通道配置为使用 Amazon for Lu FSx stre
了解如何使用 Amazon f FSx or Lustre 作为数据源,通过缩短数据加载时间,实现更高的吞吐量和更快的训练。
注意
当您使用启用 EFA 的实例(例如 P4d 和 P3dn)时,请确保在安全组中设置适当的入站和输出规则。特别是,要让 SageMaker AI 在训练作业中访问 Amazon FSx 文件系统,就必须打开这些端口。要了解更多信息,请参阅使用 Amazon VPC 进行文件系统访问控制。
同步亚马逊 S3 和亚马逊获得 Lu FSx stre
要将您的 Amazon S3 链接到 Amazon FSx for Lustre 并上传您的训练数据集,请执行以下操作。
-
准备好您的数据集并上传到 Amazon S3 存储桶。例如,假设训练数据集和测试数据集的 Amazon S3 路径采用以下格式。
s3://amzn-s3-demo-bucket/data/train s3://amzn-s3-demo-bucket/data/test
-
要创建与包含训练数据的 Amazon S3 存储桶关联的 for Lustre 文件系统,请按照《Amazon for Lustre 用户指南》中将您的文件系统关联到 Amazon S3 存储桶中的步骤 FSx 进行操作。 FSx 请务必在您的 VPC 中添加一个允许访问 Amazon S3 的端点。有关更多信息,请参阅 创建 Amazon S3 VPC 端点。指定数据存储库路径时,请提供包含您的数据集的文件夹的 Amazon S3 存储桶 URI。例如,根据步骤 1 中的 S3 路径示例,数据存储库路径应如下所示。
s3://amzn-s3-demo-bucket/data
-
创建 f FSx or Lustre 文件系统后,通过运行以下命令检查配置信息。
aws fsx describe-file-systems && \ aws fsx describe-data-repository-association
这些命令返回
FileSystemId
、MountName
、FileSystemPath
和DataRepositoryPath
。输出应该类似以下示例。# Output of aws fsx describe-file-systems "FileSystemId": "fs-0123456789abcdef0" "MountName": "1234abcd" # Output of aws fsx describe-data-repository-association "FileSystemPath": "/ns1", "DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"
Amazon S3 和亚马逊 FSx 之间的同步完成后,您的数据集将保存在亚马逊的以下目录 FSx 中。
/ns1/train # synced with s3://amzn-s3-demo-bucket/data/train /ns1/test # synced with s3://amzn-s3-demo-bucket/data/test
将 Amazon FSx 文件系统路径设置为 SageMaker 训练的数据输入通道
以下过程将引导您完成将 Amazon FSx 文件系统设置为 SageMaker 训练作业数据源的过程。