本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建完所有必需的资源后,您需要为 SageMaker HyperPod 集群设置生命周期脚本
准备生命周期脚本
按照以下步骤获取生命周期脚本。
创建配置文件
按照以下步骤创建配置文件并将其上传到存储生命周期脚本的同一 Amazon S3 存储桶。
-
使用以下配置创建名
provisioning_parameters.json
为的配置文件。请注意,slurm_sns_arn
是可选项。如果未提供, HyperPod 则无法设置 Amazon SNS 通知。cat <<EOF > /tmp/provisioning_parameters.json { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "$CONTOLLER_IG_NAME", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "$COMPUTE_IG_NAME", "partition_name": "dev" } ], "fsx_dns_name": "$SLURM_FSX_DNS_NAME", "fsx_mountname": "$SLURM_FSX_MOUNT_NAME", "slurm_configurations": { "slurm_database_secret_arn": "$SLURM_DB_SECRET_ARN", "slurm_database_endpoint": "$SLURM_DB_ENDPOINT_ADDRESS", "slurm_shared_directory": "/fsx", "slurm_database_user": "$DB_USER_NAME", "slurm_sns_arn": "$SLURM_SNS_FAILOVER_TOPIC_ARN" } } EOF
-
将
provisioning_parameters.json
文件上传到存储生命周期脚本的同一 Amazon S3 存储桶。aws s3 cp /tmp/provisioning_parameters.json s3://${ROOT_BUCKET_NAME}/LifeCycleScripts/base-config/provisioning_parameters.json
验证 Amazon S3 存储桶中的文件
上传所有生命周期脚本和provisioning_parameters.json
文件后,您的 Amazon S3 存储桶应如下所示。

有关更多信息,请参阅从提供的基本生命周期脚本开始 HyperPod。