本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建置 AWS PCS 自訂 AMIs 的軟體安裝程式
AWS 提供可下載的檔案,可在執行個體上安裝 AWS PCS 軟體。 AWS 也提供可下載、編譯和安裝相關版本 Slurm 及其相依性的軟體。您可以使用這些指示來建置自訂 AMIs 以搭配 AWS PCS 使用,或者您可以使用自己的方法。
AWS PCS 軟體安裝程式
AWS PCS 軟體安裝程式會將執行個體設定為在執行個體引導程序期間使用 AWS PCS。您必須使用 AWS提供的安裝程式,在自訂 AMI 上安裝 AWS PCS 軟體。
Slurm 安裝程式
Slurm 安裝程式會下載、編譯和安裝相關版本的 Slurm 及其相依性。您可以使用 Slurm 安裝程式來建置 AWS PCS AMIs。如果自己的機制與 Slurm 安裝程式提供的軟體組態一致,您也可以使用自己的機制。
AWS提供的軟體會安裝下列項目:
-
請求的主要和維護版本 (目前為 24.05.x 版) 的 Slurm
- 授權 GPL 2 -
Slurm 建置時將
--sysconfdir
設為/etc/slurm
-
Slurm 使用 選項
--enable-pam
和 建置--without-munge
-
Slurm 使用 選項建置
--sharedstatedir=/run/slurm/
-
Slurm 透過 PMIX 和 JWT 支援建置
-
Slurm 安裝在
/opt/aws/pcs/schedulers/slurm-24.05
-
-
-
OpenPMIX 已安裝為 的子目錄
/opt/aws/pcs/scheduler/
-
-
libjwt
(1.17.0 版) – 授權 MPL-2.0 -
libjwt 已安裝為 的子目錄
/opt/aws/pcs/scheduler/
-
AWS提供的軟體會變更系統組態,如下所示:
-
建置建立的 Slurm
systemd
檔案會複製到檔案名稱為/etc/systemd/system/
的slurmd-24.05.service
。 -
如果不存在,則會使用 的 UID/GID 建立 Slurm 使用者和群組 (
slurm:slurm
)401
。 -
在 Amazon Linux 2 和 Rocky Linux 9 上,安裝會新增 EPEL 儲存庫,以安裝建置 Slurm 或其相依性所需的軟體。
-
在 RHEL9 上,安裝將啟用
codeready-builder-for-rhel-9-rhui-rpms
和epel-release-latest-9
fedoraproject
,以安裝建置 Slurm 或其相依性所需的軟體。
支援的作業系統
AWS PCS 軟體和 Slurm 安裝程式支援下列作業系統:
-
Amazon Linux 2
-
RedHat Enterprise Linux 9
-
Rocky Linux 9
-
Ubuntu 22.04
如需詳細資訊,請參閱AWS PCS 中支援的作業系統。
注意
AWS 深度學習 AMIs 以 Amazon Linux 2 和 Ubuntu 22.04 為基礎的 (DLAMI) 版本應與 AWS PCS 軟體和 Slurm 安裝程式相容。如需詳細資訊,請參閱《 AWS 深度學習 AMIs 開發人員指南》中的選擇您的 DLAMI。
支援的執行個體類型
AWS PCS 軟體和 Slurm 安裝程式支援任何 x86_64 或 arm64 執行個體類型,而 可執行其中一個支援的作業系統。
支援的 Slurm 版本
支援下列主要版本的 Slurm:
-
Slurm 24.05
-
Slurm 23.11
使用檢查總和驗證安裝程式
您可以使用 SHA256 檢查總和來驗證安裝程式 tarball (.tar.gz) 檔案。我們建議您執行這項操作來確認軟體發行者的身分識別,並檢查應用程式自發行以來並未遭到變更或損毀。
驗證 tarball
針對 SHA256 檢查總和使用 sha256sum 公用程式,並指定 tarball 檔案名稱。 SHA256 您必須從儲存 tarball 檔案的目錄中執行 命令。
-
SHA256
$
sha256sumtarball_filename.tar.gz
命令應該會傳回以下格式的檢查總和值。
checksum_value
tarball_filename.tar.gz
將 命令傳回的檢查總和值與下表中提供的檢查總和值進行比較。如果檢查總和相符,則執行安裝指令碼是安全的。
重要
如果檢查總和不相符,請勿執行安裝指令碼。請聯絡 支援
例如,下列命令會產生 Slurm 24.05.5-2 tarball 的 SHA256 檢查總和。
$
sha256sum aws-pcs-slurm-24.05-installer-24.05.5-2.tar.gz
輸出範例:
7cc8d8294f2fbff95fe0602cf9e21e02003b5d96c0730e0a18c6aa04c7a4967b aws-pcs-slurm-24.05-installer-24.05.5-2.tar.gz
下表列出安裝程式最新版本的檢查總和。將 us-east-1
取代為您使用 AWS PCS AWS 區域 的 。
Installer (安裝程式) | 下載 URL | SHA256 檢查總和 |
---|---|---|
AWS PCS 代理程式 1.1.1-1 |
|
|
AWS PCS 代理程式 1.1.0-1 |
|
|
AWS PCS 代理程式 1.0.1-1 |
|
|
AWS PCS 代理程式 1.0.0-1 |
|
|
Installer (安裝程式) | 下載 URL | SHA256 檢查總和 |
---|---|---|
Slurm 24.05.5-2 |
|
|
Slurm 23.11.10-3 |
|
|
Slurm 23.11.10-2 |
|
|
Slurm 23.11.10-1 |
|
|
Slurm 23.11.9-1 |
|
|