加速GPU執行個體入門 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

加速GPU執行個體入門

第五代加速執行個體類型,例如下列清單所示,可為深度學習和高效能運算 GPU (HPC) 應用程式提供最高效能功能。選取執行個體類型連結,進一步了解其功能。

如需加速執行個體類型之執行個體類型規格的完整清單,請參閱 Amazon EC2執行個體類型參考中的加速運算

軟體組態

開始使用第五代GPU加速執行個體類型的最簡單方法是從AMI預先設定所有必要軟體的 AWS 深度學習啟動執行個體。如需與GPU加速執行個體類型搭配使用的最新 AWS 深度學習 AMIs 相關資訊,請參閱AWS 深度學習基礎 GPUAMI(Ubuntu 20.04)

如果您需要建置自訂AMI以啟動託管深度學習或HPC應用程式的執行個體,建議您在基本映像上方安裝下列最低軟體版本:

軟體 執行個體類型 最低版本
NVIDIA 驅動程式 P5 530
P5e 550
CUDA P5, P5e 12.1
NVIDIA GDRCopy P5, P5e 2.3
EFA 安裝程式 P5, P5e 1.24.1
NCCL P5, P5e 2.18.3
aws-ofi-nccl 外掛程式 P5, P5e 1.7.2-aws

我們也建議您將執行個體設定為不使用深層的 C-states。如需詳細資訊,請參閱 Amazon Linux 2 使用者指南 中的透過限制更深的 C 狀態來取得高效能和低延遲。最新的 AWS Deep Learning Base GPU AMI 已預先設定為不使用較深的 C 狀態。

如需聯網和 Elastic Fabric Adapter (EFA) 組態,請參閱 使用 最大化加速運算執行個體的網路頻寬 EFA

Ubuntu 20.04 具體建議

下列有關 Ubuntu 20.04 的建議有助於避免開機時出現無法預期的介面命名方式:

  • 確保您正在執行 systemd 245.4-4ubuntu3.19,或稍後使用以下命令:

    systemd --version
  • 請確定您已設定 GRUB:

    • 在文字編輯器中開啟 /etc/default/grub 組態檔案。

    • 編輯 GRUB_CMDLINE_LINUX_DEFAULT 項目,以便包含 net.naming-scheme=v247

    • 執行 sudo update-grub 以重新啟動執行個體。