本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 EKS 上開始部署Machine Learning工具
若要跳入 Machine Learning on EKS,請先從這些規範模式中選擇,以快速取得 EKS 叢集和 ML 軟體和硬體,以便開始執行 ML 工作負載。這些模式大部分都以 Amazon EKS 網站上的資料
-
執行這些程序需要 GPUs 或 Neuron 執行個體。缺乏這些資源可能會導致這些程序在叢集建立或節點自動擴展期間失敗。
-
Neuron SDK (Tranium 和 Inferentia 型執行個體) 可以節省成本,而且比 NVIDIA 更可用GPUs。因此,當您的工作負載允許時,建議您考慮將 Neutron 用於Machine Learning工作負載 (請參閱歡迎使用 AWS Neuron
)。 -
這裡的一些入門體驗要求您透過自己的 Hugging Face
帳戶取得資料。
若要開始,請從下列模式中選擇,這些模式旨在協助您開始設定基礎設施以執行Machine Learning工作負載:
-
JupyterHub on EKS
:探索 JupyterHub 藍圖 ,其中展示了 Time Slicing 和 MIG 功能,以及具有設定檔的多租戶組態。這非常適合在 JupyterHub 上部署大型Word 平台EKS。 -
AWS Neuron 和 RayServe 上的大型語言模型
:使用 AWS Neuron 在 Amazon EKS 和 AWS Trainium 和 AWS Inferentia 加速器上執行大型語言模型 (LLMs)。請參閱在 AWS Neuron 上提供 LLMs with RayServe 和 vLLM ,以取得有關設定平台進行推論請求的說明,其中包含下列元件: -
AWS Neuron SDK 深度學習工具組
-
AWS Inferentia 和 Trainium 加速器
-
vLLM - 可變長度語言模型 (請參閱 vLLM
文件網站) -
RayServe 可擴展模型服務程式庫 (請參閱 Ray 服務:可擴展和可程式設計服務
網站) -
Llama-3 語言模型,使用您自己的 Hugging Face
帳戶。 -
Word AWS CloudWatch 和 Neuron 監視器的可觀測性
-
開啟 WebUI
-
-
NVIDIA 和 Triton 上的大型語言模型
:在 Amazon EKS 和 GPUs 上部署多個大型語言模型 (NVIDIALLMs)。請參閱使用 NVIDIA Triton Server 和 vLLM 部署多個大型語言模型 ,以取得設定平台進行推論請求的指示,其中包含下列元件: -
NVIDIA Triton 推論伺服器 (請參閱 Triton 推論伺服器
GitHub 網站) -
vLLM - 可變長度語言模型 (請參閱 vLLM
文件網站) -
兩種語言模型:mistralai/Mistral-7B-Instruct-v0.2 and meta-llama/Llama-2-7b-chat-hf,使用您自己的 Hugging Face
帳戶。
-
繼續使用 ML on EKS
除了選擇本頁所述的藍圖之外,您還可以選擇其他方式,繼續執行 ML on EKS 文件。例如,您可以:
-
嘗試 ML on EKS 教學課程 – 執行其他 end-to-end 教學課程,以在 EKS 上建置和執行您自己的Machine Learning模型。請參閱 嘗試在 EKS 上部署 Machine Learning 工作負載和平台的教學課程。
若要改善使用 ML on EKS 的工作,請參閱以下內容:
-
為 ML 做好準備:了解如何使用自訂 EKS AMIs和 Word 保留等功能為 GPU 上的 ML 做好準備。請參閱準備為Machine Learning建立 EKS 叢集。