开始在 EKS 上部署机器学习工具
要在 EKS 上部署机器学习,首先要从这些规范模式中进行选择,让 EKS 集群和机器学习软件和硬件快速准备就绪,以开始运行机器学习工作负载。这些模式大多基于 Terraform 蓝图,这些蓝图可通过 Amazon EKS 上的数据
-
需要 GPU 或 Neuron 实例才能运行此类过程。当此类资源出现可用性不足时,可能会导致上述过程在创建集群或节点自动扩展期间失败。
-
Neuron SDK(基于 Tranium 和 Inferentia 的实例)不仅可以节省资金,而且比 NVIDIA GPU 更具可用性。因此,如果您的工作负载允许,我们建议您考虑将 Neutron 用于您的机器学习工作负载(请参阅欢迎使用 AWS Neuron
)。 -
此处的部分入门体验要求您通过个人的 Hugging Face
账户获取数据。
首先,请从以下模式中进行选择,这些模式旨在帮助您开始设置基础架构以运行机器学习工作负载:
-
EKS 上的 JupyterHub
:探索 JupyterHub 蓝图 ,其中展示了时间切片和 MIG 功能,以及带有配置文件的多租户配置。这非常适合在 EKS 上部署大规模 JupyterHub 平台。 -
AWS Neuron 和 RayServe 上的大型语言模型
:使用 AWS Neuron 在 Amazon EKS、AWS Trainium 和 AWS Inferentia 加速器上运行大型语言模型(LLM)。有关设置用于发出推理请求的平台的说明,请参阅 Serving LLMs with RayServe and vLLM on AWS Neuron ,其组件包括: -
用于深度学习的 AWS Neuron SDK 工具包
-
AWS 推理和 Trainium 加速器
-
vLLM – 可变长度语言模型(请参阅 vLLM
文档网站) -
RayServe 可扩展模型服务库(请参阅 Ray Serve: Scalable and Programmable Serving
网站) -
Llama-3 语言模型,使用您个人的 Hugging Face 账户
。 -
使用 AWS CloudWatch 和 Neuron Monitor 实现可观测性
-
打开 WebUI
-
-
NVIDIA 和 Triton 上的大型语言模型
:在 Amazon EKS 和 NVIDIA GPU 上部署多个大型语言模型(LLM)。有关设置用于发出推理请求的平台的说明,请参阅 Deploying Multiple Large Language Models with NVIDIA Triton Server and vLLM ,其组件包括: -
NVIDIA Triton 推理服务器(请参阅 Triton 推理服务器
GitHub 网站) -
vLLM – 可变长度语言模型(请参阅 vLLM
文档网站) -
两种语言模型:mistralai/Mistral-7B-Instruct-v0.2 和 meta-llama/Llama-2-7b-chat-hf,使用您个人的 Hugging Face
账户。
-
继续在 EKS 上部署机器学习
除了从本页所述的蓝图中进行选择外,如果您愿意,还可以通过其他方式了解在 EKS 上部署机器学习的文档。例如,您可以:
-
参阅在 EKS 上部署机器学习的教程 – 运行其他端到端教程,在 EKS 上构建和运行您个人的机器学习模型。请参阅 参阅在 EKS 上部署机器学习工作负载和平台的教程。
要改进在 EKS 上部署机器学习的情况,请参阅以下内容:
-
为机器学习做好准备 – 学习如何使用自定义 AMI 和 GPU 预留等功能为在 EKS 上部署机器学习做好准备。请参阅 准备创建 EKS 集群,以供进行机器学习。