Introducción a la implementación de herramientas de machine learning en EKS
Para comenzar a utilizar el machine learning en EKS, elija uno de estos patrones prescriptivos para preparar rápidamente un clúster de EKS y el software y hardware de ML para comenzar a ejecutar cargas de trabajo de ML. La mayoría de estos patrones se basan en los esquemas de Terraform que se encuentran disponibles en el sitio web de Datos en Amazon EKS
-
Se necesitan GPU o instancias de Neuron para ejecutar estos procedimientos. La falta de disponibilidad de estos recursos puede provocar que estos procedimientos fallen durante la creación del clúster o el escalado automático de nodos.
-
Neuron SDK (instancias basadas en Tranium e Inferentia) pueden suponer un ahorro de dinero y están más disponibles que las GPU NVIDIA. Por lo tanto, si las cargas de trabajo lo permiten, recomendamos que considere el uso de Neutron para las cargas de trabajo de machine learning (consulte Bienvenido a AWS Neuron
). -
Algunas de las experiencias para comenzar aquí requieren que obtenga datos a través de una cuenta propia de Hugging Face
.
Para comenzar, elija entre la siguiente selección de patrones diseñados para ayudar a configurar la infraestructura para ejecutar las cargas de trabajo de machine learning:
-
JupyterHub en EKS
: explore el esquema de JupyterHub , que muestra las características de fragmentación de tiempo y MIG, así como las configuraciones de varios inquilinos con perfiles. Esto resulta ideal para implementar plataformas JupyterHub a gran escala en EKS. -
Grandes modelos de lenguaje en AWS Neuron y RayServe
: utilice AWS Neuron para ejecutar grandes modelos de lenguaje (LLM) en Amazon EKS y los aceleradores AWS Trainium y AWS Inferentia. Consulte Suministrar grandes modelos de lenguaje (LLM) con RayServe y vLLM en AWS Neuron para obtener instrucciones sobre cómo configurar una plataforma para realizar solicitudes de inferencia, con componentes que incluyen: -
Kit de herramientas del SDK de AWS Neuron para el aprendizaje profundo
-
Aceleradores AWS Inferentia y Trainium
-
vLLM: modelo de lenguaje de longitud variable (consulte el sitio de documentación de vLLM
) -
Biblioteca escalable para el servicio de modelos RayServe (consulta el sitio de Ray Serve: servicio escalable y programable
) -
Modelo de lenguaje Llama-3, con una cuenta propia de Hugging Face
. -
Observabilidad con AWS CloudWatch y Neuron Monitor
-
Abrir la interfaz de usuario web
-
-
Modelos de lenguaje de gran tamaño en NVIDIA y Triton
: implemente múltiples modelos grandes de lenguaje (LLM) en Amazon EKS y las GPU NVIDIA. Consulte Implementación de múltiples modelos de lenguaje de gran tamaño con NVIDIA Triton Server y vLLM para obtener instrucciones sobre cómo configurar una plataforma para realizar solicitudes de inferencia, con componentes que incluyen: -
Servidor de inferencia de Triton de NVIDIA (consulte el sitio de GitHub de Servidor de inferencia de Triton
). -
vLLM: modelo de lenguaje de longitud variable (consulte el sitio de documentación de vLLM
) -
Dos modelos de lenguaje: mistralai/Mistral-7B-Instruct-v0.2 y meta-llama/Llama-2-7b-chat-hf, con una cuenta propia de Hugging Face
.
-
Continuar con el uso de ML en EKS
Además de elegir entre los esquemas descritos en esta página, existen otras formas de proceder a través de la documentación de ML en EKS, si así lo prefiere. Por ejemplo, puede hacer lo siguiente:
-
Pruebe tutoriales para ML en EKS: ejecute otros tutoriales de principio a fin para crear y ejecutar modelos propios de machine learning en EKS. Consulte Cómo probar los tutoriales para implementar cargas de trabajo y plataformas de machine learning en EKS.
Para mejorar su trabajo con ML en EKS, consulte lo siguiente:
-
Prepárese para el ML: aprenda a prepararse para ML en EKS con características, como AMI personalizadas y reservas de GPU. Consulte Preparación para crear un clúster de EKS para el machine learning.