

 **Ajudar a melhorar esta página** 

Para contribuir com este guia de usuário, escolha o link **Editar esta página no GitHub**, disponível no painel direito de cada página.

# Recursos para começar a usar IA/ML no Amazon EKS
<a name="ml-resources"></a>

Para entrar no machine learning no EKS, comece escolhendo entre esses padrões prescritivos para preparar rapidamente um cluster de EKS e software e hardware de ML para começar a executar workloads de ML.

## Workshops
<a name="aiml-workshops"></a>

### [Workshop de IA generativa no Amazon EKS](https://genai.eksworkshop.com/)
<a name="_generative_ai_on_amazon_eks_workshop"></a>

Saiba como começar a usar aplicações e inferências de grande modelo de linguagem (LLM) no Amazon EKS. Descubra como implantar e gerenciar workloads de LLM em nível de produção. Por meio de laboratórios práticos, você explorará como aproveitar o Amazon EKS junto com serviços da AWS e ferramentas de código aberto para criar soluções robustas de LLM. O ambiente do workshop fornece toda a infraestrutura e as ferramentas necessárias, permitindo que você se concentre no aprendizado e na implementação.

### [IA generativa no Amazon EKS usando Neuron](https://catalog.us-east-1.prod.workshops.aws/workshops/e21aadbd-23cb-4207-bd09-625e6de08a6c/en-US)
<a name="_generative_ai_on_amazon_eks_using_neuron"></a>

Saiba como começar a usar aplicações e inferências de grande modelo de linguagem (LLM) no Amazon EKS. Descubra como implantar e gerenciar workloads de LLM em nível de produção, implementar padrões RAG avançados com bancos de dados de vetores e criar aplicações de LLM baseadas em dados usando estruturas de código aberto. Por meio de laboratórios práticos, você explorará como aproveitar o Amazon EKS junto com serviços da AWS e ferramentas de código aberto para criar soluções robustas de LLM. O ambiente do workshop fornece toda a infraestrutura e as ferramentas necessárias, permitindo que você se concentre no aprendizado e na implementação.

## [Melhores práticas](https://docs.aws.amazon.com/eks/latest/best-practices/aiml.html)
<a name="aiml-best-practices"></a>

Os tópicos focados em IA/ML no guia de melhores práticas do Amazon EKS fornecem recomendações detalhadas nas áreas a seguir para otimizar suas workloads de IA/ML no Amazon EKS.

### [Computação e escalonamento automático de IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-compute.html)
<a name="_aiml_compute_and_autoscaling"></a>

Esta seção descreve as melhores práticas para otimizar a computação de IA/ML e o escalonamento automático no Amazon EKS, com foco no gerenciamento de recursos de GPU, resiliência de nós e escalabilidade de aplicações. Ela fornece estratégias como programar workloads com rótulos e afinidade de nós conhecidos, usar blocos de capacidade de ML ou reservas de capacidade sob demanda e implementar verificações de integridade de nós com ferramentas como o Agente de monitoramento de nós do EKS.

### [Rede de IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-networking.html)
<a name="_aiml_networking"></a>

Esta seção descreve as melhores práticas para otimizar a rede de IA/ML no Amazon EKS para melhorar a performance e a escalabilidade, incluindo estratégias como selecionar instâncias com maior largura de banda da rede ou Elastic Fabric Adapter (EFA) para treinamento distribuído, instalar ferramentas como MPI e NCCL e habilitar a delegação de prefixos para aumentar os endereços IP e melhorar os tempos de lançamento do pod.

### [Segurança de IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-security.html)
<a name="_aiml_security"></a>

Esta seção se concentra em proteger o armazenamento de dados e garantir a conformidade das workloads de IA/ML no Amazon EKS, incluindo práticas como o uso do Amazon S3 com o AWS Key Management Service (KMS) para criptografia do lado do servidor (SSE-KMS), a configuração de buckets com chaves regionais do KMS e chaves de bucket do S3 para reduzir custos, a concessão de permissões do IAM para ações do KMS, como decodificação em pods do EKS, e auditoria com os logs do AWS CloudTrail.

### [Armazenamento de IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-storage.html)
<a name="_aiml_storage"></a>

Esta seção fornece as melhores práticas para otimizar o armazenamento em workloads de IA/ML no Amazon EKS, incluindo práticas como implantar modelos usando drivers CSI para montar serviços como S3, FSx para Lustre ou EFS como volumes persistentes, selecionar armazenamento com base nas necessidades da workload (por exemplo, FSx para Lustre para treinamento distribuído com opções como Scratch-SSD ou SSD persistente) e habilitar recursos como compressão e distribuição de dados.

### [Observabilidade de IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-observability.html)
<a name="_aiml_observability"></a>

Esta seção se concentra no monitoramento e na otimização da utilização da GPU para workloads de IA/ML no Amazon EKS para melhorar a eficiência e reduzir custos, incluindo estratégias como o objetivo do alto uso da GPU com ferramentas como o CloudWatch Container Insights e o DCGM-Exporter da NVIDIA integrado com Prometheus e Grafana, além de métricas que recomendamos que você analise para suas workload sde IA/ML.

### [Performance de IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-performance.html)
<a name="_aiml_performance"></a>

Esta seção se concentra em aprimorar a escalabilidade e a performance de aplicaçãoes para workloads de IA/ML no Amazon EKS por meio do gerenciamento de imagens de contêineres e da otimização de startups, incluindo práticas como o uso de imagens básicas pequenas e leves ou contêineres do AWS Deep Learning com compilações de vários estágios, pré-carregamento de imagens por meio de snapshots do EBS ou pré-inserção em cache de runtime usando DaemonSets ou implantações.

## Arquiteturas de referência
<a name="aiml-reference-architectures"></a>

Explore esses repositórios do GitHub para obter arquiteturas de referência, código de amostra e utilitários para implementar treinamento e inferência distribuídos para workloads de IA/ML no Amazon EKS e em outros serviços da AWS.

### [AWSome Distributed Training](https://github.com/aws-samples/awsome-distributed-training)
<a name="_awsome_distributed_training"></a>

Este repositório oferece uma coleção de melhores práticas, arquiteturas de referência, exemplos de treinamento de modelos e utilitários para treinar modelos grandes na AWS. Ele oferece suporte a treinamento distribuído com o Amazon EKS, incluindo modelos do CloudFormation para clusters EKS, compilações personalizadas de AMI e contêiner, casos de teste para estruturas como PyTorch (DDP/FSDP, MegatronLM, NeMo) e JAX e ferramentas para validação, observabilidade e monitoramento de performance, como o exportador EFA Prometheus e a Nvidia Nsight Systems.

### [AWSome Inference](https://github.com/aws-samples/awsome-inference)
<a name="_awsome_inference"></a>

Este repositório fornece arquiteturas de referência e casos de teste para otimizar soluções de inferência na AWS, com foco no Amazon EKS e nas instâncias aceleradas do EC2. Ele inclui configurações de infraestrutura para clusters VPC e EKS, projetos para estruturas como NVIDIA NIMs, TensorRT-LLM, Triton Inference Server e RayService, com exemplos de modelos como Llama3-8B e Llama 3.1 405B. Apresenta implantações de vários nós usando K8s LeaderWorkerSet, ajuste de escala automático do EKS, GPUs de várias instâncias (MIG) e casos de uso reais, como um bot de áudio para ASR, inferência e TTS.

## Tutoriais
<a name="aiml-tutorials"></a>

Se você tem interesse em configurar plataformas e estruturas de machine learning no EKS, explore os tutoriais descritos nesta seção. Esses tutoriais abrangem tudo, desde padrões para fazer o melhor uso dos processadores de GPU até a escolha de ferramentas de modelagem e a criação de estruturas para setores especializados.

### Criar plataformas de IA generativa no EKS
<a name="_build_generative_ai_platforms_on_eks"></a>
+  [Implemente modelos de IA generativa no Amazon EKS](https://aws.amazon.com/blogs/containers/deploy-generative-ai-models-on-amazon-eks/) 
+  [Crie plataformas do JupyterHub de vários locatários no Amazon EKS](https://aws.amazon.com/blogs/containers/building-multi-tenant-jupyterhub-platforms-on-amazon-eks/) 

### Executar estruturas de IA generativa especializadas no EKS
<a name="_run_specialized_generative_ai_frameworks_on_eks"></a>
+  [Acelere suas workloads de treinamento de IA generativa distribuídas com o NVIDIA NeMo Framework no Amazon EKS](https://aws.amazon.com/blogs/machine-learning/accelerate-your-generative-ai-distributed-training-workloads-with-the-nvidia-nemo-framework-on-amazon-eks/) 
+  [Execução do TorchServe no Amazon Elastic Kubernetes Service](https://aws.amazon.com/blogs/opensource/running-torchserve-on-amazon-elastic-kubernetes-service/) 

### Maximize a performance da GPU NVIDIA para ML no EKS
<a name="_maximize_nvidia_gpu_performance_for_ml_on_eks"></a>
+ Implemente o compartilhamento de GPU para usar com eficiência as GPUs NVIDIA em seus clusters do EKS:

   [Compartilhamento de GPU no Amazon EKS com divisão de tempo da NVIDIA e instâncias do EC2 aceleradas](https://aws.amazon.com/blogs/containers/gpu-sharing-on-amazon-eks-with-nvidia-time-slicing-and-accelerated-ec2-instances/) 
+ Use GPUs de múltiplas instâncias (MIGs) e microsserviços NIM para executar mais pods por GPU em seus clusters do EKS:

   [Maximização da utilização de GPU com a GPU de múltiplas instâncias (MIG) da NVIDIA no Amazon EKS: execução de mais pods por GPU para melhorar a performance](https://aws.amazon.com/blogs/containers/maximizing-gpu-utilization-with-nvidias-multi-instance-gpu-mig-on-amazon-eks-running-more-pods-per-gpu-for-enhanced-performance/) 
+  [Crie e implante um sistema de machine learning escalável no Kubernetes com o Kubeflow na AWS](https://aws.amazon.com/blogs/machine-learning/build-and-deploy-a-scalable-machine-learning-system-on-kubernetes-with-kubeflow-on-aws/) 

### Executar workloads de codificação de vídeo no EKS
<a name="_run_video_encoding_workloads_on_eks"></a>
+  [Entrega de conteúdo de vídeo com GPUs fracionárias em contêineres no Amazon EKS](https://aws.amazon.com/blogs/containers/delivering-video-content-with-fractional-gpus-in-containers-on-amazon-eks/) 

### Acelerar o carregamento de imagens para workloads de inferência
<a name="_accelerate_image_loading_for_inference_workloads"></a>
+  [Como a H2O.ai otimizou e protegeu sua infraestrutura de IA/ML com o Karpenter e o Bottlerocket](https://aws.amazon.com/blogs/containers/how-h2o-ai-optimized-and-secured-their-ai-ml-infrastructure-with-karpenter-and-bottlerocket/) 

### Monitoramento de workloads de ML
<a name="_monitoring_ml_workloads"></a>
+  [Monitoramento de workloads de GPU no Amazon EKS usando serviços de código aberto gerenciados pela AWS](https://aws.amazon.com/blogs/mt/monitoring-gpu-workloads-on-amazon-eks-using-aws-managed-open-source-services/) 
+  [Habilite métricas de GPU baseadas em pods no Amazon CloudWatch](https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/) 