

 **Contribuisci a migliorare questa pagina** 

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link **Modifica questa pagina** nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Risorse per iniziare a utilizzare IA/ML su Amazon EKS
<a name="ml-resources"></a>

Per passare al Machine Learning su EKS, iniziare scegliendo tra questi modelli prescrittivi per preparare rapidamente un cluster EKS e un software e un hardware ML per iniziare a eseguire carichi di lavoro ML.

## Workshop
<a name="aiml-workshops"></a>

### [Workshop sull’IA generativa su Amazon EKS](https://genai.eksworkshop.com/)
<a name="_generative_ai_on_amazon_eks_workshop"></a>

Ulteriori informazioni su come iniziare a utilizzare le applicazioni e l’inferenza di un modello linguistico di grandi dimensioni (LLM) su Amazon EKS. Ulteriori informazioni su come implementare e gestire carichi di lavoro LLM di livello di produzione. Attraverso laboratori pratici, sarà possibile scoprire come sfruttare Amazon EKS insieme a servizi e strumenti open source AWS per creare solide soluzioni LLM. L’ambiente del workshop fornisce tutta l’infrastruttura e gli strumenti necessari, consentendo di rivolgere la propria attenzione sull’apprendimento e sull’implementazione.

### [IA generativa su Amazon EKS con Neuron](https://catalog.us-east-1.prod.workshops.aws/workshops/e21aadbd-23cb-4207-bd09-625e6de08a6c/en-US)
<a name="_generative_ai_on_amazon_eks_using_neuron"></a>

Ulteriori informazioni su come iniziare a utilizzare le applicazioni e l’inferenza di un modello linguistico di grandi dimensioni (LLM) su Amazon EKS. Ulteriori informazioni su come implementare e gestire carichi di lavoro LLM di livello di produzione, implementare modelli RAG avanzati con database vettoriali e creare applicazioni LLM basate su dati utilizzando framework open source. Attraverso laboratori pratici, sarà possibile scoprire come sfruttare Amazon EKS insieme a servizi e strumenti open source AWS per creare solide soluzioni LLM. L’ambiente del workshop fornisce tutta l’infrastruttura e gli strumenti necessari, consentendo di rivolgere la propria attenzione sull’apprendimento e sull’implementazione.

## [Best practice](https://docs.aws.amazon.com/eks/latest/best-practices/aiml.html)
<a name="aiml-best-practices"></a>

Gli argomenti incentrati su IA/ML nella guida alle best practice di Amazon EKS forniscono consigli dettagliati nelle seguenti aree per ottimizzare i carichi di lavoro IA/ML su Amazon EKS.

### [Calcolo e scalabilità automatica di IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-compute.html)
<a name="_aiml_compute_and_autoscaling"></a>

Questa sezione descrive le beat practice per l’ottimizzazione del calcolo di IA/ML e della scalabilità automatica in Amazon EKS, concentrandosi sulla gestione delle risorse di GPU, sulla resilienza dei nodi e sulla scalabilità delle applicazioni. Offre strategie come la pianificazione dei carichi di lavoro con etichette e affinità di nodi note, l’utilizzo di blocchi di capacità per ML o prenotazioni della capacità on-demand e l’implementazione di controlli dell’integrità dei nodi con strumenti come un agente di monitoraggio dei nodi EKS.

### [Rete IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-networking.html)
<a name="_aiml_networking"></a>

Questa sezione descrive le best practice per ottimizzare le reti IA/ML in Amazon EKS per migliorare le prestazioni e la scalabilità, incluse strategie come la selezione di istanze con una maggiore larghezza di banda della rete o Elastic Fabric Adapter (EFA) per la formazione distribuita, l’installazione di strumenti come MPI e NCCL e l’abilitazione della delega dei prefissi per aumentare gli indirizzi IP e migliorare i tempi di avvio dei pod.

### [Sicurezza IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-security.html)
<a name="_aiml_security"></a>

Questa sezione si concentra sulla protezione dell’archiviazione di dati e sulla garanzia della conformità per i carichi di lavoro IA/ML su Amazon EKS, incluse pratiche come l’utilizzo di Amazon S3 con Servizio di gestione delle chiavi (KMS) AWS per la crittografia lato server (SSE-KMS), la configurazione di bucket con chiavi KMS regionali e chiavi bucket S3 per ridurre i costi, la concessione di autorizzazioni IAM per azioni KMS come la decrittografia dei pod EKS e l’audit con registri CloudTrail AWS.

### [Archiviazione IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-storage.html)
<a name="_aiml_storage"></a>

Questa sezione fornisce le best practice per ottimizzare l’archiviazione nei carichi di lavoro IA/ML su Amazon EKS, incluse pratiche come la distribuzione di modelli che utilizzano driver CSI per montare servizi come S3, FSx for Lustre o EFS come volumi persistenti, la selezione dell’archiviazione in base alle esigenze del carico di lavoro (ad esempio, FSx per Lustre per la formazione distribuita con opzioni come Scratch-SSD o Persistent-SSD) e l’abilitazione di funzionalità come la compressione e lo striping dei dati.

### [Osservabilità IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-observability.html)
<a name="_aiml_observability"></a>

Questa sezione si concentra sul monitoraggio e sull’ottimizzazione dell’utilizzo della GPU per i carichi di lavoro IA/ML su Amazon EKS per migliorare l’efficienza e ridurre i costi, incluse strategie come mirare all’utilizzo elevato della GPU con strumenti come approfondimenti sui container CloudWatch e DCGM-Exporter di NVIDIA integrato con Prometheus e Grafana, e parametri che ti consigliamo di analizzare per i propri carichi di lavoro IA/ML.

### [Prestazioni IA/ML](https://docs.aws.amazon.com/eks/latest/best-practices/aiml-performance.html)
<a name="_aiml_performance"></a>

Questa sezione si concentra sul miglioramento della scalabilità e delle prestazioni delle applicazioni per i carichi di lavoro IA/ML su Amazon EKS attraverso la gestione delle immagini dei container e l’ottimizzazione dell’avvio, incluse pratiche come l’utilizzo di immagini di base piccole e leggere o container di deep learning AWS con sviluppi in più fasi, il precaricamento delle immagini tramite snapshot EBS o il preinserimento nella cache di runtime utilizzando DaemonSets o Deployment.

## Architetture di riferimento
<a name="aiml-reference-architectures"></a>

Si esplorino questi repository GitHub per architetture di riferimento, codice esemplificativo e utilità per implementare formazione e inferenza distribuite per carichi di lavoro IA/ML su Amazon EKS e altri servizi AWS.

### [Addestramento distribuito AWSome](https://github.com/aws-samples/awsome-distributed-training)
<a name="_awsome_distributed_training"></a>

Questo repository offre una raccolta di best practice, architetture di riferimento, esempi di addestramento dei modelli e utilità per addestrare modelli di grandi dimensioni su AWS. Supporta l’addestramento distribuito con Amazon EKS, inclusi modelli CloudFormation per cluster EKS, build personalizzate di AMI e container, casi di test per framework come PyTorch (DDP/FSDP, MegatronLM, NeMo) e JAX e strumenti per la convalida, l’osservabilità e il monitoraggio delle prestazioni come EFA Prometheus exporter e Nvidia Nsight Systems.

### [Inferenza AWSome](https://github.com/aws-samples/awsome-inference)
<a name="_awsome_inference"></a>

Questo repository fornisce architetture di riferimento e casi di test per ottimizzare le soluzioni di inferenza su AWS, con particolare attenzione ad Amazon EKS e alle istanze EC2 accelerate. Include configurazioni di infrastruttura per cluster VPC ed EKS, progetti per framework come NVIDIA NiMS, Tensorrt-LLM, Triton Inference Server e RayService, con esempi per modelli come Llama3-8B e Llama 3.1 405B. Offre implementazioni multinodo utilizzando K8s LeaderWorkerSet, dimensionamento automatico di EKS, GPU multi-istanza (MIG) e casi d’uso reali come un bot audio per ASR, inferenza e TTS.

## Tutorial
<a name="aiml-tutorials"></a>

Se si desidera configurare piattaforme e framework di Machine Learning in EKS, è necessario esplorare i tutorial descritti in questa sezione. Questi tutorial coprono tutto, dai modelli per sfruttare al meglio i processori delle GPU alla scelta degli strumenti di modellazione alla creazione di framework per settori specializzati.

### Creare piattaforme di IA generativa su EKS
<a name="_build_generative_ai_platforms_on_eks"></a>
+  [Implementazione dei modelli di IA generativa su Amazon EKS](https://aws.amazon.com/blogs/containers/deploy-generative-ai-models-on-amazon-eks/) 
+  [Creazione di piattaforme JupyterHub multi-tenant su Amazon EKS](https://aws.amazon.com/blogs/containers/building-multi-tenant-jupyterhub-platforms-on-amazon-eks/) 

### Eseguire framework di IA generativa specializzati su EKS
<a name="_run_specialized_generative_ai_frameworks_on_eks"></a>
+  [Accelerazione dei propri carichi di lavoro di addestramento distribuiti di IA generativa con il framework NVIDIA NeMo su Amazon EKS](https://aws.amazon.com/blogs/machine-learning/accelerate-your-generative-ai-distributed-training-workloads-with-the-nvidia-nemo-framework-on-amazon-eks/) 
+  [Avvio su Amazon Elastic Kubernetes Service](https://aws.amazon.com/blogs/opensource/running-torchserve-on-amazon-elastic-kubernetes-service/) 

### Massimizzare le prestazioni della GPU NVIDIA per ML su EKS
<a name="_maximize_nvidia_gpu_performance_for_ml_on_eks"></a>
+ Implementare la condivisione delle GPU per utilizzare in modo efficiente le GPU NVIDIA per i propri cluster EKS:

   [Condivisione della GPU su Amazon EKS con time-slicing NVIDIA e istanze EC2 accelerate](https://aws.amazon.com/blogs/containers/gpu-sharing-on-amazon-eks-with-nvidia-time-slicing-and-accelerated-ec2-instances/) 
+ Usare GPU multi-istanza (MiGS) e microservizi NIM per eseguire più pod per GPU sui propri cluster EKS:

   [Massimizzazione dell’utilizzo della GPU con la GPU multi-istanza (MIG) di NVIDIA su Amazon EKS: esecuzione di più pod per GPU per prestazioni migliorate](https://aws.amazon.com/blogs/containers/maximizing-gpu-utilization-with-nvidias-multi-instance-gpu-mig-on-amazon-eks-running-more-pods-per-gpu-for-enhanced-performance/) 
+  [Creazione e distribuzione di un sistema di machine learning scalabile su Kubernetes con Kubeflow su AWS](https://aws.amazon.com/blogs/machine-learning/build-and-deploy-a-scalable-machine-learning-system-on-kubernetes-with-kubeflow-on-aws/) 

### Eseguire carichi di lavoro di codifica video su EKS
<a name="_run_video_encoding_workloads_on_eks"></a>
+  [Distribuzione di contenuti video con GPU frazionarie in container su Amazon EKS](https://aws.amazon.com/blogs/containers/delivering-video-content-with-fractional-gpus-in-containers-on-amazon-eks/) 

### Accelerare il caricamento delle immagini per i carichi di lavoro di inferenza
<a name="_accelerate_image_loading_for_inference_workloads"></a>
+  [In che modo H2O.ai ha ottimizzato e protetto la propria infrastruttura IA/ML con Karpenter e Bottlerocket](https://aws.amazon.com/blogs/containers/how-h2o-ai-optimized-and-secured-their-ai-ml-infrastructure-with-karpenter-and-bottlerocket/) 

### Monitoraggio dei carichi di lavoro ML
<a name="_monitoring_ml_workloads"></a>
+  [Monitoraggio dei carichi di lavoro delle GPU su Amazon EKS utilizzando servizi open source gestiti AWS](https://aws.amazon.com/blogs/mt/monitoring-gpu-workloads-on-amazon-eks-using-aws-managed-open-source-services/) 
+  m[Abilitazione dei parametri delle GPU basati su pod in Amazon CloudWatch](https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/) 