Prerequisiti per l'utilizzo di SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Prerequisiti per l'utilizzo di SageMaker HyperPod

Le seguenti sezioni illustrano i prerequisiti prima di iniziare. SageMaker HyperPod

SageMaker HyperPod quote

Puoi creare SageMaker HyperPod cluster in base alle quote di utilizzo dei cluster nel tuo account. AWS

Importante

Per ulteriori informazioni sui SageMaker HyperPod prezzi, consulta la pagina SageMaker HyperPod prezzi dei prezzi di Amazon SageMaker AI.

Visualizza le SageMaker HyperPod quote Amazon utilizzando il AWS Management Console

Cerca i valori predefiniti e applicati di una quota, nota anche come limite, per l'utilizzo del cluster, utilizzata per SageMaker HyperPod.

  1. Apri la Service Quotas console.

  2. Nel pannello di navigazione a sinistra, scegli Servizi AWS .

  3. Dall'elenco dei AWS servizi, cerca e seleziona Amazon SageMaker AI.

  4. Nell'elenco delle quote di servizio, puoi vedere il nome della quota di servizio, il valore applicato (se disponibile), la quota AWS predefinita e se il valore della quota è regolabile.

  5. Nella barra di ricerca, digita l'utilizzo del cluster. Questo mostra le quote per l'utilizzo del cluster, le quote applicate e le quote predefinite.

Richiedi un aumento della SageMaker HyperPod quota Amazon utilizzando il AWS Management Console

Aumenta le tue quote a livello di account o di risorsa.

  1. Per aumentare la quota di istanze per l'utilizzo del cluster, seleziona la quota che desideri aumentare.

  2. Se la quota è regolabile, puoi richiedere un aumento della quota a livello di account o di risorsa in base al valore elencato nella colonna Adattabilità.

  3. Per Aumentare il valore della quota, inserisci il nuovo valore. Questo valore deve essere maggiore di quello corrente.

  4. Scegli Richiedi.

  5. Per visualizzare le richieste in sospeso o risolte di recente nella console, vai alla scheda Cronologia delle richieste dalla pagina dei dettagli del servizio o scegli Dashboard dal pannello di navigazione. Per le richieste in sospeso, scegliere lo stato della richiesta per aprire la ricevuta della richiesta. Lo stato iniziale di una richiesta è Pending (In attesa). Dopo che lo stato è cambiato in Quota richiesta, viene visualizzato il numero del caso con Supporto AWS. Scegli il numero del caso per aprire il ticket della tua richiesta.

Per ulteriori informazioni sulla richiesta di un aumento della quota in generale, consulta la sezione Richiesta di un aumento della quota nella Service AWS Quotas User Guide.

Configurazione SageMaker HyperPod con un Amazon VPC personalizzato

Per configurare un SageMaker HyperPod cluster con un Amazon VPC personalizzato, esamina i seguenti prerequisiti.

Nota

La configurazione VPC è obbligatoria per l'orchestrazione di Amazon EKS. Per l'orchestrazione di Slurm, la configurazione VPC è opzionale.

  • Convalida la capacità dell'Elastic Network Interface (ENI) Account AWS prima di creare un SageMaker HyperPod cluster con un VPC personalizzato. Il limite ENI è controllato da Amazon EC2 e varia a seconda Regione AWS. SageMaker HyperPod non può richiedere automaticamente aumenti delle quote.

    Per verificare la tua attuale quota ENI:
    1. Apri la Service Quotas console.

    2. Nella sezione Gestisci quote, utilizza l'elenco a discesa AWS Servizi per cercare VPC.

    3. Scegli di visualizzare le quote di Amazon Virtual Private Cloud (Amazon VPC).

    4. Cerca la quota di servizio (interfacce di rete per regione) o il codice Quota. L-DF5E4CA3

    Se il tuo attuale limite ENI non è sufficiente per le esigenze SageMaker HyperPod del tuo cluster, richiedi un aumento della quota. Garantire preventivamente un'adeguata capacità ENI aiuta a prevenire i fallimenti nell'implementazione dei cluster.

  • Quando utilizzi un VPC personalizzato per connettere un SageMaker HyperPod cluster con AWS risorse, fornisci il nome, l'ID Regione AWS, la sottorete e il gruppo di sicurezza VPC durante la IDs creazione del cluster. IDs

    Nota

    Quando Amazon VPC e sottoreti sono supportati IPv6 nel cluster o a livello di gruppo VPCConfigdi istanze utilizzando l'OverrideVPCConfigattributo of ClusterInstanceGroupSpecification, le comunicazioni di rete differiscono in base alla piattaforma di orchestrazione del cluster:

    • I cluster orchestrati da SLURM configurano automaticamente i nodi con due indirizzi e, permettendo comunicazioni di rete immediate. IPv6 IPv4 IPv6 Non è richiesta alcuna configurazione aggiuntiva oltre alle impostazioni. VPCConfig IPv6

    • Nei cluster orchestrati da EKS, i nodi ricevono l'indirizzamento dual-stack, ma i pod possono essere utilizzati solo quando IPv6 il cluster Amazon EKS è abilitato in modo esplicito. IPv6 È necessario creare un nuovo cluster IPv6 Amazon EKS: i cluster IPv4 Amazon EKS esistenti non possono essere convertiti in IPv6. Per informazioni sulla distribuzione di un cluster IPv6 Amazon EKS, consulta Amazon EKS IPv6 Cluster Deployment.

    Risorse aggiuntive per la IPv6 configurazione:

    • Per informazioni sull'aggiunta del IPv6 supporto al tuo VPC, consulta IPv6 Support for VPC.

    • Per informazioni sulla creazione di un nuovo VPC IPv6 compatibile, Amazon VPC consulta la Guida alla creazione.

    • Per configurare SageMaker HyperPod con un Amazon VPC personalizzato, consulta Configurazione Amazon VPC personalizzata per. SageMaker HyperPod

  • Assicurati che tutte le risorse siano distribuite nello stesso ambiente del cluster Regione AWS . SageMaker HyperPod Configura le regole dei gruppi di sicurezza per consentire la comunicazione tra risorse all'interno del VPC. Ad esempio, quando crei un VPC inus-west-2, esegui il provisioning delle sottoreti su una o più zone di disponibilità (ad esempio us-west-2a ous-west-2b) e crea un gruppo di sicurezza che consenta il traffico infragruppo.

    Nota

    SageMaker HyperPod supporta l'implementazione di zone di disponibilità multiple. Per ulteriori informazioni, consulta Configurazione di cluster su più cluster SageMaker HyperPod AZs.

  • Stabilisci la connettività Amazon Simple Storage Service (Amazon S3) per i SageMaker HyperPod gruppi di istanze distribuiti tramite VPC creando un endpoint VPC. Senza accesso a Internet, i gruppi di istanze non possono archiviare o recuperare script del ciclo di vita, dati di addestramento o artefatti del modello. Ti consigliamo di creare una policy IAM personalizzata che limiti l'accesso dei bucket Amazon S3 al VPC privato. Per ulteriori informazioni, consulta Endpoints for Amazon S3 nella AWS PrivateLink Guida.

  • Per HyperPod i cluster che utilizzano istanze abilitate per Elastic Fabric Adapter (EFA), configura il gruppo di sicurezza per consentire tutto il traffico in entrata e in uscita da e verso il gruppo di sicurezza stesso. In particolare, evita di utilizzarlo 0.0.0.0/0 per le regole in uscita, poiché ciò potrebbe causare errori nei controlli sanitari dell'EFA. Per ulteriori informazioni sulle linee guida per la preparazione dei gruppi di sicurezza EFA, consulta la Fase 1: Preparare un gruppo di sicurezza compatibile con EFA nella Amazon EC2 User Guide.

Configurazione di cluster su più cluster SageMaker HyperPod AZs

È possibile configurare SageMaker HyperPod i cluster su più zone di disponibilità (AZs) per migliorare l'affidabilità e la disponibilità.

Nota

Il traffico Elastic Fabric Adapter (EFA) non può attraversare o. AZs VPCs Questo non si applica al normale traffico IP dal dispositivo ENA di un'interfaccia EFA. Per ulteriori informazioni, consulta le limitazioni EFA.

  • Comportamento predefinito

    HyperPod distribuisce tutte le istanze del cluster in un'unica zona di disponibilità. La configurazione VPC determina la zona di implementazione:

    • Per i cluster orchestrati da SLURM, la configurazione VPC è facoltativa. Quando non viene fornita alcuna configurazione VPC, l' HyperPod impostazione predefinita è una sottorete dal VPC della piattaforma.

    • Per i cluster orchestrati da EKS, è richiesta la configurazione VPC.

    • Sia per gli orchestratori Slurm che EKS, quando VpcConfigviene fornita, seleziona una sottorete dall'elenco delle sottoreti del fornitore. HyperPod VpcConfig Tutti i gruppi di istanze ereditano la AZ della sottorete.

    Nota

    Una volta creato un cluster, non è possibile modificarne VpcConfig le impostazioni.

    Per ulteriori informazioni sulla configurazione VPCs per HyperPod i cluster, vedere la sezione precedente,. Configurazione SageMaker HyperPod con un Amazon VPC personalizzato

  • Configurazione Multi-AZ

    È possibile configurare il HyperPod cluster su più livelli AZs durante la creazione di un cluster o l'aggiunta di un nuovo gruppo di istanze a un cluster esistente. Per configurare le implementazioni Multi-AZ, puoi sovrascrivere le impostazioni VPC predefinite del cluster specificando diverse sottoreti e gruppi di sicurezza, potenzialmente in diverse zone di disponibilità, per singoli gruppi di istanze all'interno del cluster.

    SageMaker HyperPod Gli utenti dell'API possono utilizzare la OverrideVpcConfig proprietà all'interno di quando lavorano con o. ClusterInstanceGroupSpecificationCreateClusterUpdateCluster APIs

    Il OverrideVpcConfig campo:

    • Non può essere modificato dopo la creazione del gruppo di istanze.

    • È facoltativo. Se non specificato, il livello del cluster VpcConfigviene utilizzato come predefinito.

    • Per i cluster orchestrati da SLURM, può essere specificato solo quando viene fornito il livello del cluster. VpcConfig Se non VpcConfig è specificato no a livello di cluster, non OverrideVpcConfig può essere utilizzato per nessun gruppo di istanze.

    • Contiene due campi obbligatori:

      • Subnets- accetta tra 1 e 16 sottoreti IDs

      • SecurityGroupIds- accetta tra 1 e 5 gruppi di sicurezza IDs

    Per ulteriori informazioni sulla creazione o l'aggiornamento di un SageMaker HyperPod cluster utilizzando l'interfaccia utente della SageMaker HyperPod console o il AWS CLI:

Nota

Quando esegui carichi di lavoro su più carichi di lavoro AZs, tieni presente che la comunicazione di rete tra di loro introduce una latenza aggiuntiva. AZs Considerate questo impatto nella progettazione di applicazioni sensibili alla latenza.

Configurazione AWS Systems Manager ed esecuzione come per il controllo degli accessi degli utenti del cluster

SageMaker HyperPod DLAMIviene fornito con AWS Systems Manager(SSM) pronto all'uso per aiutarti a gestire l'accesso ai gruppi di istanze SageMaker HyperPod del cluster. Questa sezione descrive come creare utenti del sistema operativo (OS) nei SageMaker HyperPod cluster e associarli a utenti e ruoli IAM. Ciò è utile per autenticare le sessioni SSM utilizzando le credenziali dell'account utente del sistema operativo.

Nota

La concessione agli utenti dell'accesso ai nodi HyperPod del cluster consente loro di installare e utilizzare software gestito dagli utenti sui nodi. Assicurati di mantenere il principio delle autorizzazioni con privilegi minimi per gli utenti.

Attivazione di RunAs nel tuo account AWS

In qualità di amministratore AWS dell'account o amministratore del cloud, puoi gestire l'accesso ai SageMaker HyperPod cluster a livello di ruolo o utente IAM utilizzando la funzionalità Run As di SSM. Con questa funzionalità, puoi avviare ogni sessione SSM utilizzando l'utente del sistema operativo associato al ruolo o all'utente IAM.

Per abilitare RunAs nel tuo AWS account, segui la procedura descritta in Attivare il supporto RunAs per i nodi gestiti Linux e macOS. Se hai già creato utenti del sistema operativo nel tuo cluster, assicurati di associarli a ruoli o utenti IAM taggandoli come indicato nell'opzione 2 del passaggio 5 in Attivare il supporto RunAs per i nodi gestiti Linux e macOS.

(Facoltativo) Configurazione SageMaker HyperPod con Amazon FSx for Lustre

Per iniziare a utilizzare SageMaker HyperPod e mappare i percorsi di dati tra il cluster e il tuo file system FSx for Lustre, seleziona uno dei formati supportati da. Regioni AWS SageMaker HyperPod Dopo aver scelto quella Regione AWS che preferite, dovreste anche determinare quale zona di disponibilità (AZ) utilizzare.

Se si utilizzano nodi di SageMaker HyperPod elaborazione AZs diversi da quelli in AZs cui è configurato il sistema file FSx for Lustre all'interno dello stesso Regione AWS, è possibile che si verifichino problemi di comunicazione e di rete. Ti consigliamo di utilizzare la stessa AZ fisica utilizzata per l'account di SageMaker HyperPod servizio per evitare qualsiasi traffico inter-AZ tra SageMaker HyperPod i cluster e il tuo sistema file for Lustre. FSx Inoltre, assicurati di averlo configurato con il tuo VPC. Se desideri utilizzare Amazon FSx come file system principale per lo storage, devi configurare SageMaker HyperPod i cluster con il tuo VPC.