Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Concedi agli utenti le autorizzazioni per utilizzare dati di grandi dimensioni in tutto il ciclo di vita del machine learning
Gli utenti di Amazon SageMaker Canvas che lavorano con set di dati di dimensioni superiori a 10 GB in formato CSV o 2,5 GB in formato Parquet richiedono autorizzazioni specifiche per l'elaborazione di dati di grandi dimensioni. Queste autorizzazioni sono essenziali per la gestione di dati su larga scala durante l'intero ciclo di vita dell'apprendimento automatico. Quando i set di dati superano le soglie dichiarate o la capacità di memoria locale dell'applicazione, Canvas SageMaker utilizza Amazon EMR Serverless per un'elaborazione efficiente. Questo vale per:
-
Importazione dati: importazione di set di dati di grandi dimensioni con campionamento casuale o stratificato.
-
Preparazione dei dati: esportazione dei dati elaborati da Data Wrangler in Canvas ad Amazon S3, a un nuovo set di dati Canvas o a un modello Canvas.
-
Costruzione di modelli: modelli di addestramento su set di dati di grandi dimensioni.
-
Inferenza: fare previsioni su set di dati di grandi dimensioni.
Per impostazione predefinita, SageMaker Canvas utilizza EMR Serverless per eseguire questi lavori remoti con le seguenti impostazioni dell'app:
-
Capacità preinizializzata: non configurata
-
Limiti applicativi: capacità massima di 400 vCPUs, massimo 16 V simultanei CPUs per account, 3000 GB di memoria, disco da 20000 GB
-
Configurazione Metastore: AWS Glue Data Catalog
-
Registri delle applicazioni: storage AWS gestito (abilitato), utilizzando una AWS chiave di crittografia proprietaria
-
Comportamento dell'applicazione: si avvia automaticamente all'invio del lavoro e si arresta automaticamente dopo che l'applicazione è rimasta inattiva per 15 minuti
Per abilitare queste funzionalità di elaborazione di dati di grandi dimensioni, gli utenti necessitano delle autorizzazioni necessarie, che possono essere concesse tramite le impostazioni del dominio Amazon SageMaker AI. Il metodo per concedere queste autorizzazioni dipende dalla configurazione iniziale del dominio Amazon SageMaker AI. Tratteremo tre scenari principali:
-
Configurazione rapida del dominio
-
Configurazione personalizzata del dominio (con accesso a Internet pubblico/senza VPC)
-
Configurazione personalizzata del dominio (con VPC e senza accesso pubblico a Internet)
Ogni scenario richiede passaggi specifici per garantire che gli utenti dispongano delle autorizzazioni necessarie per sfruttare EMR Serverless per l'elaborazione di dati di grandi dimensioni durante l'intero ciclo di vita dell'apprendimento automatico in Canvas. SageMaker
Scenario 1: configurazione rapida del dominio
Se hai utilizzato l'opzione di configurazione rapida durante la creazione del tuo dominio SageMaker AI, segui questi passaggi:
-
Passa alle impostazioni del dominio Amazon SageMaker AI:
-
Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/
. -
Nel riquadro di navigazione a sinistra, scegli Domains (Domini).
-
Scegli il tuo dominio.
-
Scegli la scheda Configurazioni dell'app.
-
Scorri fino alla sezione Canvas e scegli Modifica.
-
-
Abilita l'elaborazione di dati di grandi dimensioni:
-
Nella sezione Configurazione dell'elaborazione di dati di grandi dimensioni, attiva Abilita EMR Serverless per l'elaborazione di dati di grandi dimensioni.
-
Crea o seleziona un ruolo EMR Serverless:
-
Scegli Crea e usa un nuovo ruolo di esecuzione per creare un nuovo ruolo IAM che abbia una relazione di fiducia con EMR Serverless e la AWS politica gestita: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy policy allegata. Questo ruolo IAM viene assunto da Canvas per creare lavori EMR Serverless.
-
In alternativa, se disponi già di un ruolo di esecuzione con una relazione di trust per EMR Serverless, seleziona Usa un ruolo di esecuzione esistente e scegli il tuo ruolo dal menu a discesa.
-
Il ruolo esistente deve avere un nome che inizi con il prefisso.
AmazonSageMakerCanvasEMRSExecutionAccess-
-
Il ruolo selezionato deve inoltre avere almeno le autorizzazioni descritte nella AWS politica gestita: AmazonSageMakerCanvas EMRServerless ExecutionRolePolicy politica.
-
Il ruolo deve avere una policy di fiducia EMR Serverless, come illustrato di seguito:
{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessTrustPolicy", "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "
<your-account-id>
" } } } ] }
-
-
-
-
(Facoltativo) Aggiungi le autorizzazioni Amazon S3 per i bucket Amazon S3 personalizzati:
-
La policy gestita di Canvas concede automaticamente le autorizzazioni di lettura e scrittura per i bucket Amazon S3
sagemaker
conSageMaker AI
o nel loro nome. Concede inoltre le autorizzazioni di lettura per gli oggetti nei bucket Amazon S3 personalizzati con il tag."SageMaker": "true"
-
Per i bucket Amazon S3 personalizzati senza il tag richiesto, aggiungi la seguente policy al tuo ruolo EMR Serverless:
-
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::*" ] } ] }
-
Ti consigliamo di limitare le autorizzazioni per specifici bucket Amazon S3 a cui desideri che Canvas acceda.
-
-
Salva le modifiche e riavvia l'applicazione Canvas. SageMaker
Scenario 2: configurazione personalizzata del dominio (con accesso a Internet pubblico/senza VPC)
Se hai creato o utilizzi un dominio personalizzato, segui i passaggi 1-3 dello Scenario 1, quindi esegui questi passaggi aggiuntivi:
-
Aggiungi le autorizzazioni per l'
DescribeImages
operazione Amazon ECR al tuo ruolo di esecuzione di Amazon SageMaker AI, poiché Canvas utilizza immagini Docker pubbliche di Amazon ECR per la preparazione dei dati e l'addestramento dei modelli:-
Accedi alla AWS console e apri la console IAM all'indirizzo. https://console.aws.amazon.com/iam/
-
Scegli Ruoli.
-
Nella casella di ricerca, cerca il tuo ruolo di esecuzione SageMaker AI per nome e selezionalo.
-
Aggiungi la seguente policy al tuo ruolo di esecuzione dell' SageMaker IA. Questo può essere fatto aggiungendola come nuova politica in linea o aggiungendo la dichiarazione politica a una esistente. Tieni presente che a un ruolo IAM può essere associato un massimo di 10 policy.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "ECRDescribeImagesOperation", "Effect": "Allow", "Action": "ecr:DescribeImages", "Resource": [ "arn:aws:ecr:*:*:repository/sagemaker-data-wrangler-emr-container", "arn:aws:ecr:*:*:repository/ap-dataprep-emr" ] }] }
-
-
Salva le modifiche e riavvia l'applicazione SageMaker Canvas.
Scenario 3: configurazione personalizzata del dominio (con VPC e senza accesso pubblico a Internet)
Se hai creato o utilizzi un dominio personalizzato, segui tutti i passaggi dello Scenario 2, quindi segui questi passaggi aggiuntivi:
-
Assicurati che le sottoreti VPC siano private:
-
Verifica che la tabella di routing per le tue sottoreti non disponga di una mappatura
0.0.0.0/0
delle voci su un Internet Gateway.
-
-
Aggiungi le autorizzazioni per la creazione di interfacce di rete:
-
Quando si utilizza SageMaker Canvas con EMR Serverless per l'elaborazione di dati su larga scala, EMR Serverless richiede la possibilità di creare Amazon per EC2 ENIs abilitare la comunicazione di rete tra le applicazioni EMR Serverless e le risorse VPC.
-
Aggiungi la seguente policy al tuo ruolo di esecuzione di Amazon SageMaker AI. Questo può essere fatto aggiungendola come nuova politica in linea o aggiungendo la dichiarazione politica a una esistente. Tieni presente che a un ruolo IAM può essere associato un massimo di 10 policy.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowEC2ENICreation", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:network-interface/*" ], "Condition": { "StringEquals": { "aws:CalledViaLast": "ops.emr-serverless.amazonaws.com" } } } ] }
-
-
(Facoltativo) Limita la creazione di ENI a sottoreti specifiche:
-
Per proteggere ulteriormente la tua configurazione limitando la creazione di determinate sottoreti ENIs all'interno del tuo VPC, puoi etichettare ogni sottorete con condizioni specifiche.
-
Utilizza la seguente policy IAM per garantire che le applicazioni EMR Serverless possano creare Amazon solo EC2 ENIs all'interno delle sottoreti e dei gruppi di sicurezza consentiti:
{ "Sid": "AllowEC2ENICreationInSubnetAndSecurityGroupWithEMRTags", "Effect": "Allow", "Action": [ "ec2:CreateNetworkInterface" ], "Resource": [ "arn:aws:ec2:*:*:subnet/*", "arn:aws:ec2:*:*:security-group/*" ], "Condition": { "StringEquals": { "aws:ResourceTag/KEY": "VALUE" } } }
-
-
Segui i passaggi indicati nella pagina Configura Amazon SageMaker Canvas in un VPC senza accesso a Internet per impostare l'endpoint VPC per Amazon S3, richiesto da EMR Serverless e da altri servizi utilizzati da Canvas. AWS SageMaker
-
Salva le modifiche e riavvia l'applicazione Canvas. SageMaker
Seguendo questi passaggi, puoi abilitare l'elaborazione di dati di grandi dimensioni in SageMaker Canvas per varie configurazioni di dominio, incluse quelle con configurazioni VPC personalizzate. Ricordati di riavviare l'applicazione SageMaker Canvas dopo aver apportato queste modifiche per applicare le nuove autorizzazioni.