Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Crea lavori di regressione o classificazione per dati tabulari utilizzando AutoML API
È possibile creare un processo di regressione o classificazione Autopilot per dati tabulari a livello di codice richiamando l'CreateAutoMLJobV2
APIazione in qualsiasi lingua supportata da Autopilot o da. AWS CLI Di seguito è riportata una raccolta di parametri di richiesta di input obbligatori e facoltativi per l'azione. CreateAutoMLJobV2
API È possibile trovare informazioni alternative per la versione precedente di questa azione, CreateAutoMLJob
. Tuttavia, consigliamo di utilizzare CreateAutoMLJobV2
.
Per informazioni su come questa API azione si traduce in una funzione nella lingua desiderata, consultate la sezione Vedere anche di CreateAutoMLJobV2
e scegliete unSDK. Ad esempio, per gli utenti di Python, vedi la sintassi completa della richiesta di create_auto_ml_job_v2
in AWS SDK for Python (Boto3).
Nota
CreateAutoMLJobV2e DescribeAutoMLJobV2sono nuove versioni di CreateAutoMLJobe offrono compatibilità DescribeAutoMLJobcon le versioni precedenti.
Si consiglia di utilizzare CreateAutoMLJobV2
. CreateAutoMLJobV2
è in grado di gestire tipi di problemi tabulari identici a quelli della versione precedente CreateAutoMLJob
, nonché tipi di problemi non tabulari come la classificazione di immagini o testi o la previsione di serie temporali.
Come minimo, tutti gli esperimenti su dati tabulari richiedono la specificazione del nome dell'esperimento, l'indicazione delle posizioni per i dati di input e output e la specificazione dei dati target da prevedere. Facoltativamente, puoi anche specificare il tipo di problema che desideri risolvere (regressione, classificazione, classificazione multiclasse), scegliere la tua strategia di modellazione (insiemi impilati o ottimizzazione degli iperparametri), selezionare l'elenco di algoritmi utilizzati dal job Autopilot per addestrare i dati e altro ancora.
Dopo l'esecuzione dell'esperimento, puoi confrontare le prove e approfondire i dettagli delle fasi di pre-elaborazione, degli algoritmi e degli intervalli di iperparametri di ciascun modello. È inoltre possibile scaricare i relativi report sulla spiegabilità e sulle prestazioni. Utilizza i notebook forniti per visualizzare i risultati dell'esplorazione automatica dei dati o le definizioni dei modelli candidati.
Trova le linee guida su come migrare un CreateAutoMLJob
a CreateAutoMLJobV2
inMigrare un CreateAuto MLJob CreateAuto MLJobV2.
Parametri obbligatori
Tutti gli altri parametri sono facoltativi.
Parametri facoltativi
Le sezioni seguenti forniscono dettagli su alcuni parametri opzionali che è possibile passare all'CreateAutoMLJobV2
APIazione quando si utilizzano dati tabulari. È possibile trovare informazioni alternative per la versione precedente di questa azione, CreateAutoMLJob
. Tuttavia, consigliamo di utilizzare CreateAutoMLJobV2
.
Per quanto riguarda i dati tabulari, l'insieme di algoritmi eseguiti sui dati per addestrare i candidati modello dipende dalla strategia di modellazione utilizzata (ENSEMBLING
o HYPERPARAMETER_TUNING
). Di seguito viene descritto in dettaglio come impostare questa modalità di addestramento.
Se lasci vuoto (o null
), viene dedotto Mode
in base alla dimensione del set di dati.
Per informazioni sui metodi di addestramento raggruppati impilati e ottimizzazione degli iperparametri di Autopilot, consulta Modalità di addestramento e supporto degli algoritmi
Selezione delle funzionalità
Autopilot fornisce fasi automatiche di preelaborazione dei dati, tra cui la selezione e l'estrazione delle funzionalità. Tuttavia, è possibile fornire manualmente le funzionalità da utilizzare durante l’addestramento con l'attributo FeatureSpecificatioS3Uri
.
Le funzionalità selezionate devono essere contenute in un JSON file nel seguente formato:
{ "FeatureAttributeNames":["col1", "col2", ...] }
I valori elencati in ["col1", "col2", ...]
fanno distinzione tra maiuscole e minuscole. Dovrebbero essere un elenco di stringhe contenenti valori univoci che sono sottoinsiemi dei nomi delle colonne nei dati di input.
Nota
L'elenco di colonne fornito come funzionalità non può includere la colonna di destinazione.
Selezione degli algoritmi
Per impostazione predefinita, il processo di Autopilot esegue un elenco predefinito di algoritmi sul set di dati per addestrare candidati modello. L'elenco degli algoritmi dipende dalla modalità (ENSEMBLING
o HYPERPARAMETER_TUNING
) di addestramento utilizzata dal processo.
È possibile fornire un sottoinsieme della selezione predefinita di algoritmi.
Per l'elenco degli algoritmi disponibili per ogni addestramento Mode
, vedere AutoMLAlgorithms
. Per informazioni dettagliate su ciascun algoritmo, vedere Modalità di addestramento e supporto degli algoritmi.
Puoi fornire il tuo set di dati di convalida e un rapporto di suddivisione dei dati personalizzato oppure lasciare che Autopilot suddivida automaticamente il set di dati.
Per informazioni sulla suddivisione e la convalida incrociata in Autopilot, consultare Convalida incrociata in Autopilot.
Nota
In alcuni casi, Autopilot non è in grado di dedurre ProblemType
con un livello di fiducia abbastanza elevato, nel qual caso è necessario fornire il valore del processo per riuscire nell’operazione.
È possibile aggiungere una colonna di pesi di esempio al set di dati tabulare e quindi passarla al processo AutoML per richiedere la ponderazione delle righe del set di dati durante l’addestramento e la valutazione.
Il supporto per i pesi dei campioni è disponibile solo in modalità raggruppamento. I pesi devono essere numerici e non negativi. Sono esclusi i punti dati con un valore di peso non valido o assente. Per ulteriori informazioni sui parametri disponibili, consulta Parametri ponderati per Autopilot.
Puoi configurare il tuo processo AutoML V2 per avviare automaticamente un processo remoto su Amazon EMR Serverless quando sono necessarie risorse di elaborazione aggiuntive per elaborare set di dati di grandi dimensioni. Passando senza problemi a EMR Serverless quando necessario, il job AutoML è in grado di gestire set di dati che altrimenti supererebbero le risorse inizialmente assegnate, senza alcun intervento manuale da parte dell'utente. EMRServerless è disponibile per i tipi di problemi tabulari e di serie temporali. Consigliamo di configurare questa opzione per set di dati tabulari di dimensioni superiori a 5 GB.
Per consentire al job AutoML V2 di passare automaticamente a EMR Serverless per set di dati di grandi dimensioni, è necessario fornire un EmrServerlessComputeConfig
oggetto, che include un ExecutionRoleARN
campo, alla richiesta di input di AutoMLComputeConfig
AutoML job V2.
ExecutionRoleARN
È il ARN IAM ruolo che concede al job AutoML V2 le autorizzazioni necessarie per eseguire lavori Serverless. EMR
Questo ruolo deve avere la seguente relazione di fiducia:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "emr-serverless.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
E concedi le autorizzazioni per:
-
Crea, elenca e aggiorna applicazioni EMR serverless.
-
Avvia, elenca, ottieni o annulla le esecuzioni dei job su un'applicazione EMR serverless.
-
Etichetta le EMR risorse serverless.
-
Passa un IAM ruolo al servizio EMR Serverless per l'esecuzione.
Concedendo l'
iam:PassRole
autorizzazione, il job AutoML V2 può assumere temporaneamenteEMRServerlessRuntimeRole-*
il ruolo e passarlo al EMR servizio Serverless. Questi sono i IAM ruoli utilizzati dagli ambienti di esecuzione dei lavori EMR Serverless per accedere ad altri AWS servizi e risorse necessari durante il runtime, come Amazon S3 per l'accesso ai dati, per la registrazione CloudWatch , l'accesso al Data Catalog o altri servizi in base ai requisiti AWS Glue del carico di lavoro.
La IAM politica definita nel JSON documento fornito concede tali autorizzazioni:
{ "Version": "2012-10-17", "Statement": [{ + "Sid": "EMRServerlessCreateApplicationOperation", + "Effect": "Allow", + "Action": "emr-serverless:CreateApplication", + "Resource": "arn:aws:emr-serverless:*:*:/*", + "Condition": { + "StringEquals": { + "aws:RequestTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessListApplicationOperation", + "Effect": "Allow", + "Action": "emr-serverless:ListApplications", + "Resource": "arn:aws:emr-serverless:*:*:/*", + "Condition": { + "StringEquals": { + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessApplicationOperations", + "Effect": "Allow", + "Action": [ + "emr-serverless:UpdateApplication", + "emr-serverless:GetApplication" + ], + "Resource": "arn:aws:emr-serverless:*:*:/applications/*", + "Condition": { + "StringEquals": { + "aws:ResourceTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessStartJobRunOperation", + "Effect": "Allow", + "Action": "emr-serverless:StartJobRun", + "Resource": "arn:aws:emr-serverless:*:*:/applications/*", + "Condition": { + "StringEquals": { + "aws:RequestTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessListJobRunOperation", + "Effect": "Allow", + "Action": "emr-serverless:ListJobRuns", + "Resource": "arn:aws:emr-serverless:*:*:/applications/*", + "Condition": { + "StringEquals": { + "aws:ResourceTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessJobRunOperations", + "Effect": "Allow", + "Action": [ + "emr-serverless:GetJobRun", + "emr-serverless:CancelJobRun" + ], + "Resource": "arn:aws:emr-serverless:*:*:/applications/*/jobruns/*", + "Condition": { + "StringEquals": { + "aws:ResourceTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "EMRServerlessTagResourceOperation", + "Effect": "Allow", + "Action": "emr-serverless:TagResource", + "Resource": "arn:aws:emr-serverless:*:*:/*", + "Condition": { + "StringEquals": { + "aws:RequestTag/sagemaker:is-canvas-resource": "True", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } + }, + { + "Sid": "IAMPassOperationForEMRServerless", + "Effect": "Allow", + "Action": "iam:PassRole", + "Resource": "arn:aws:iam::*:role/EMRServerlessRuntimeRole-*", + "Condition": { + "StringEquals": { + "iam:PassedToService": "emr-serverless.amazonaws.com", + "aws:ResourceAccount": "${aws:PrincipalAccount}" + } + } } ] }
Migrare un CreateAuto MLJob CreateAuto MLJobV2
Consigliamo agli utenti di CreateAutoMLJob
di migrare a CreateAutoMLJobV2
.
Questa sezione spiega le differenze nei parametri di input tra le due versioni CreateAutoMLJobed CreateAutoMLJobV2evidenziando le modifiche nella posizione, nel nome o nella struttura degli oggetti e degli attributi della richiesta di input.
-
Attributi della richiesta che non sono cambiati tra le versioni.
{ "AutoMLJobName": "string", "AutoMLJobObjective": { "MetricName": "string" }, "ModelDeployConfig": { "AutoGenerateEndpointName": boolean, "EndpointName": "string" }, "OutputDataConfig": { "KmsKeyId": "string", "S3OutputPath": "string" }, "RoleArn": "string", "Tags": [ { "Key": "string", "Value": "string" } ] }
-
Richiedi gli attributi che hanno modificato la posizione e la struttura tra le versioni.
La posizione dei seguenti attributi è cambiata:
DataSplitConfig
,Security Config
,CompletionCriteria
,Mode
,FeatureSpecificationS3Uri
,SampleWeightAttributeName
,TargetAttributeName
. -
I seguenti attributi hanno modificato la posizione e la struttura tra le versioni.
Di seguito JSON viene illustrato come utilizzare A utoMLJob Config. CandidateGenerationConfigdi tipo A utoMLCandidate GenerationConfig spostato in A. utoMLProblem TypeConfig TabularJobConfig. CandidateGenerationConfigdi tipo CandidateGenerationConfigin V2.
-
Richiedi gli attributi che hanno cambiato nome e struttura.
Quanto segue JSON illustra come InputDataConfig(Un array di A utoMLChannel) sia cambiato in A utoMLJob InputDataConfig (Un array di A utoMLJobChannel) in V2. Nota che gli attributi
SampleWeightAttributeName
eTargetAttributeName
vengono spostati daInputDataConfig
e versoAutoMLProblemTypeConfig
.