Crea un esperimento di regressione o classificazione automatica per dati tabulari utilizzando l'interfaccia utente di Studio Classic

Importante

A partire dal 30 novembre 2023, l'interfaccia utente di Autopilot sta migrando ad SageMaker Amazon Canvas come parte dell'esperienza Amazon SageMaker Studio aggiornata. SageMaker Canvas offre agli analisti e ai citizen data scientist funzionalità senza codice per attività come la preparazione dei dati, l'ingegneria delle funzionalità, la selezione degli algoritmi, la formazione e l'ottimizzazione, l'inferenza e altro ancora. Gli utenti possono sfruttare le visualizzazioni integrate e l'analisi ipotetica per esplorare i propri dati e diversi scenari, con previsioni automatizzate che consentono loro di produrre facilmente i propri modelli. Canvas supporta una varietà di casi d'uso, tra cui visione artificiale, previsione della domanda, ricerca intelligente e intelligenza artificiale generativa.

Gli utenti di Amazon SageMaker Studio Classic, l'esperienza precedente di Studio, possono continuare a utilizzare l'interfaccia utente Autopilot in Studio Classic. Gli utenti con esperienza di programmazione possono continuare a utilizzare tutti i APIriferimenti in qualsiasi implementazione tecnica supportataSDK.

Se hai utilizzato Autopilot in Studio Classic fino ad ora e desideri migrare a SageMaker Canvas, potresti dover concedere autorizzazioni aggiuntive al tuo profilo utente o IAM ruolo in modo da poter creare e utilizzare l'applicazione Canvas. SageMaker Per ulteriori informazioni, consulta (Facoltativo) Esegui la migrazione da Autopilot in Studio Classic a Canvas SageMaker .

Tutte le istruzioni relative all'interfaccia utente contenute in questa guida riguardano le funzionalità autonome di Autopilot prima della migrazione ad Amazon Canvas. SageMaker Gli utenti che seguono queste istruzioni devono utilizzare Studio Classic.

Puoi utilizzare l'interfaccia utente di Amazon SageMaker Studio Classic per creare esperimenti Autopilot per problemi di classificazione o regressione su dati tabulari. L'interfaccia utente ti aiuta a specificare il nome dell'esperimento, a fornire le posizioni per i dati di input e output e a specificare quali dati di destinazione prevedere. Facoltativamente, puoi anche specificare il tipo di problema che desideri risolvere (regressione, classificazione, classificazione multiclasse), scegliere la tua strategia di modellazione (insiemi impilati o ottimizzazione degli iperparametri), selezionare l'elenco di algoritmi utilizzati dal job Autopilot per addestrare i dati e altro ancora.

L'interfaccia utente include descrizioni, interruttori, menu a discesa, pulsanti di opzione e altro per aiutarti a orientarti nella creazione dei tuoi modelli di candidati. Dopo l'esecuzione dell'esperimento, puoi confrontare le prove e approfondire i dettagli delle fasi di pre-elaborazione, degli algoritmi e degli intervalli di iperparametri di ciascun modello. Facoltativamente, è possibile scaricare i relativi report sulla spiegabilità e sulle prestazioni. Utilizza i notebook forniti per visualizzare i risultati dell'esplorazione automatica dei dati o le definizioni dei modelli candidati.

In alternativa, è possibile utilizzare Autopilot AutoML API in. Crea un processo di regressione o classificazione per dati tabulari utilizzando AutoML API

Per creare un esperimento Autopilot utilizzando l'interfaccia utente di Studio Classic

Accedi a https://console.aws.amazon.com/sagemaker/, scegli Studio dal riquadro di navigazione a sinistra, seleziona il tuo dominio e il tuo profilo utente, quindi Apri Studio.
In Studio, scegli l'icona Studio Classic nel riquadro di navigazione in alto a sinistra. Verrà aperta un'app Studio Classic.
Esegui o apri un'applicazione Studio Classic dallo spazio che preferisci oppure crea uno spazio Studio Classic. . Nella scheda Home, scegli la scheda AutoML. Si aprirà una nuova scheda AutoML.
Scegli Crea un esperimento AutoML. Si aprirà una nuova scheda Crea esperimento.
Nella sezione Dettagli dell'esperimento e dei dati, inserisci le seguenti informazioni:
1. Nome dell'esperimento: deve essere univoco per l'account corrente Regione AWS e contenere un massimo di 63 caratteri alfanumerici. Può includere trattini (-) ma non spazi.
2. Dati di input: fornisci la posizione del bucket Amazon Simple Storage Service (Amazon S3) dei dati di input. Questo bucket S3 deve trovarsi nella tua Regione AWS attuale. URLDeve essere in un s3:// formato in cui Amazon SageMaker dispone delle autorizzazioni di scrittura. Il file deve essere in CSV formato Parquet e contenere almeno 500 righe. Seleziona Sfoglia per scorrere i percorsi disponibili e Anteprima per visualizzare un esempio dei dati di input.
3. L'input S3 è un file manifesto? – Un file manifesto include metadati con i dati di input. I metadati specificano la posizione dei dati in Amazon S3. Specificano inoltre come vengono formattati i dati e quali attributi del set di dati utilizzare per addestrare il modello. È possibile utilizzare un file manifesto come alternativa alla preelaborazione quando i dati etichettati vengono trasmessi in streaming in modalità Pipe.
4. Suddivisione automatica dei dati? – Autopilot può suddividere i dati in una suddivisione dell'80-20% dei dati di addestramento e convalida. Se preferisci una suddivisione personalizzata, puoi scegliere Specificare il rapporto di suddivisione. Per utilizzare un set di dati personalizzato per la convalida, scegliere Fornisci un set di convalida.
5. Posizione dei dati di output (bucket S3): il nome della posizione del bucket S3 in cui desideri archiviare i dati di output. Il bucket URL for this deve essere in un formato Amazon S3 in cui SageMaker Amazon dispone delle autorizzazioni di scrittura. Il bucket S3 deve trovarsi nella corrente Regione AWS. Autopilot può anche crearlo per te nella stessa posizione dei dati di input.
Scegli Avanti: Target e funzionalità. Si aprirà la scheda Target e funzionalità.
Nella sezione Target e funzionalità:
- seleziona una colonna da impostare come obiettivo per le previsioni dei modelli.
- Facoltativamente, puoi inserire il nome di una colonna di pesi del campione nella sezione Peso del campione per richiedere la ponderazione delle righe del set di dati durante l’addestramento e la valutazione. Per ulteriori informazioni sui parametri disponibili, consulta Parametri ponderati per Autopilot.
  
  Nota
  Il supporto per i pesi dei campioni è disponibile solo in modalità raggruppamento.
- Puoi anche selezionare le funzionalità per l’addestramento e modificarne il tipo di dati. Sono disponibili i seguenti tipi di dati: TextNumerical,Categorical,Datetime,Sequence, e Auto. Per impostazione predefinita sono selezionate tutte le funzionalità.
Scegli Avanti: metodo di addestramento. Si aprirà la scheda Metodo di addestramento.
Nella sezione Metodo di allenamento, seleziona l'opzione di allenamento: Ensembling, Hyperparameter optimization (HPO) o Auto per consentire ad Autopilot di scegliere automaticamente il metodo di allenamento in base alla dimensione del set di dati. Ogni modalità di addestramento esegue un set predefinito di algoritmi sul set di dati per addestrare candidati modello. Per impostazione predefinita, Autopilot preseleziona tutti gli algoritmi disponibili per la modalità di addestramento specificata. Puoi eseguire un esperimento di addestramento Autopilot con tutti gli algoritmi o scegliere un sottoinsieme personalizzato.

Per ulteriori informazioni sulle modalità di addestramento e sugli algoritmi disponibili, consulta la sezione Modalità di addestramento Autopilot nella pagina Modalità di addestramento e algoritmi.
Scegli Avanti: implementazione e impostazioni avanzate per aprire la scheda Implementazione e impostazioni avanzate. Le impostazioni includono il nome dell'endpoint con visualizzazione automatica, il tipo di problema di machine learning e scelte aggiuntive per l'esecuzione dell'esperimento.
1. Impostazioni di implementazione: Autopilot può creare automaticamente un endpoint e implementare il modello per te.
  
  Per eseguire l'implementazione automatica su un endpoint generato automaticamente o per fornire un nome di endpoint per l'implementazione personalizzata, imposta l'interruttore su Sì in Implementazione automatica? Se stai importando dati da Amazon Data Wrangler, hai a disposizione opzioni aggiuntive per implementare automaticamente il modello migliore con o senza le trasformazioni di SageMaker Data Wrangler.
  
  Nota
  Se il flusso di Data Wrangler contiene operazioni su più righe comegroupby, join o concatenate, non puoi eseguire l'implementazione automatica con queste trasformazioni. Per ulteriori informazioni, consulta Addestra automaticamente i modelli sul tuo flusso di dati.
2. Impostazioni avanzate (facoltative): Autopilot fornisce controlli aggiuntivi per impostare manualmente parametri sperimentali come la definizione del tipo di problema, i vincoli di tempo delle operazioni e le prove Autopilot, le impostazioni di sicurezza e crittografia.
  
  Nota
  Autopilot supporta l'impostazione di valori predefiniti per semplificare la configurazione degli esperimenti Autopilot utilizzando l'interfaccia utente di Studio Classic. Gli amministratori possono utilizzare le configurazioni del ciclo di vita di Studio Classic (LCC) per impostare i valori di infrastruttura, rete e sicurezza nei file di configurazione e precompilare le impostazioni avanzate dei processi. AutoML
  Per ulteriori informazioni su come gli amministratori possono automatizzare la personalizzazione di un esperimento Autopilot, consulta Configura i parametri predefiniti di un esperimento Autopilot (per amministratori).
  1. Tipo di problema di machine learning: Autopilot può dedurre automaticamente il tipo di problema di apprendimento supervisionato dal set di dati. Se preferisci sceglierlo manualmente, puoi utilizzare il menu a discesa Seleziona il tipo di problema di machine learning. Nota che il valore predefinito è Automatico. In alcuni casi, non è in grado di dedurre con precisione SageMaker . Quando ciò accade, è necessario fornire il valore necessario affinché il processo abbia successo. In particolare, puoi scegliere tra i seguenti tipi:
    - Classificazione binaria: la classificazione binaria assegna i dati di input a una delle due classi predefinite e che si escludono a vicenda, in base ai rispettivi attributi, ad esempio la diagnosi medica basata sui risultati dei test diagnostici che determinano se una persona ha una malattia.
    - Regressione: la regressione stabilisce una relazione tra le variabili di input (note anche come variabili o funzionalità indipendenti) e la variabile target (nota anche come variabile dipendente). Questa relazione viene acquisita tramite una funzione o un modello matematico che mappa le variabili di input su un output continuo. Viene comunemente utilizzata per attività come la previsione dei prezzi delle case in base a caratteristiche come la metratura e il numero di bagni, le tendenze del mercato azionario o la stima dei dati di vendita.
    - Classificazione multiclasse: la classificazione multiclasse assegna i dati di input a una delle diverse classi in base ai relativi attributi, ad esempio la previsione dell'argomento più rilevante per un documento di testo, come politica, finanza o filosofia.
  2. Runtime: è possibile definire un limite di tempo massimo. Al raggiungimento del limite di tempo, le prove e i processi che superano il limite di tempo si interrompono automaticamente.
  3. Accesso: puoi scegliere il ruolo che Amazon SageMaker Studio Classic assume per ottenere l'accesso temporaneo Servizi AWS (in particolare, SageMaker ad Amazon S3) per tuo conto. Se nessun ruolo è definito in modo esplicito, Studio Classic utilizza automaticamente il ruolo di SageMaker esecuzione predefinito associato al tuo profilo utente.
  4. Crittografia: per migliorare la sicurezza dei dati archiviati e proteggerli da accessi non autorizzati, puoi specificare chiavi di crittografia per crittografare i dati nei bucket Amazon S3 e nel volume Amazon Elastic Block Store (EBSAmazon) collegato al tuo dominio Studio Classic.
  5. Sicurezza: puoi scegliere il cloud privato virtuale (AmazonVPC) in cui eseguire il tuo SageMaker lavoro. Assicurati che Amazon VPC abbia accesso ai tuoi bucket Amazon S3 di input e output.
  6. Progetto: specifica il nome del SageMaker progetto da associare a questo esperimento Autopilot e ai risultati del modello. Quando si specifica un progetto, Autopilot contrassegna il progetto come esperimento. Ciò consente di sapere quali output del modello sono associati a questo progetto.
  7. Tag: i tag sono un array di coppie chiave-valore. Utilizzate i tag per classificare le risorse Servizi AWS, ad esempio lo scopo, il proprietario o l'ambiente.
3. Seleziona Avanti: rivedi e crea per ottenere un riepilogo dell'esperimento Autopilot prima di crearlo.
Seleziona Crea esperimento. La creazione dell'esperimento avvia un processo di Autopilot in. SageMaker Autopilot fornisce lo stato dell'esperimento, informazioni sul processo di esplorazione dei dati e sui modelli candidati nei notebook, un elenco dei modelli generati e dei relativi report e il profilo professionale utilizzato per crearli.

Per informazioni sui notebook generati da un processo Autopilot, vedere Notebook Amazon SageMaker Autopilot generati per gestire le attività di AutoML. Per informazioni sui dettagli di ciascun modello candidato e sui relativi report, vedere Modelli generati da Amazon SageMaker Autopilot .

Nota

Per evitare di incorrere in costi inutili: se implementi un modello che non è più necessario, elimina gli endpoint e le risorse che sono state create durante l'implementazione. Le informazioni sulle istanze di prezzo per regione sono disponibili su Amazon SageMaker Pricing.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Implementazione e previsioni dei modelli

Configura i parametri predefiniti di un esperimento Autopilot (per amministratori)