Automatizza la preparazione dei dati in Canvas SageMaker

Modalità Focus

Automatizza la preparazione dei dati in Canvas SageMaker - Amazon SageMaker AI

Automatizza la preparazione dei dati utilizzando Pipelines Automatizza la preparazione dei dati utilizzando un endpoint di inferenza Automatizza la preparazione dei dati utilizzando il codice Python

Dopo aver trasformato i dati in un flusso di dati, puoi esportare le trasformazioni nei flussi di lavoro di machine learning. Quando esportate le trasformazioni, SageMaker Canvas crea un notebook Jupyter. È necessario eseguire il notebook in Amazon SageMaker Studio Classic. Per informazioni su come iniziare a usare Studio Classic, contatta il tuo amministratore.

Automatizza la preparazione dei dati utilizzando Pipelines

Se desideri creare e implementare flussi di lavoro di machine learning (ML) su larga scala, puoi utilizzare Pipelines per creare flussi di lavoro che gestiscono e implementano lavori di intelligenza artificiale. SageMaker Con Pipelines, puoi creare flussi di lavoro che gestiscono la preparazione dei dati di SageMaker intelligenza artificiale, la formazione dei modelli e i lavori di implementazione dei modelli. Puoi utilizzare gli algoritmi proprietari offerti dall' SageMaker intelligenza artificiale utilizzando Pipelines. Per ulteriori informazioni sulle pipeline, consulta Pipelines. SageMaker

Quando esporti uno o più passaggi dal flusso di dati a Pipelines, Data Wrangler crea un notebook Jupyter che puoi utilizzare per definire, istanziare, eseguire e gestire una pipeline.

Per creare una pipeline usare un notebook Jupyter

Utilizza la seguente procedura per creare un notebook Jupyter per esportare il flusso di Data Wrangler in Pipelines.

Utilizzate la seguente procedura per generare un notebook Jupyter ed eseguirlo per esportare il flusso di Data Wrangler in Pipelines.

Seleziona la + accanto al nodo che desideri esportare.
Scegli Esporta flusso di dati.
Scegli Pipelines (tramite Jupyter Notebook).
Scarica il notebook Jupyter o copialo in una posizione Amazon S3. Ti consigliamo di copiarlo in una posizione Amazon S3 a cui puoi accedere all'interno di Studio Classic. Contatta il tuo amministratore se hai bisogno di assistenza su una posizione adatta.
Esecuzione del notebook Jupyter

Per definire una pipeline è possibile utilizzare il notebook Jupyter prodotto da Data Wrangler. La pipeline include le fasi di elaborazione dati definite dal flusso di Data Wrangler.

Puoi aggiungere ulteriori fasi alla tua pipeline aggiungendo fasi all'elenco steps nel seguente codice del notebook:


pipeline = Pipeline(
    name=pipeline_name,
    parameters=[instance_type, instance_count],
    steps=[step_process], #Add more steps to this list to run in your Pipeline
)

Per ulteriori informazioni sulla definizione delle pipeline, consulta Define SageMaker AI Pipeline.

Automatizza la preparazione dei dati utilizzando un endpoint di inferenza

Usa il tuo flusso Data Wrangler per elaborare i dati al momento dell'inferenza creando una pipeline di inferenza seriale SageMaker AI dal tuo flusso Data Wrangler. Una pipeline di inferenza è una serie di fasi che si traducono in un modello addestrato che effettua previsioni su nuovi dati. Una pipeline di inferenza seriale all'interno di Data Wrangler trasforma i dati grezzi e li fornisce al modello di machine learning per una previsione. Puoi creare, eseguire e gestire la pipeline di inferenza da un notebook Jupyter all'interno di Studio Classic. Per ulteriori informazioni sull’accesso al notebook, consultare Usa un notebook Jupyter per creare un endpoint di inferenza.

All'interno del notebook, puoi addestrare un modello di machine learning o specificarne uno che hai già addestrato. Puoi utilizzare Amazon SageMaker Autopilot o XGBoost addestrare il modello utilizzando i dati che hai trasformato nel flusso di Data Wrangler.

La pipeline offre la possibilità di eseguire inferenze in batch o in tempo reale. Puoi anche aggiungere il flusso Data Wrangler a Model Registry. SageMaker Per ulteriori informazioni sui modelli di hosting, consulta Endpoint multi-modello.

Importante

Non è possibile esportare il flusso di Data Wrangler su un endpoint di inferenza se presenta le seguenti trasformazioni:

Join
Concatenazione
Gruppo da

Se per preparare i dati è necessario utilizzare le trasformazioni precedenti, utilizza la procedura seguente.

Per preparare i dati per l'inferenza con trasformazioni non supportate

Crea un flusso di Data Wrangler.
Applica le trasformazioni precedenti non supportate.
Esporta i dati in un bucket Amazon S3.
Crea un flusso di Data Wrangler separato.
Importa i dati che hai esportato dal flusso precedente.
Applica le trasformazioni rimanenti.
Crea una pipeline di inferenza seriale utilizzando il notebook Jupyter che forniamo.

Per informazioni sull'esportazione dei dati in un bucket Amazon S3 consulta Esporta dati. Per informazioni sull'apertura del notebook Jupyter utilizzato per creare la pipeline di inferenza seriale, consulta Usa un notebook Jupyter per creare un endpoint di inferenza.

Data Wrangler ignora le trasformazioni che rimuovono i dati al momento dell'inferenza. Ad esempio, Data Wrangler ignora la trasformazione Gestisci valori mancanti se si utilizza la configurazione Drop mancante.

Se hai effettuato l'adattamento delle trasformazioni all'intero set di dati, le trasformazioni vengono trasferite alla tua pipeline di inferenza. Ad esempio, se hai utilizzato il valore mediano per imputare i valori mancanti, il valore mediano ottenuto dall'adattamento della trasformazione viene applicato alle tue richieste di inferenza. Puoi modificare le trasformazioni del flusso Data Wrangler quando utilizzi il notebook Jupyter o quando esporti i dati in una pipeline di inferenza.

La pipeline di inferenza seriale supporta i seguenti tipi di dati per le stringhe di input e output. Ogni tipo di dati ha una serie di requisiti.

Tipi di dati supportati

text/csv – il tipo di dati per le stringhe CSV
- La stringa non può avere un'intestazione.
- Le funzionalità utilizzate per la pipeline di inferenza devono essere nello stesso ordine delle funzionalità nel set di dati di addestramento.
- Tra le funzionalità deve esserci una virgola come delimitatore.
- I record devono essere delimitati da un carattere ritorno a capo.
Di seguito è riportato un esempio di una stringa CSV in formato valido che è possibile fornire in una richiesta di inferenza.
```
abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890                    
                
```
application/json – il tipo di dati per le stringhe JSON
- Le funzionalità utilizzate nel set di dati per la pipeline di inferenza devono essere nello stesso ordine delle funzionalità nel set di dati di addestramento.
- I dati devono avere uno schema specifico. Lo schema viene definito come un singolo oggetto instances con un set di features. Ogni oggetto features rappresenta un'osservazione.
Di seguito è riportato un esempio di una stringa JSON in formato valido che è possibile fornire in una richiesta di inferenza.
```
{
    "instances": [
        {
            "features": ["abc", 0.0, "Doe, John", 12345]
        },
        {
            "features": ["def", 1.1, "Doe, Jane", 67890]
        }
    ]
}                  
                
```

Usa un notebook Jupyter per creare un endpoint di inferenza

Utilizza la seguente procedura per esportare il flusso di Data Wrangler per creare una pipeline di inferenza.

Per creare una pipeline di inferenza utilizzando un notebook Jupyter, procedi come segue.

Seleziona la + accanto al nodo che desideri esportare.
Scegli Esporta flusso di dati.
Scegli SageMaker AI Inference Pipeline (tramite Jupyter Notebook).
Scarica il notebook Jupyter o copialo in una posizione Amazon S3. Ti consigliamo di copiarlo in una posizione Amazon S3 a cui puoi accedere all'interno di Studio Classic. Contatta il tuo amministratore se hai bisogno di assistenza su una posizione adatta.
Esecuzione del notebook Jupyter

Quando si esegue il notebook Jupyter, viene creato un artefatto del flusso di inferenza. Un artefatto del flusso di inferenza è un file di flusso di Data Wrangler con metadati aggiuntivi utilizzati per creare la pipeline di inferenza seriale. Il nodo che stai esportando include tutte le trasformazioni dei nodi precedenti.

Importante

Data Wrangler ha bisogno dell'artefatto del flusso di inferenza per eseguire la pipeline di inferenza. Non puoi usare il tuo file di flusso come artefatto. È necessario crearlo utilizzando la procedura precedente.

Automatizza la preparazione dei dati utilizzando il codice Python

Per esportare tutte le fasi del flusso di dati in un file Python che puoi integrare manualmente in qualsiasi flusso di lavoro di elaborazione dati, usa la procedura seguente.

Usa la seguente procedura per generare un notebook Jupyter ed eseguirlo per esportare il flusso di Data Wrangler in codice Python.

Seleziona la + accanto al nodo che desideri esportare.
Scegli Esporta flusso di dati.
Seleziona Python Code (Codice Python).
Scarica il notebook Jupyter o copialo in una posizione Amazon S3. Ti consigliamo di copiarlo in una posizione Amazon S3 a cui puoi accedere all'interno di Studio Classic. Contatta il tuo amministratore se hai bisogno di assistenza su una posizione adatta.
Esecuzione del notebook Jupyter

Per farlo eseguire nella pipeline potrebbe essere necessario configurare lo script Python. Ad esempio, se utilizzi un ambiente Spark, assicurati di eseguire lo script da un ambiente che dispone del permesso di accedere alle AWS risorse.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Crea una pianificazione per elaborare automaticamente i nuovi dati

Modelli di base generativi di intelligenza artificiale

In questa pagina

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Automatizza la preparazione dei dati in Canvas SageMaker

Automatizza la preparazione dei dati utilizzando Pipelines

Per creare una pipeline usare un notebook Jupyter

Automatizza la preparazione dei dati utilizzando un endpoint di inferenza

Importante

Per preparare i dati per l'inferenza con trasformazioni non supportate

Tipi di dati supportati

Usa un notebook Jupyter per creare un endpoint di inferenza

Importante

Automatizza la preparazione dei dati utilizzando il codice Python

In questa pagina

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?