Come funzionano i modelli personalizzati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Come funzionano i modelli personalizzati

Usa Amazon SageMaker Canvas per creare un modello personalizzato sul set di dati che hai importato. Usa il modello che hai creato per fare previsioni su nuovi dati. SageMaker Canvas utilizza le informazioni del set di dati per creare fino a 250 modelli e scegliere quello che offre le prestazioni migliori.

Quando si inizia a creare un modello, Canvas consiglia automaticamente uno o più tipi di modelli. I tipi di modelli rientrano in una delle seguenti categorie:

  • Previsione numerica: nel machine learning si chiama regressione. Utilizza il tipo di modello di previsione numerica quando desideri fare previsioni per dati numerici. Ad esempio, potresti voler prevedere il prezzo delle case in base a caratteristiche come la metratura della casa.

  • Previsione categorica: nel machine learning si chiama classificazione. Quando desideri categorizzare i dati in gruppi, utilizza i tipi di modelli di previsione categorica:

    • Previsione a 2 categorie: utilizza il tipo di modello di previsione a 2 categorie (noto anche come classificazione binaria nel machine learning) quando hai due categorie da prevedere per i tuoi dati. Ad esempio, potresti determinare se è probabile che un cliente abbandoni.

    • Previsione a 3 o più categorie: utilizza il tipo di modello di previsione a 3 o più categorie (noto anche come classificazione multiclasse nel machine learning) quando hai tre o più categorie che desideri prevedere per i tuoi dati. Ad esempio, è possibile prevedere lo stato del prestito di un cliente in base a caratteristiche quali i pagamenti precedenti.

  • Previsione delle serie temporali: utilizza le previsioni delle serie temporali quando desideri fare previsioni su un periodo di tempo. Ad esempio, potresti dover prevedere il numero di articoli che venderai nel trimestre successivo. Per informazioni sulle previsioni delle serie temporali, consulta Time Series Forecasts in Amazon SageMaker Canvas.

  • Previsione delle immagini: utilizza il tipo di modello di previsione delle immagini a etichetta singola (noto anche come classificazione delle immagini a etichetta singola nel machine learning) quando desideri assegnare etichette alle immagini. Ad esempio, è possibile classificare diversi tipi di difetti di fabbricazione nelle immagini del prodotto.

  • Previsione del testo: utilizza il tipo di modello di previsione del testo multicategoria (noto anche come classificazione del testo multiclasse nel machine learning) quando desideri assegnare etichette a passaggi di testo. Ad esempio, potresti avere un set di dati di verifiche dei clienti su un prodotto e desideri determinare se i clienti hanno apprezzato o meno il prodotto. Potresti fare in modo che il tuo modello preveda se un determinato passaggio di testo è Positive, Negative o Neutral.

Per una tabella dei tipi di dati di input supportati per ogni tipo di modello, consulta Modelli personalizzati.

Per ogni modello di dati tabulare che crei (che include modelli numerici, categorici, di previsione di serie temporali e modelli di previsione testuale), scegli la Colonna di destinazione. La Colonna di destinazione è la colonna che contiene le informazioni che desideri prevedere. Ad esempio, se stai creando un modello per prevedere se le persone hanno annullato i loro abbonamenti, la Colonna di destinazione contiene punti dati che indicano o yes o un no circa lo stato di cancellazione di qualcuno.

Per i modelli di previsione delle immagini, crei il modello con un set di dati di immagini a cui sono state assegnate delle etichette. Per le immagini senza etichetta fornite, il modello prevede un'etichetta. Ad esempio, se stai creando un modello per prevedere se un'immagine è un gatto o un cane, fornisci immagini etichettate come cani o gatti durante la creazione del modello. Quindi, il modello può accettare immagini senza etichetta e prevederle come cani o gatti.

Cosa succede quando crei un modello

Per creare il tuo modello, puoi scegliere una Creazione rapida o una Creazione standard. La Creazione rapida ha un tempo di creazione più breve, ma la Creazione standard ha generalmente una precisione maggiore.

Per i modelli di previsione tabulari e di serie temporali, Canvas utilizza il downsampling per ridurre le dimensioni dei set di dati più grandi rispettivamente di 5 GB o 30 GB. Canvas esegue il downsampling con il metodo di campionamento stratificato. La tabella seguente elenca la dimensione del downsample per tipo di modello. Per controllare il processo di campionamento, puoi utilizzare Data Wrangler in Canvas per campionare utilizzando la tua tecnica di campionamento preferita. Per i dati delle serie temporali, puoi ricampionare per aggregare punti dati. Per ulteriori informazioni sul campionamento, vedere. Campionamento Per ulteriori informazioni sul ricampionamento dei dati delle serie temporali, vedere. Ricampiona i dati di serie temporali

Se scegli di eseguire una compilazione rapida su un set di dati con più di 50.000 righe, Canvas campiona i dati fino a 50.000 righe per un tempo di addestramento del modello più breve.

La tabella seguente riassume le caratteristiche chiave del processo di creazione del modello, inclusi i tempi di costruzione medi per ogni modello e tipo di build, la dimensione del downsample quando si creano modelli con set di dati di grandi dimensioni e il numero minimo e massimo di punti dati che dovresti avere per ogni tipo di build.

Limite Modelli di previsione numerici e categorici Previsione di serie temporali Previsione delle immagini Previsione del testo

Tempi di costruzione rapidi

2-20 minuti

2-20 minuti

15‐30 minuti

15‐30 minuti

Tempo di costruzione standard

2-4 ore

2-4 ore

2-5 ore

2-5 ore

Dimensione del downsample (la dimensione ridotta di un set di dati di grandi dimensioni dopo il downsamples di Canvas)

5 GB

30 GB

N/D

N/D

Numero minimo di voci (righe) per le Creazioni rapide

A 2 categorie: 500 righe

A 3 o più categorie, numeriche, serie temporali: N/D

N/D

N/D

N/D

Numero minimo di voci (righe, immagini o documenti) per le Creazioni standard

250

50

50

N/D

Numero massimo di voci (righe, immagini o documenti) per le Creazioni rapide

N/D

N/D

5000

7500

Numero massimo di voci (righe, immagini o documenti) per le Creazioni standard

N/D

150.000

180.000

N/D

Numero massimo di colonne

1.000

1.000

N/D

N/D

Canvas prevede i valori utilizzando le informazioni nel resto del set di dati, a seconda del tipo di modello:

  • Per la previsione categorica, Canvas inserisce ogni riga in una delle categorie elencate nella Colonna di destinazione.

  • Per la previsione numerica, Canvas utilizza le informazioni nel set di dati per prevedere i valori numerici nella Colonna di destinazione.

  • Per la previsione delle serie temporali, Canvas utilizza i dati storici per prevedere i valori della Colonna di destinazione in futuro.

  • Per la previsione delle immagini, Canvas utilizza immagini a cui sono state assegnate etichette per prevedere etichette per le immagini senza etichetta.

  • Per la previsione del testo, Canvas analizza i dati di testo a cui sono state assegnate etichette per prevedere le etichette per i passaggi di testo senza etichetta.

Funzionalità aggiuntive per aiutarti a creare il tuo modello

Prima di creare il modello, puoi utilizzare Data Wrangler in Canvas per preparare i dati utilizzando oltre 300 trasformazioni e operatori integrati. Data Wrangler supporta le trasformazioni per set di dati tabulari e di immagini. Inoltre, puoi connetterti a fonti di dati esterne a Canvas, creare lavori per applicare trasformazioni all'intero set di dati ed esportare i dati completamente preparati e puliti per utilizzarli nei flussi di lavoro ML al di fuori di Canvas. Per ulteriori informazioni, consulta Preparazione dei dati.

Per visualizzare visualizzazioni e analisi per esplorare i dati e determinare quali funzionalità includere nel modello, puoi utilizzare le analisi integrate di Data Wrangler. Puoi anche accedere a un Data Quality and Insights Report che evidenzia potenziali problemi con il tuo set di dati e fornisce consigli su come risolverli. Per ulteriori informazioni, consulta Esegui un'analisi esplorativa dei dati () EDA.

Oltre alle funzionalità più avanzate di preparazione ed esplorazione dei dati fornite tramite Data Wrangler, Canvas offre alcune funzionalità di base che è possibile utilizzare:

Per i set di dati tabulari con più colonne (ad esempio set di dati per la creazione di tipi di modelli di previsione categorica, numerica o di serie temporali), potresti avere righe con punti dati mancanti. Mentre Canvas crea il modello, aggiunge automaticamente i valori mancanti. Canvas utilizza i valori del set di dati per eseguire un'approssimazione matematica dei valori mancanti. Per la massima precisione del modello, ti consigliamo di aggiungere i dati mancanti, se riesci a trovarli. Tieni presente che la funzionalità relativa ai dati mancanti non è supportata per i modelli di previsione di testo o delle immagini.

Nozioni di base

Per iniziare a creare un modello personalizzato, consulta Crea un modello e segui la procedura relativa al tipo di modello che desideri creare.