Interfaccia di input e output per l'algoritmo TabTransformer - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Interfaccia di input e output per l'algoritmo TabTransformer

TabTransformer opera su dati tabulari, con le righe che rappresentano le osservazioni, una colonna che rappresenta la variabile o l'etichetta di destinazione e le colonne rimanenti che rappresentano le caratteristiche.

L' SageMaker implementazione di TabTransformer supporti CSV per l'addestramento e l'inferenza:

  • Per Training ContentType, gli input validi devono essere text/csv.

  • Per Inference ContentType, gli input validi devono essere text/csv.

Nota

Per l'CSVaddestramento, l'algoritmo presuppone che la variabile target sia nella prima colonna e che CSV non abbia un record di intestazione.

Per CSV l'inferenza, l'algoritmo presuppone che l'CSVinput non abbia la colonna label.

Formato di input per dati di addestramento, dati di convalida e caratteristiche categoriali

Prestate attenzione a come formattare i dati di allenamento da inserire nel modello. TabTransformer Devi fornire il percorso di un bucket Amazon S3 contenente i dati di addestramento e convalida. Puoi includere anche un elenco di funzionalità categoriali. Utilizza entrambi i canali training e validation per fornire i dati di input. In alternativa, puoi utilizzare solo il canale training.

Usa entrambi i canali training e validation

È possibile fornire i dati di input tramite due percorsi S3, uno per il canale training e uno per il canale validation. Ogni percorso S3 può essere un prefisso S3 che punta a uno o più CSV file o un percorso S3 completo che punta a un file specifico. CSV Le variabili di destinazione devono trovarsi nella prima colonna del file. CSV Le variabili predittive (funzionalità) dovrebbero trovarsi nelle colonne rimanenti. Se vengono forniti più CSV file per i validation canali training o, l' TabTransformer algoritmo concatena i file. I dati di convalida vengono utilizzati per calcolare un punteggio di convalida alla fine di ogni iterazione di potenziamento. L'arresto anticipato viene applicato quando il punteggio di convalida smette di migliorare.

Se i predittori includono funzionalità categoriali, puoi fornire un JSON file denominato categorical_index.json nella stessa posizione del file o dei file dei dati di allenamento. Se fornisci un JSON file per le funzionalità categoriali, il tuo training canale deve puntare a un prefisso S3 e non a un file specifico. CSV Questo file dovrebbe contenere un dizionario Python in cui la chiave è la stringa "cat_index_list" e il valore è un elenco di numeri interi univoci. Ogni numero intero nella lista dei valori deve indicare l'indice delle colonne delle caratteristiche categoriali corrispondenti nel file dei dati di allenamento. CSV Ogni valore deve essere un numero intero positivo (maggiore di zero perché zero rappresenta il valore di destinazione), minore di Int32.MaxValue (2147483647) e minore del numero totale di colonne. Dovrebbe esserci un solo file di indice categoriale. JSON

Usa solo il canale training:

In alternativa, puoi fornire i dati di input tramite un singolo percorso S3 per il canale training. Questo percorso S3 deve puntare a una directory con una sottodirectory denominata training/ che contiene uno o più file. CSV Facoltativamente, puoi includere un'altra sottodirectory nella stessa posizione denominata validation/ che contiene anche uno o più file. CSV Se i dati di convalida non vengono forniti, il 20% dei dati di addestramento viene campionato casualmente per fungere da dati di convalida. Se i tuoi predittori includono funzionalità categoriali, puoi fornire un JSON file denominato categorical_index.json nella stessa posizione delle sottodirectory di dati.

Nota

Per la modalità di input di CSV addestramento, la memoria totale disponibile per l'algoritmo (numero di istanze moltiplicato per la memoria disponibile inInstanceType) deve essere in grado di contenere il set di dati di addestramento.