Dati tabulari - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Dati tabulari

I dati tabulari si riferiscono ai dati che possono essere caricati in un frame di dati bidimensionale. Nel frame, ogni riga rappresenta un record e ogni record ha una o più colonne. I valori all'interno di ogni cella del frame di dati possono essere di tipo numerico, categorico o testuale.

Prerequisiti del set di dati tabulari

Prima dell'analisi, al set di dati dovrebbe aver completato tutte le fasi di pre-elaborazione necessarie. Questo include la pulizia dei dati o l’ingegneria delle funzionalità.

È possibile fornire uno o più set di dati. Se fornite più set di dati, utilizzate quanto segue per identificarli nel processo di elaborazione di SageMaker Clarify.

  • Utilizzate una configurazione ProcessingInputdenominata dataset o di analisi dataset_uri per specificare il set di dati principale. Per ulteriori informazioni sudataset_uri, consultate l'elenco dei parametri inFile di configurazione dell'analisi.

  • Utilizza il parametro baseline fornito nel file di configurazione dell'analisi. Il set di dati di base è necessario per SHAP l'analisi. Per ulteriori informazioni sul file di configurazione dell'analisi, inclusi esempi, vedere. File di configurazione dell'analisi

La tabella seguente elenca i formati di dati supportati, le relative estensioni di file e MIME i tipi.

Formato dei dati Estensione di file MIME tipo

CSV

csv

text/csv

JSONLinee

jsonl

application/jsonlines

JSON

json

application/json

Parquet

parquet

"application/x-parquet"

Le sezioni seguenti mostrano esempi di set di dati tabulari nei formati CSV JSON Lines e Apache Parquet.

Il processo di elaborazione SageMaker Clarify è progettato per caricare file di CSV dati nel dialetto csv.excel. Tuttavia, è sufficientemente flessibile da supportare altri terminatori di linea, tra cui \n e \r.

Per motivi di compatibilità, tutti i file di CSV dati forniti al processo di elaborazione SageMaker Clarify devono essere codificati in -8. UTF

Se il set di dati non contiene una riga di intestazione, procedi come indicato di seguito:

  • Imposta l'etichetta di configurazione dell'analisi sull'indice 0. Questo significa che la prima colonna è l'etichetta Ground Truth.

  • Se il parametro headers è specificato, imposta label sull'intestazione della colonna dell'etichetta per indicare la posizione della colonna di etichetta. Tutte le altre colonne sono designate come funzionalità.

    Di seguito è riportato un set di dati che non contiene una riga di intestazione.

    1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

Se i dati contengono una riga di intestazione, imposta il parametro label sull'indice 0. Per indicare la posizione della colonna dell'etichetta, usa l'intestazione Label dell'etichetta Ground Truth. Tutte le altre colonne sono designate come funzionalità.

Di seguito è riportato un esempio di set di dati contenente una riga di intestazione.

Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...

JSONè un formato flessibile per rappresentare dati strutturati che contiene qualsiasi livello di complessità. Il supporto di SageMaker Clarify per non JSON è limitato a nessun formato specifico e consente quindi formati di dati più flessibili rispetto ai set di dati nei formati CSV o JSON Lines. Questa guida mostra come impostare una configurazione di analisi per dati tabulari in formato. JSON

Nota

Per garantire la compatibilità, tutti i file di JSON dati forniti al processo di elaborazione SageMaker Clarify devono essere codificati in -8. UTF

Di seguito è riportato un esempio di dati di input con record che contengono una chiave di livello superiore, un elenco di funzionalità e un'etichetta.

[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]

Un esempio di analisi della configurazione per il precedente esempio di set di dati di input dovrebbe impostare i seguenti parametri:

  • Il label parametro deve utilizzare l'JMESPathespressione [*].label per estrarre l'etichetta di verità di base per ogni record nel set di dati. L'JMESPathespressione dovrebbe produrre un elenco di etichette in cui i l'etichetta corrisponde a quella del record.

  • Il features parametro deve utilizzare l'JMESPathespressione [*].features per estrarre una serie di funzionalità per ogni record nel set di dati. L'JMESPathespressione dovrebbe produrre una matrice o una matrice 2D in cui la riga i contiene i valori delle caratteristiche corrispondenti a quelli del record.

    Di seguito è riportato un esempio di dati di input con record che contiene una chiave di livello superiore e una chiave nidficata che contiene un elenco di funzionalità e un'etichetta.

{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }

Un esempio di analisi della configurazione per il precedente esempio di set di dati di input dovrebbe impostare i seguenti parametri:

  • Il label parametro utilizza l'JMESPathespressione data[*].label per estrarre l'etichetta di verità fondamentale per ogni record del set di dati. L'JMESPathespressione dovrebbe produrre un elenco di etichette in cui i l'etichetta è per loro nel record.

  • Il features parametro utilizza l'JMESPathespressione data[*].features per estrarre la serie di funzionalità, per ogni record nel set di dati. L'JMESPathespressione dovrebbe produrre una matrice o una matrice 2D in cui la riga i contiene i valori delle caratteristiche relative al record.

JSONLines è un formato di testo per rappresentare dati strutturati in cui ogni riga è un oggetto valido. JSON Attualmente i processi di elaborazione di SageMaker Clarify supportano solo SageMaker AI Dense Format JSON Lines. Per conformarsi al formato richiesto, tutte le funzionalità di un record devono essere elencate in un unico JSON array. Per ulteriori informazioni su JSON Lines, vedereJSONLINESformato della richiesta.

Nota

Tutti i file di dati JSON Lines forniti al processo di elaborazione SageMaker Clarify devono essere codificati in UTF -8 per garantire la compatibilità.

Di seguito è riportato un esempio di come impostare una configurazione di analisi per un record che contiene una chiave di livello superiore e un elenco di elementi.

{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...

L'analisi della configurazione per il precedente esempio di set di dati dovrebbe impostare i parametri come segue:

  • Per indicare la posizione dell'etichetta di verità fondamentale, il parametro label deve essere impostato sull'JMESPathespressione. label

  • Per indicare la posizione dell'array di caratteristiche, il parametro features deve essere impostato sull'JMESPathespressionefeatures.

Di seguito è riportato un esempio di come impostare una configurazione di analisi per un record che contiene una chiave di livello superiore e una chiave nidificata che contiene un elenco di elementi.

{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...

L'analisi della configurazione per il precedente esempio di set di dati dovrebbe impostare i parametri come segue:

  • Il parametro label deve essere impostato sull'JMESPathespressione data.label per indicare la posizione dell'etichetta di verità fondamentale.

  • Il parametro features deve essere impostato sull'JMESPathespressione data.features per indicare la posizione della serie di caratteristiche.

Parquet è un formato di dati binario orientato alle colonne. Attualmente, i processi di elaborazione di SageMaker Clarify supportano il caricamento dei file di dati di Parquet solo quando il numero delle istanze di elaborazione è 1 pari a.

Poiché i processi di elaborazione SageMaker Clarify non supportano la richiesta o la risposta dell'endpoint in formato Parquet, è necessario specificare il formato dei dati della richiesta dell'endpoint impostando il parametro content_type di configurazione dell'analisi su un formato supportato. Per ulteriori informazioni, consulta content_type in File di configurazione dell'analisi.

I dati Parquet devono avere nomi di colonna formattati come stringhe. Utilizza il parametro label di configurazione dell'analisi per impostare il nome della colonna dell'etichetta, in modo che indichi la posizione delle etichette Ground Truth. Tutte le altre colonne sono designate come funzionalità.