Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Dati tabulari
I dati tabulari si riferiscono ai dati che possono essere caricati in un frame di dati bidimensionale. Nel frame, ogni riga rappresenta un record e ogni record ha una o più colonne. I valori all'interno di ogni cella del frame di dati possono essere di tipo numerico, categorico o testuale.
Prerequisiti del set di dati tabulari
Prima dell'analisi, al set di dati dovrebbe aver completato tutte le fasi di pre-elaborazione necessarie. Questo include la pulizia dei dati o l’ingegneria delle funzionalità.
È possibile fornire uno o più set di dati. Se fornite più set di dati, utilizzate quanto segue per identificarli nel processo di elaborazione di SageMaker Clarify.
-
Utilizzate una configurazione ProcessingInputdenominata
dataset
o di analisidataset_uri
per specificare il set di dati principale. Per ulteriori informazioni sudataset_uri
, consultate l'elenco dei parametri inFile di configurazione dell'analisi. -
Utilizza il parametro
baseline
fornito nel file di configurazione dell'analisi. Il set di dati di base è necessario per SHAP l'analisi. Per ulteriori informazioni sul file di configurazione dell'analisi, inclusi esempi, vedere. File di configurazione dell'analisi
La tabella seguente elenca i formati di dati supportati, le relative estensioni di file e MIME i tipi.
Formato dei dati | Estensione di file | MIME tipo |
---|---|---|
CSV |
csv |
|
JSONLinee |
jsonl |
|
JSON |
json |
|
Parquet |
parquet |
"application/x-parquet" |
Le sezioni seguenti mostrano esempi di set di dati tabulari nei formati CSV JSON Lines e Apache Parquet.
Il processo di elaborazione SageMaker Clarify è progettato per caricare file di CSV dati nel dialetto csv.excel.\n
e \r
.
Per motivi di compatibilità, tutti i file di CSV dati forniti al processo di elaborazione SageMaker Clarify devono essere codificati in -8. UTF
Se il set di dati non contiene una riga di intestazione, procedi come indicato di seguito:
-
Imposta l'etichetta di configurazione dell'analisi sull'indice
0
. Questo significa che la prima colonna è l'etichetta Ground Truth. -
Se il parametro
headers
è specificato, impostalabel
sull'intestazione della colonna dell'etichetta per indicare la posizione della colonna di etichetta. Tutte le altre colonne sono designate come funzionalità.Di seguito è riportato un set di dati che non contiene una riga di intestazione.
1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
Se i dati contengono una riga di intestazione, imposta il parametro label
sull'indice 0
. Per indicare la posizione della colonna dell'etichetta, usa l'intestazione Label
dell'etichetta Ground Truth. Tutte le altre colonne sono designate come funzionalità.
Di seguito è riportato un esempio di set di dati contenente una riga di intestazione.
Label,Rating,A12,A13,Comments 1,5,2.8,2.538,This is a good product 0,1,0.79,0.475,Bad shopping experience ...
JSONè un formato flessibile per rappresentare dati strutturati che contiene qualsiasi livello di complessità. Il supporto di SageMaker Clarify per non JSON è limitato a nessun formato specifico e consente quindi formati di dati più flessibili rispetto ai set di dati nei formati CSV o JSON Lines. Questa guida mostra come impostare una configurazione di analisi per dati tabulari in formato. JSON
Nota
Per garantire la compatibilità, tutti i file di JSON dati forniti al processo di elaborazione SageMaker Clarify devono essere codificati in -8. UTF
Di seguito è riportato un esempio di dati di input con record che contengono una chiave di livello superiore, un elenco di funzionalità e un'etichetta.
[ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}, ... ]
Un esempio di analisi della configurazione per il precedente esempio di set di dati di input dovrebbe impostare i seguenti parametri:
-
Il
label
parametro deve utilizzare l'JMESPathespressione [*].label
per estrarre l'etichetta di verità di base per ogni record nel set di dati. L'JMESPathespressione dovrebbe produrre un elenco di etichette in cui i l'etichetta corrisponde a quella del record. -
Il
features
parametro deve utilizzare l'JMESPathespressione[*].features
per estrarre una serie di funzionalità per ogni record nel set di dati. L'JMESPathespressione dovrebbe produrre una matrice o una matrice 2D in cui la riga i contiene i valori delle caratteristiche corrispondenti a quelli del record.Di seguito è riportato un esempio di dati di input con record che contiene una chiave di livello superiore e una chiave nidficata che contiene un elenco di funzionalità e un'etichetta.
{ "data": [ {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}, {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ] }
Un esempio di analisi della configurazione per il precedente esempio di set di dati di input dovrebbe impostare i seguenti parametri:
-
Il
label
parametro utilizza l'JMESPathespressione data[*].label
per estrarre l'etichetta di verità fondamentale per ogni record del set di dati. L'JMESPathespressione dovrebbe produrre un elenco di etichette in cui i l'etichetta è per loro nel record. -
Il
features
parametro utilizza l'JMESPathespressionedata[*].features
per estrarre la serie di funzionalità, per ogni record nel set di dati. L'JMESPathespressione dovrebbe produrre una matrice o una matrice 2D in cui la riga i contiene i valori delle caratteristiche relative al record.
JSONLines è un formato di testo per rappresentare dati strutturati in cui ogni riga è un oggetto valido. JSON Attualmente i processi di elaborazione di SageMaker Clarify supportano solo SageMaker AI Dense Format JSON Lines. Per conformarsi al formato richiesto, tutte le funzionalità di un record devono essere elencate in un unico JSON array. Per ulteriori informazioni su JSON Lines, vedereJSONLINESformato della richiesta.
Nota
Tutti i file di dati JSON Lines forniti al processo di elaborazione SageMaker Clarify devono essere codificati in UTF -8 per garantire la compatibilità.
Di seguito è riportato un esempio di come impostare una configurazione di analisi per un record che contiene una chiave di livello superiore e un elenco di elementi.
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1} {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0} ...
L'analisi della configurazione per il precedente esempio di set di dati dovrebbe impostare i parametri come segue:
-
Per indicare la posizione dell'etichetta di verità fondamentale, il parametro
label
deve essere impostato sull'JMESPathespressione.label
-
Per indicare la posizione dell'array di caratteristiche, il parametro
features
deve essere impostato sull'JMESPathespressionefeatures
.
Di seguito è riportato un esempio di come impostare una configurazione di analisi per un record che contiene una chiave di livello superiore e una chiave nidificata che contiene un elenco di elementi.
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}} {"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}} ...
L'analisi della configurazione per il precedente esempio di set di dati dovrebbe impostare i parametri come segue:
-
Il parametro
label
deve essere impostato sull'JMESPathespressionedata.label
per indicare la posizione dell'etichetta di verità fondamentale. -
Il parametro
features
deve essere impostato sull'JMESPathespressionedata.features
per indicare la posizione della serie di caratteristiche.
Parquet1
pari a.
Poiché i processi di elaborazione SageMaker Clarify non supportano la richiesta o la risposta dell'endpoint in formato Parquet, è necessario specificare il formato dei dati della richiesta dell'endpoint impostando il parametro content_type
di configurazione dell'analisi su un formato supportato. Per ulteriori informazioni, consulta content_type
in File di configurazione dell'analisi.
I dati Parquet devono avere nomi di colonna formattati come stringhe. Utilizza il parametro label
di configurazione dell'analisi per impostare il nome della colonna dell'etichetta, in modo che indichi la posizione delle etichette Ground Truth. Tutte le altre colonne sono designate come funzionalità.