Guida alla compatibilità di formato dei dati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Guida alla compatibilità di formato dei dati

Questa guida descrive i tipi di formato dei dati compatibili con i processi di elaborazione di SageMaker Clarify. I tipi di formati di dati supportati includono le estensioni dei file, la struttura dei dati e i requisiti o le restrizioni specifici per i set di dati tabulari, di immagini e di serie temporali. La guida mostra anche come verificare se il set di dati è conforme a questi requisiti.

Ad alto livello, il processo di elaborazione di SageMaker Clarify segue il modello di input-processo-output per calcolare le metriche di distorsione e le attribuzioni di funzionalità. Per i dettagli, consulta gli esempi seguenti.

L'input per il processo di elaborazione di Clarify è costituito da quanto segue: SageMaker

  • Il set di dati da analizzare.

  • La configurazione dell'analisi Per ulteriori informazioni su come configurare un'analisi, vedereConfigurazione dell'analisi.

Durante la fase di elaborazione, SageMaker Clarify calcola le metriche di distorsione e l'attribuzione delle funzionalità. Il processo di elaborazione di SageMaker Clarify completa i seguenti passaggi nel backend:

  • Il processo di elaborazione SageMaker Clarify analizza la configurazione dell'analisi e carica il set di dati.

  • Per calcolare i parametri di bias e le attribuzioni delle funzionalità post-addestramento, il processo richiede previsioni basate sul modello. Il processo di elaborazione SageMaker Clarify serializza i dati e li invia come richiesta al modello che viene distribuito su un endpoint di inferenza in tempo reale. SageMaker Successivamente, il processo di elaborazione di SageMaker Clarify estrae le previsioni dalla risposta.

  • Il processo di elaborazione di SageMaker Clarify esegue l'analisi delle distorsioni e della spiegabilità, quindi produce i risultati.

Per ulteriori informazioni, consulta Come funzionano i lavori di elaborazione di SageMaker Clarify.

Il parametro utilizzato per specificare il formato dei dati dipende da dove i dati vengono utilizzati nel flusso di elaborazione, come mostrato in seguito:

  • Per un set di dati di input, utilizzate il dataset_type parametro per specificare il formato o il tipo. MIME

  • Per una richiesta a un endpoint, utilizza il parametro content_type per specificare il formato.

  • Per una risposta a un endpoint, utilizza il parametro accept_type per specificare il formato.

Il set di dati di input, la richiesta e la risposta da e verso l'endpoint non richiedono lo stesso formato. Ad esempio, è possibile utilizzare un set di dati Parquet con un payload di CSV richiesta e un payload di risposta JSON Lines alle seguenti condizioni.

  • L'analisi è configurata correttamente.

  • Il modello supporta i formati di richiesta e risposta.

Nota

Se vengono forniti content_type o non accept_type vengono forniti, il contenitore SageMaker Clarify deduce e. content_type accept_type