Set di dati sintetici - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Set di dati sintetici

SageMaker Clarify utilizza l'algoritmo SHAP Kernel. Dato un record (chiamato anche campione o istanza) e la SHAP configurazione, l'esplicatore genera innanzitutto un set di dati sintetico. SageMaker Clarify quindi interroga il contenitore del modello per le previsioni del set di dati, quindi calcola e restituisce le attribuzioni delle funzionalità. La dimensione del set di dati sintetico influisce sul tempo di esecuzione dello strumento esplicativo Clarify. I set di dati sintetici più grandi richiedono più tempo per ottenere previsioni dei modelli rispetto a quelli più piccoli.

La dimensione del set di dati sintetici è determinata dalla formula seguente:

Synthetic dataset size = SHAP baseline size * n_samples

La dimensione di SHAP base è il numero di record nei dati di base. SHAP Queste informazioni sono tratte da ShapBaselineConfig.

La dimensione di n_samples è impostata dal parametro NumberOfSamples nella configurazione dello strumento esplicativo e dal numero di caratteristiche. Se il numero di caratteristiche è n_features, allora n_samples è il seguente:

n_samples = MIN(NumberOfSamples, 2^n_features - 2)

Quanto segue mostra n_samples se NumberOfSamples non è fornito.

n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

Ad esempio, un record tabulare con 10 caratteristiche ha una dimensione di SHAP base pari a 1. Se NumberOfSamples non viene fornito, il set di dati sintetico contiene 1.022 record. Se il record ha 20 caratteristiche, il set di dati sintetico contiene 2.088 record.

Per NLP i problemi, n_features è uguale al numero di caratteristiche non testuali più il numero di unità di testo.

Nota

InvokeEndpointAPIHa un limite di timeout per le richieste. Se il set di dati sintetici è troppo grande, lo strumento esplicativo potrebbe non essere in grado di completare il calcolo entro questo limite. Se necessario, utilizza le informazioni precedenti per comprendere e ridurre le dimensioni della linea di SHAP base e. NumberOfSamples Se il container del modello è configurato per gestire le richieste batch, puoi anche modificare il valore di MaxRecordCount.