Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Set di dati sintetici
SageMaker Clarify utilizza l'algoritmo SHAP Kernel. Dato un record (chiamato anche campione o istanza) e la SHAP configurazione, l'esplicatore genera innanzitutto un set di dati sintetico. SageMaker Clarify quindi interroga il contenitore del modello per le previsioni del set di dati, quindi calcola e restituisce le attribuzioni delle funzionalità. La dimensione del set di dati sintetico influisce sul tempo di esecuzione dello strumento esplicativo Clarify. I set di dati sintetici più grandi richiedono più tempo per ottenere previsioni dei modelli rispetto a quelli più piccoli.
La dimensione del set di dati sintetici è determinata dalla formula seguente:
Synthetic dataset size = SHAP baseline size * n_samples
La dimensione di SHAP base è il numero di record nei dati di base. SHAP Queste informazioni sono tratte da ShapBaselineConfig
.
La dimensione di n_samples
è impostata dal parametro NumberOfSamples
nella configurazione dello strumento esplicativo e dal numero di caratteristiche. Se il numero di caratteristiche è n_features
, allora n_samples
è il seguente:
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
Quanto segue mostra n_samples
se NumberOfSamples
non è fornito.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
Ad esempio, un record tabulare con 10 caratteristiche ha una dimensione di SHAP base pari a 1. Se NumberOfSamples
non viene fornito, il set di dati sintetico contiene 1.022 record. Se il record ha 20 caratteristiche, il set di dati sintetico contiene 2.088 record.
Per NLP i problemi, n_features
è uguale al numero di caratteristiche non testuali più il numero di unità di testo.
Nota
InvokeEndpoint
APIHa un limite di timeout per le richieste. Se il set di dati sintetici è troppo grande, lo strumento esplicativo potrebbe non essere in grado di completare il calcolo entro questo limite. Se necessario, utilizza le informazioni precedenti per comprendere e ridurre le dimensioni della linea di SHAP base e. NumberOfSamples
Se il container del modello è configurato per gestire le richieste batch, puoi anche modificare il valore di MaxRecordCount
.