Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Jeu de données synthétique
SageMaker Clarify utilise l'SHAPalgorithme Kernel. À partir d'un enregistrement (également appelé échantillon ou instance) et de la SHAP configuration, l'explicateur génère d'abord un ensemble de données synthétique. SageMaker Clarify interroge ensuite le conteneur du modèle pour obtenir les prédictions de l'ensemble de données, puis calcule et renvoie les attributions des entités. La taille du jeu de données synthétique affecte le temps d'exécution de l'outil d'explication Clarify. Les grands jeux de données synthétiques mettent plus de temps à obtenir les prédictions du modèle que les plus petits.
La taille du jeu de données synthétique est déterminée par la formule suivante :
Synthetic dataset size = SHAP baseline size * n_samples
La taille SHAP de référence est le nombre d'enregistrements contenus dans les données SHAP de référence. Ces informations sont extraites de ShapBaselineConfig
.
La taille de n_samples
est définie par le paramètre NumberOfSamples
dans la configuration de l'outil d'explication et par le nombre de fonctionnalités. Si le nombre de fonctionnalités est égal à n_features
, alors n_samples
est calculé de la manière suivante :
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
L'exemple suivant illustre n_samples
si NumberOfSamples
n'est pas fourni.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
Par exemple, un enregistrement tabulaire comportant 10 entités a une taille SHAP de référence de 1. Si NumberOfSamples
n'est pas fourni, le jeu de données synthétique contient 1 022 enregistrements. Si l'enregistrement comporte 20 fonctionnalités, le jeu de données synthétique contient 2 088 enregistrements.
En NLP cas de problème, n_features
est égal au nombre d'entités non textuelles plus le nombre d'unités de texte.
Note
Le délai InvokeEndpoint
API d'expiration des demandes est limité. Si le jeu de données synthétique est trop volumineux, il se peut que l'outil d'explication ne soit pas en mesure de terminer le calcul avant la fin de ce délai. Si nécessaire, utilisez les informations précédentes pour comprendre et réduire la taille SHAP de référence etNumberOfSamples
. Si votre conteneur de modèle est configuré pour traiter les demandes par lots, vous pouvez également ajuster la valeur de MaxRecordCount
.