Jeu de données synthétique - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Jeu de données synthétique

SageMaker Clarify utilise l'SHAPalgorithme Kernel. À partir d'un enregistrement (également appelé échantillon ou instance) et de la SHAP configuration, l'explicateur génère d'abord un ensemble de données synthétique. SageMaker Clarify interroge ensuite le conteneur du modèle pour obtenir les prédictions de l'ensemble de données, puis calcule et renvoie les attributions des entités. La taille du jeu de données synthétique affecte le temps d'exécution de l'outil d'explication Clarify. Les grands jeux de données synthétiques mettent plus de temps à obtenir les prédictions du modèle que les plus petits.

La taille du jeu de données synthétique est déterminée par la formule suivante :

Synthetic dataset size = SHAP baseline size * n_samples

La taille SHAP de référence est le nombre d'enregistrements contenus dans les données SHAP de référence. Ces informations sont extraites de ShapBaselineConfig.

La taille de n_samples est définie par le paramètre NumberOfSamples dans la configuration de l'outil d'explication et par le nombre de fonctionnalités. Si le nombre de fonctionnalités est égal à n_features, alors n_samples est calculé de la manière suivante :

n_samples = MIN(NumberOfSamples, 2^n_features - 2)

L'exemple suivant illustre n_samples si NumberOfSamples n'est pas fourni.

n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

Par exemple, un enregistrement tabulaire comportant 10 entités a une taille SHAP de référence de 1. Si NumberOfSamples n'est pas fourni, le jeu de données synthétique contient 1 022 enregistrements. Si l'enregistrement comporte 20 fonctionnalités, le jeu de données synthétique contient 2 088 enregistrements.

En NLP cas de problème, n_features est égal au nombre d'entités non textuelles plus le nombre d'unités de texte.

Note

Le délai InvokeEndpoint API d'expiration des demandes est limité. Si le jeu de données synthétique est trop volumineux, il se peut que l'outil d'explication ne soit pas en mesure de terminer le calcul avant la fin de ce délai. Si nécessaire, utilisez les informations précédentes pour comprendre et réduire la taille SHAP de référence etNumberOfSamples. Si votre conteneur de modèle est configuré pour traiter les demandes par lots, vous pouvez également ajuster la valeur de MaxRecordCount.