Conjunto de datos sintéticos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conjunto de datos sintéticos

SageMaker Clarify usa el SHAP algoritmo Kernel. A partir de un registro (también denominado muestra o instancia) y de la SHAP configuración, el explicador primero genera un conjunto de datos sintético. SageMaker A continuación, Clarify consulta el contenedor del modelo para obtener las predicciones del conjunto de datos y, a continuación, calcula y devuelve las atribuciones de las características. El tamaño del conjunto de datos sintético afecta al tiempo de ejecución del explicador de Clarify. Los conjuntos de datos sintéticos más grandes requieren más tiempo para obtener predicciones de modelos que los más pequeños.

El tamaño del conjunto de datos sintéticos se determina mediante la siguiente fórmula:

Synthetic dataset size = SHAP baseline size * n_samples

El tamaño SHAP de referencia es el número de registros de los datos de SHAP referencia. Esta información se toma de ShapBaselineConfig.

El tamaño de n_samples lo establece el parámetro NumberOfSamples en la configuración del explicador y el número de características. Si el número de característica es n_features, entonces n_samples es lo siguiente:

n_samples = MIN(NumberOfSamples, 2^n_features - 2)

A continuación se muestra n_samples si no se proporciona el NumberOfSamples.

n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

Por ejemplo, un registro tabular con 10 entidades tiene un tamaño de SHAP referencia de 1. Si no se proporciona el NumberOfSamples, el conjunto de datos sintético contiene 1022 registros. Si el registro tiene 20 características, el conjunto de datos sintético contiene 2088 registros.

En el NLP caso de problemas, n_features es igual al número de entidades que no son de texto más el número de unidades de texto.

nota

InvokeEndpointAPITiene un límite de tiempo de espera para las solicitudes. Si el conjunto de datos sintético es demasiado grande, es posible que el explicador no pueda completar el cálculo dentro de este límite. Si es necesario, utilice la información anterior para comprender y reducir el tamaño de la SHAP línea base yNumberOfSamples. Si el contenedor de modelos está configurado para gestionar solicitudes por lotes, también puede ajustar el valor de MaxRecordCount.