Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Crear una referencia
Los cálculos de referencia de las estadísticas y las restricciones son necesarios como norma para detectar la deriva de los datos y otros problemas de calidad de los datos. Model Monitor incluye un contenedor integrado que permite sugerir automáticamente las restricciones para CSV una JSON entrada plana. Este sagemaker-model-monitor-analyzercontenedor también le proporciona una gama de capacidades de monitoreo de modelos, incluida la validación de restricciones con respecto a una línea base y la emisión de métricas de Amazon CloudWatch . Este contenedor se basa en la versión 3.3.0 de Spark y se crea con la versión 2.0.2 de Deequ_
como único carácter especial.
El conjunto de datos de entrenamiento que utilizó para entrenar al modelo suele ser un buen conjunto de datos de referencia. El esquema de datos del conjunto de datos de entrenamiento y el esquema de conjunto de datos de inferencia deben coincidir exactamente (el número y el orden de las características). Tenga en cuenta que las columnas de predicción/salida son las primeras columnas del conjunto de datos de entrenamiento. A partir del conjunto de datos de entrenamiento, puedes solicitar SageMaker que te sugieran un conjunto de restricciones de referencia y generar estadísticas descriptivas para explorar los datos. Para este ejemplo, cargue el conjunto de datos de entrenamiento que se utilizó para entrenar el modelo preentrenado incluido en este ejemplo. Si ya ha almacenado el conjunto de datos de entrenamiento en Amazon S3, puede apuntar a él directamente.
Para crear una referencia a partir de un conjunto de datos de entrenamiento
Cuando tenga los datos de entrenamiento listos y almacenados en Amazon S3, inicie un trabajo de procesamiento básico DefaultModelMonitor.suggest_baseline(..)
con Amazon SageMaker Python SDKoutput_s3_uri
que especifique.
from sagemaker.model_monitor import DefaultModelMonitor from sagemaker.model_monitor.dataset_format import DatasetFormat my_default_monitor = DefaultModelMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=3600, ) my_default_monitor.suggest_baseline( baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv', dataset_format=DatasetFormat.csv(header=True), output_s3_uri=baseline_results_uri, wait=True )
nota
Si proporciona los nombres de las características o columnas del conjunto de datos de entrenamiento como primera fila y configura la header=True
opción como se muestra en el ejemplo de código anterior, SageMaker utilizará el nombre de la función en el archivo de restricciones y estadísticas.
Las estadísticas de referencia para el conjunto de datos están contenidas en el archivo statistics.json y las restricciones de referencia sugeridas están contenidas en el archivo constraints.json en la ubicación que especifique con output_s3_uri
.
Archivos de salida para estadísticas y restricciones de conjunto de datos tabular
Nombre de archivo | Descripción |
---|---|
statistics.json |
Se espera que este archivo tenga estadísticas en columnas para cada característica en el conjunto de datos que se analiza. Para obtener más información acerca del esquema para este archivo, consulte Esquema para estadísticas (archivo statistics.json). |
constraints.json |
Se espera que este archivo tenga las restricciones en las características observadas. Para obtener más información acerca del esquema para este archivo, consulte Esquema para restricciones (archivo constraints.json). |
Amazon SageMaker Python SDKEnvironment
como se muestra en el siguiente ejemplo:
"Environment": { "dataset_format": "{\"csv\”: { \”header\”: true}", "dataset_source": "/opt/ml/processing/sm_input", "output_path": "/opt/ml/processing/sm_output", "publish_cloudwatch_metrics": "Disabled", }