Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Calidad de datos

Modo de enfoque
Calidad de datos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

La supervisión de la calidad de los datos supervisa automáticamente los modelos de machine learning (ML) en producción y le avisa cuando surgen problemas de calidad de datos. Los modelos de ML en producción tienen que hacer predicciones sobre datos del mundo real que no están cuidadosamente seleccionados como la mayoría de los conjuntos de datos de entrenamiento. Si la naturaleza estadística de los datos que recibe el modelo mientras está en producción se desvía de la naturaleza de los datos de referencia en los que se realizó el entrenamiento, el modelo comienza a perder precisión en sus predicciones. Amazon SageMaker Model Monitor utiliza reglas para detectar la desviación de datos y le avisa cuando ocurre. Para supervisar la calidad de los datos, siga estos pasos:

  • Habilite la captura de datos. Esto captura las entradas y salidas de inferencias de un punto de conexión de inferencia en tiempo real o de un trabajo de transformación por lotes y almacena los datos en Amazon S3. Para obtener más información, consulte Captura de datos.

  • Cree una referencia. En este paso, ejecutará un trabajo de referencia que analiza un conjunto de datos de entrada que usted proporciona. La referencia calcula las restricciones de esquema de referencia y las estadísticas para cada característica utilizando Deequ, una biblioteca de código abierto creada en Apache Spark, que se utiliza para medir la calidad de los datos en grandes conjuntos de datos. Para obtener más información, consulte Crear una referencia.

  • Defina y programe los trabajos de supervisión de la calidad de los datos. Para obtener información específica y ejemplos de códigos de trabajos de supervisión de la calidad de los datos, consulte Programe trabajos de supervisión de la calidad de los datos. Para obtener información general sobre los trabajos de supervisión, consulte Programe trabajos de supervisión.

    • Si lo desea, utilice scripts de preprocesamiento y postprocesamiento para transformar los datos que salen del análisis de calidad de los datos. Para obtener más información, consulte Preprocesamiento y postprocesamiento.

  • Vea las métricas de calidad de los datos. Para obtener más información, consulte Esquema para estadísticas (archivo statistics.json).

  • Integre la supervisión de la calidad de los datos con Amazon CloudWatch. Para obtener más información, consulte CloudWatch Métricas.

  • Interprete los resultados de un trabajo de supervisión. Para obtener más información, consulte Interpretación de los resultados.

  • Utilice SageMaker Studio para permitir la supervisión de la calidad de los datos y visualizar los resultados si utiliza un punto final en tiempo real. Para obtener más información, consulte Visualice los resultados de los puntos de enlace en tiempo real en Amazon Studio SageMaker .

nota

El monitor de modelos calcula las métricas y estadísticas del modelo únicamente a partir de datos tabulares. Por ejemplo, aún se puede supervisar un modelo de clasificación de imágenes que toma imágenes como entrada y genera una etiqueta basada en esa imagen. El monitor de modelos podría calcular métricas y estadísticas para la salida, no para la entrada.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.