Configuración de la detección de anomalías en los trabajos de ETL de AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de la detección de anomalías en los trabajos de ETL de AWS Glue

Para empezar con la detección de anomalías en AWS Glue Studio, abra un trabajo de AWS Glue Studio y haga clic en la transformación Evaluar la calidad de los datos.

Si habilita esta característica, Calidad de datos de AWS Glue analizará sus datos a lo largo del tiempo para detectar anomalías. Proporciona valiosas estadísticas y observaciones sobre sus datos, lo que le permite tomar medidas ante cualquier anomalía identificada.

Consulte la documentación de Detección de anomalías para comprender el funcionamiento interno de esta característica.

Cómo habilitar la detección de anomalías

Para habilitar la detección de anomalías en AWS Glue Studio:
  1. Elija el nodo de calidad de datos de su trabajo y, a continuación, elija la pestaña Detección de anomalías. Habilite la opción Activar la detección de anomalías.

    La captura de pantalla muestra la opción “Activar la detección de anomalías” activada. Esta opción se puede activar o desactivar.
  2. Defina los datos que se van a monitorizar en busca de anomalías seleccionando Añadir analizador. Hay dos campos que puede rellenar: Estadísticas y Datos.

    • Las estadísticas incluyen información sobre la forma de los datos y otras propiedades. Puede elegir una o varias estadísticas a la vez, o elegir Todas las estadísticas. Las estadísticas incluyen: integridad, unicidad, media, suma, desviación estándar, entropía, distinctValuesCount, uniqueValueRatio y más. Consulte la documentación Analizadores para obtener más información.

    • Los datos incluyen las columnas del conjunto de datos. Puede elegir todas las columnas o columnas individuales.

    La captura de pantalla muestra los campos para Estadísticas y Datos. Puede elegir qué estadísticas quiere aplicar a su conjunto de datos y en qué columnas.
  3. Elija Agregar alcance de detección de anomalías para guardar los cambios. Cuando haya agregado los analizadores, podrá verlos en la sección Alcance de la detección de anomalías.

    También puede utilizar el menú Acciones para editar los analizadores, o elegir la pestaña del Editor de conjuntos de reglas y editar el analizador directamente en el bloc de notas del editor de conjuntos de reglas. Verá los analizadores que guardó debajo de las reglas que creó.

    Rules = [ ] Analyzers = [ Completeness “id” ]

Una vez configurados el conjunto de reglas y los analizadores actualizados, Calidad de datos de AWS monitorea continuamente los flujos de datos entrantes. Puede detectar posibles anomalías mediante alertas o interrupciones del trabajo, según la configuración. Este monitoreo proactivo ayuda a garantizar la calidad y la integridad de los datos en todas las canalizaciones de datos.

En la siguiente sección, aprenderá a monitorear de forma eficaz las anomalías identificadas por el sistema. También aprenderá a ver y analizar las estadísticas de datos recopiladas por Calidad de datos de AWS Glue. Además, aprenderá cómo enviar comentarios al modelo de machine learning que alimenta la característica de Detección de anomalías. Este circuito de comentarios es fundamental para mejorar la precisión del modelo y garantizar que pueda detectar eficazmente las anomalías que se ajustan a los requisitos empresariales y los patrones de datos específicos de su empresa.