Solución de problemas de IA generativa para Apache Spark en AWS Glue
La versión preliminar de solución de problemas de IA generativa para Apache Spark está disponible para trabajos que se ejecutan en AWS Glue 4.0 y en las siguientes regiones de AWS: Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Oeste de EE. UU. (Norte de California), Europa (Irlanda), Europa (Estocolmo), Asia-Pacífico (Tokio), Asia-Pacífico (Bombay) y Asia-Pacífico (Sídney). Las características de la versión preliminar están sujetas a cambios. |
La resolución de problemas mediante IA generativa para trabajos de Apache Spark en AWS Glue es una nueva funcionalidad que ayuda a los ingenieros y científicos de datos a diagnosticar y solucionar problemas en sus aplicaciones de Spark con facilidad. Al utilizar el machine learning y las tecnologías de IA generativa, esta característica analiza los problemas en los trabajos de Spark y proporciona un análisis detallado de la causa raíz junto con recomendaciones prácticas para resolverlos.
¿Cómo funciona la solución de problemas de IA generativa para Apache Spark?
En el caso de los trabajos con errores de Spark, la solución de problemas de IA generativa analiza los metadatos del trabajo y las métricas y registros precisos asociados a la firma del error para generar un análisis de la causa raíz y recomienda soluciones específicas y prácticas para solucionar los errores de los trabajos.
Configuración de la solución de problemas de IA generativa para Apache Spark para los trabajos
nota
Durante la vista previa, esta característica ayuda a solucionar los problemas de los trabajos de AWS Glue 4.0 con errores en los primeros 30 minutos de su tiempo de ejecución.
Configuración de permisos de IAM
Para conceder permisos a las API utilizadas por la solución de problemas de Spark para los trabajos en AWS Glue, se requieren los permisos de IAM adecuados. Para obtener permisos, adjunte a su identidad de IAM (como el usuario, el rol o el grupo) la política de AWS personalizada que figura a continuación.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:StartCompletion", "glue:GetCompletion" ], "Resource": [ "arn:aws:glue:*:*:completion/*" ] } ] }
nota
Durante la versión preliminar, la solución de problemas de Spark no incluye las API disponibles a través del SDK de AWS que puede utilizar mediante programación. Las dos API siguientes se utilizan en la política de IAM para permitir esta experiencia a través de la consola de AWS Glue Studio: StartCompletion
y GetCompletion
.
Asignación de permisos
Para dar acceso, agregue permisos a los usuarios, grupos o roles:
-
Para los usuarios y los grupos en IAM Identity Center: creación de un conjunto de permisos. Siga las instrucciones que se detallan en Creación de un conjunto de permisos en la Guía del usuario de IAM Identity Center.
-
Para los usuarios administrados en IAM a través de un proveedor de identidades: creación de un rol para la federación de identidades. Siga las instrucciones descritas en Crear un rol para un proveedor de identidad de terceros (federación) en la Guía del usuario de IAM.
-
Para los usuarios de IAM: creación de un rol que el usuario pueda asumir. Siga las instrucciones descritas en Crear un rol para delegar permisos a un usuario de IAM en la Guía del usuario de IAM.
Ejecución de un análisis de solución de problemas a partir de una ejecución de trabajo con errores
Puede acceder a la característica de solución de problemas a través de varias rutas en la consola de AWS Glue. A continuación, se explica cómo empezar:
Opción 1: desde la página de lista de trabajos
-
Abra la consola de AWS Glue en https://console.aws.amazon.com/glue/
. -
En el panel de navegación, elija Trabajos de extracción, transformación y carga (ETL).
-
Localice el trabajo con error en la lista de trabajos.
-
Seleccione la pestaña Ejecuciones en la sección de detalles del trabajo.
-
Haga clic en la ejecución de trabajo con error que quiere analizar.
-
Elija Solucionar problemas con IA para iniciar el análisis.
-
Cuando finalice el análisis de solución de problemas, podrá ver el análisis de la causa raíz y las recomendaciones en la pestaña Análisis de solución de problemas situada en la parte inferior de la pantalla.
Opción 2: uso de la página Supervisión de ejecución de trabajos
-
Vaya a la página Supervisión de ejecución de trabajos.
-
Localice la ejecución de trabajos con errores.
-
Elija el menú desplegable Acciones.
-
Elige Solucionar problemas con IA.
Opción 3: desde la página Detalles de la ejecución del trabajo
-
Para ir a la página de detalles de la ejecución de un trabajo con errores, haga clic en Ver detalles de una ejecución con errores en la pestaña Ejecuciones o seleccione la ejecución del trabajo en la página Supervisión de ejecución de trabajos.
-
En la página de detalles de la ejecución del trabajo, busque la pestaña Análisis de solución de problemas.
Categorías de solución de problemas admitidas (versión preliminar)
Este servicio se centra en tres categorías principales de problemas que los ingenieros y los desarrolladores de datos suelen encontrar en sus aplicaciones de Spark:
-
Errores de configuración y acceso a los recursos: cuando se ejecutan aplicaciones de Spark en AWS Glue, los errores de configuración y acceso a los recursos son algunos de los problemas más comunes pero difíciles de diagnosticar. Estos errores suelen producirse cuando la aplicación Spark intenta interactuar con los recursos de AWS, pero encuentra problemas con los permisos, la falta de recursos o problemas de configuración.
-
Problemas con la memoria del controlador y el ejecutor de Spark: los errores relacionados con la memoria en los trabajadores de Apache Spark pueden ser difíciles de diagnosticar y resolver. Estos errores suelen manifestarse cuando los requisitos de procesamiento de datos superan los recursos de memoria disponibles, ya sea en el nodo controlador o en los nodos ejecutores.
-
Problemas de capacidad del disco de Spark: los errores relacionados con el almacenamiento en los trabajos de Spark de AWS Glue suelen surgir durante las operaciones aleatorias, el derrame de datos o cuando se trata de transformaciones de datos a gran escala. Estos errores pueden ser particularmente complicados, ya que es posible que no se manifiesten hasta que el trabajo haya estado ejecutándose durante un tiempo, lo que podría desperdiciar valiosos recursos y tiempo de computación.
nota
Antes de implementar los cambios sugeridos en su entorno de producción, revíselos detenidamente. El servicio ofrece recomendaciones basadas en patrones y prácticas recomendadas, pero su caso de uso específico puede requerir consideraciones adicionales.