Supervisión de puntos de conexión interactivos - Amazon EMR

Supervisión de puntos de conexión interactivos

Con Amazon EMR en EKS 6.10 y versiones posteriores, los puntos de conexión interactivos emiten métricas de Amazon CloudWatch para supervisar y solucionar problemas de las operaciones del ciclo de vida del kernel. Las métricas las activan clientes interactivos, como EMR Studio o los cuadernos de Jupyter autoalojados. Cada una de las operaciones compatibles con los puntos de conexión interactivos tiene métricas asociadas. Las operaciones se modelan como dimensiones de cada métrica, como se muestra en la siguiente tabla. Las métricas emitidas por los puntos de conexión interactivos están visibles en un espacio de nombres personalizado, EMRContainers, en su cuenta.

Métrica Descripción Unidad

RequestCount

Número acumulado de solicitudes de una operación procesadas por el punto de conexión interactivo.

Recuento

RequestLatency

El tiempo desde que llegó una solicitud al punto de conexión interactivo y el punto de conexión interactivo envió una respuesta.

Milisegundos

4XXError

Se emite cuando una solicitud de operación genera un error 4xx durante el procesamiento.

Recuento

5XXError

Se emite cuando la solicitud de una operación produce un error 5Xxx en el servidor.

Recuento

KernelLaunchSuccess

Aplicable solo a la operación CreateKernel. Indica el número acumulado de lanzamientos del kernel que tuvieron éxito hasta esta solicitud incluida.

Recuento

KernelLaunchFailure

Aplicable solo a la operación CreateKernel. Indica el número acumulado de errores de lanzamiento del kernel hasta esta solicitud incluida.

Recuento

Cada métrica de punto de conexión interactivo tiene las siguientes dimensiones asociadas:

  • ManagedEndpointId: identificador del punto de conexión interactivo

  • OperationName: la operación desencadenada por el cliente interactivo

Los posibles valores de la dimensión OperationName se muestran en la siguiente tabla:

operationName Descripción de la operación

CreateKernel

Solicite que el punto de conexión interactivo inicie un kernel.

ListKernels

Solicite que el punto de conexión interactivo enumere los kernels que se han iniciado anteriormente con el mismo token de sesión.

GetKernel

Solicite que el punto de conexión interactivo obtenga detalles sobre un kernel específico que se haya iniciado anteriormente.

ConnectKernel

Solicite que el punto de conexión interactivo establezca la conectividad entre el cliente del cuaderno y el kernel.

ConfigureKernel

Publique %%configure magic request en un kernel de PySpark.

ListKernelSpecs

Solicite que el punto de conexión interactivo enumere las especificaciones del kernel disponibles.

GetKernelSpec

Solicite al punto de conexión que obtenga las especificaciones del kernel de un kernel que se haya lanzado anteriormente.

GetKernelSpecResource

Solicite que el punto de conexión interactivo obtenga recursos específicos asociados a las especificaciones del kernel que se hayan lanzado anteriormente.

Ejemplos

Para acceder a la cantidad total de kernels lanzados para un punto de conexión interactivo en un día determinado:

  1. Seleccione el espacio de nombres personalizado: EMRContainers

  2. Seleccione su ManagedEndpointId, OperationName – CreateKernel

  3. La métrica RequestCount con la estadística SUM y el periodo 1 day proporcionará todas las solicitudes de lanzamiento del kernel hechas en las últimas 24 horas.

  4. La métrica KernelLaunchSuccess con la estadística SUM y el periodo 1 day proporcionará todas las solicitudes de lanzamiento del kernel hechas correctamente en las últimas 24 horas.

Para acceder a la cantidad de errores del kernel para un punto de conexión interactivo en un día determinado:

  1. Seleccione el espacio de nombres personalizado: EMRContainers

  2. Seleccione su ManagedEndpointId, OperationName – CreateKernel

  3. La métrica KernelLaunchFailure con la estadística SUM y el periodo 1 day proporcionará todas las solicitudes de lanzamiento del kernel con errores hechas en las últimas 24 horas. También puede seleccionar las métricas 4XXError y 5XXError para saber qué tipo de error se ha producido en el lanzamiento del kernel.