Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Consideraciones para ejecutar varios pasos en paralelo al enviar un trabajo a Amazon EMR
La ejecución de varios pasos en paralelo al enviar un trabajo a Amazon EMR requiere decisiones preliminares sobre la planificación de los recursos y las expectativas en relación con el comportamiento del clúster. Estas se describen en detalle aquí.
-
Los pasos que se ejecutan en paralelo pueden completarse en cualquier orden, pero los pasos pendientes de la cola pasan al estado de ejecución en el orden en que se enviaron.
-
Al seleccionar un nivel de simultaneidad de pasos para el clúster, debe considerar si el tipo de instancia del nodo principal cumple o no los requisitos de memoria de las cargas de trabajo de usuario. El proceso de ejecución del paso principal se ejecuta en el nodo principal para cada paso. La ejecución de varios pasos en paralelo requiere más memoria y CPU utilización del nodo principal que la ejecución de un paso a la vez.
-
Para lograr una programación compleja y una administración de recursos de pasos simultáneos, puede utilizar funciones de YARN programación como
FairScheduler
oCapacityScheduler
. Por ejemplo, puede utilizarFairScheduler
con un conjuntoqueueMaxAppsDefault
para evitar que se ejecuten más de un determinado número de trabajos a la vez. -
El nivel de simultaneidad de pasos está sujeto a las configuraciones de los administradores de recursos. Por ejemplo, si YARN está configurado solo con un paralelismo de
5
, solo puede tener cinco YARN aplicaciones ejecutándose en paralelo, incluso siStepConcurrencyLevel
está configurado en.10
Para obtener más información sobre la configuración de los administradores de recursos, consulte Configurar aplicaciones en la Amazon EMR Release Guide. -
No puede añadir un paso con
ActionOnFailure
otro CONTINUE si el nivel de simultaneidad de pasos del clúster es superior a 1. -
Si el nivel de simultaneidad de pasos de un clúster es superior a uno, la característica
ActionOnFailure
del paso no se activará. -
Si un clúster tiene un nivel de simultaneidad de pasos de
1
, pero tiene varios pasos en ejecución, es posible queTERMINATE_CLUSTER ActionOnFailure
se active, peroCANCEL_AND_WAIT ActionOnFailure
no se activará. Este caso de periferia se presenta cuando el nivel de simultaneidad de los pasos del clúster era superior a uno, pero se reducía cuando se ejecutaban varios pasos. -
Puede usar el escalado EMR automático para escalar hacia arriba y hacia abajo en función de los YARN recursos para evitar la contención de recursos. Para obtener más información, consulta Cómo usar el escalado automático con una política personalizada para grupos de instancias en la Amazon EMR Management Guide.
-
Al reducir el nivel simultáneo de pasos, EMR permite que se complete cualquier paso en ejecución antes de reducir el número de pasos. Si los recursos se agotan porque el clúster está ejecutando demasiados pasos simultáneos, recomendamos cancelar manualmente los pasos en ejecución para liberar recursos.