Considerazioni sull'esecuzione di più passaggi in parallelo quando invii un lavoro ad Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni sull'esecuzione di più passaggi in parallelo quando invii un lavoro ad Amazon EMR

L'esecuzione di più passaggi in parallelo quando invii un lavoro ad Amazon EMR richiede decisioni preliminari sulla pianificazione delle risorse e sulle aspettative relative al comportamento del cluster. Queste sono trattate in dettaglio qui.

  • Le fasi in esecuzione in parallelo possono essere completate in qualsiasi ordine, ma le fasi in sospeso nella coda passano allo stato in esecuzione nell'ordine in cui sono state inviate.

  • Quando si seleziona un livello di simultaneità delle fasi per il cluster, è necessario considerare se il tipo di istanza del nodo primario soddisfa o meno i requisiti di memoria dei carichi di lavoro degli utenti. Il processo di esecuzione della fase principale viene eseguito sul nodo primario per ogni fase. L'esecuzione di più passaggi in parallelo richiede più memoria e CPU utilizzo dal nodo primario rispetto all'esecuzione di un passaggio alla volta.

  • Per ottenere una pianificazione e una gestione complesse delle risorse delle fasi simultanee, è possibile utilizzare funzionalità di YARN pianificazione come o. FairScheduler CapacityScheduler Ad esempio, è possibile utilizzare FairScheduler con un set queueMaxAppsDefault per impedire l'esecuzione di più di un certo numero di processi contemporaneamente.

  • Il livello di concorrenza delle fasi è soggetto alle configurazioni dei gestori delle risorse. Ad esempio, se YARN è configurato solo con un parallelismo di5, allora puoi avere solo cinque YARN applicazioni in esecuzione in parallelo anche se StepConcurrencyLevel è impostato su. 10 Per ulteriori informazioni sulla configurazione dei gestori di risorse, consulta Configure applications nella Amazon EMR Release Guide.

  • Non è possibile aggiungere un passaggio con un ActionOnFailure altro CONTINUE se il livello di concomitanza dei passaggi del cluster è maggiore di 1.

  • Se il livello di concorrenza della fase di un cluster è maggiore di uno, la caratteristica ActionOnFailure della fase non si attiverà.

  • Se un cluster ha un livello di concorrenza della fase 1 ma ha più fasi in esecuzione, TERMINATE_CLUSTER ActionOnFailure potrebbe attivarsi, ma CANCEL_AND_WAIT ActionOnFailure non lo farà. Questo caso limite si verifica quando il livello di concorrenza della fase del cluster era maggiore di uno, ma si è abbassato durante l'esecuzione di più fasi.

  • È possibile utilizzare il ridimensionamento EMR automatico per aumentare e ridurre in base alle YARN risorse per evitare contese tra le risorse. Per ulteriori informazioni, consulta Utilizzo del ridimensionamento automatico con una politica personalizzata per i gruppi, ad esempio, nella Amazon EMR Management Guide.

  • Quando riduci il livello di concomitanza delle fasi, EMR consente il completamento di tutte le fasi in esecuzione prima di ridurre il numero di passaggi. Se le risorse sono esaurite perché il cluster esegue troppi passaggi simultanei, è consigliabile annullare manualmente tutte le fasi in esecuzione per liberare risorse.