Risoluzione dei problemi - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi

Quando lavori con EMR cluster Amazon da notebook Studio o Studio Classic, potresti riscontrare diversi potenziali problemi o sfide durante il processo di connessione o utilizzo. Per aiutarti a risolvere questi errori, questa sezione fornisce indicazioni sui problemi più comuni che possono insorgere.

Di seguito sono riportati gli errori più comuni che potrebbero verificarsi durante la connessione o l'utilizzo di EMR cluster Amazon da notebook Studio o Studio Classic.

Risolvi i problemi relativi alle connessioni Livy che si bloccano o non funzionano

Di seguito sono riportati i problemi di connettività Livy che potrebbero verificarsi durante l'utilizzo di EMR cluster Amazon da notebook Studio o Studio Classic.

  • Il tuo EMR cluster Amazon ha riscontrato un out-of-memory errore.

    Un possibile motivo per cui una connessione Livy si blocca o sparkmagic non funziona è se il tuo EMR cluster Amazon ha riscontrato un out-of-memory errore.

    Per impostazione predefinita, il parametro di configurazione del driver Apache Spark, spark.driver.defaultJavaOptions, è impostato su -XX:OnOutOfMemoryError='kill -9 %p'. Ciò significa che l'azione predefinita intrapresa quando il programma driver rileva un OutOfMemoryError è quella di terminare il programma driver inviando un segnale. SIGKILL Quando il driver Apache Spark viene terminato, qualsiasi connessione Livy tramite sparkmagic che dipende da quel driver si blocca o fallisce. Ciò avviene perché il driver Spark è responsabile della gestione delle risorse dell'applicazione Spark, ivi comprese la pianificazione e l'esecuzione delle attività. Senza il driver, l'applicazione Spark non può funzionare e qualsiasi tentativo di interagire con essa fallisce.

    Se sospetti che il tuo cluster Spark abbia problemi di memoria, puoi controllare i EMRlog di Amazon. I contenitori interrotti a causa di out-of-memory errori in genere escono con un codice di. 137 In questi casi, è necessario riavviare l'applicazione Spark e stabilire una nuova connessione Livy per riprendere l'interazione con il cluster Spark.

    Puoi fare riferimento all'articolo della knowledge base Come posso risolvere l'errore «Container ucciso YARN per aver superato i limiti di memoria» in Spark su Amazon? EMR qui AWS re:Post per scoprire varie strategie e parametri che possono essere utilizzati per risolvere un out-of-memory problema.

    Ti consigliamo di consultare le Amazon EMR Best Practices Guides per le best practice e le indicazioni di ottimizzazione sull'esecuzione dei carichi di lavoro Apache Spark sui tuoi cluster Amazon. EMR

  • La tua sessione Livy scade quando ti connetti a un EMR cluster Amazon per la prima volta.

    Quando ti connetti inizialmente a un EMR cluster Amazon utilizzando sagemaker-studio-analytics-extension, che consente la connessione a un cluster Spark (AmazonEMR) remoto tramite la SparkMagiclibreria utilizzando Apache Livy, potresti riscontrare un errore di timeout della connessione:

    An error was encountered: Session 0 did not start up in 60 seconds.

    Se il tuo EMR cluster Amazon richiede l'inizializzazione di un'applicazione Spark al momento di stabilire una connessione, c'è una maggiore possibilità di vedere errori di timeout della connessione.

    Per ridurre le possibilità di ottenere timeout durante la connessione a un EMR cluster Amazon, utilizza Livy tramite l'estensione di analisi, sagemaker-studio-analytics-extension versione 0.0.19 e successivamente sostituisci il timeout predefinito della sessione del sparkmagic server in 120 secondi anziché in secondi. 60

    Consigliamo di aggiornare l'estensione 0.0.18 e prima eseguendo il seguente comando di upgrade.

    pip install --upgrade sagemaker-studio-analytics-extension

    Tieni presente che quando fornisci una configurazione di timeout personalizzata in sparkmagic, sagemaker-studio-analytics-extension rispetta questa sovrascrittura. Tuttavia, l'impostazione del timeout della sessione su 60 secondi attiva automaticamente il timeout della sessione del server predefinito pari a 120 secondi in sagemaker-studio-analytics-extension.