本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
疑難排解
從 Studio 或 Studio Classic 筆記本使用 Amazon EMR叢集時,您可能會在連線或使用過程中遇到各種潛在問題或挑戰。為了協助您疑難排解和解決這些錯誤,本節提供可能發生的常見問題指引。
以下是從 Studio 或 Studio Classic 筆記本連接或使用 Amazon EMR叢集時可能發生的常見錯誤。
對 Livy 連線掛起或失敗進行故障診斷
以下是從 Studio 或 Studio Classic 筆記本使用 Amazon EMR叢集時可能發生的 Livy 連線問題。
-
您的 Amazon EMR叢集發生錯誤 out-of-memory。
透過掛起或失敗進行 Livy
sparkmagic
連線的可能原因是您的 Amazon EMR叢集發生錯誤 out-of-memory。依預設,Apache Spark 驅動程式的 Java 設定參數
spark.driver.defaultJavaOptions
設定為-XX:OnOutOfMemoryError='kill -9 %p'
。這表示當驅動程式程式遇到 時所採取的預設動作,OutOfMemoryError
是透過傳送SIGKILL訊號來終止驅動程式。當 Apache Spark 驅動程式終止時,任何依賴該驅動程式透過sparkmagic
的 Livy 連線都會掛起或失敗。這是因為 Spark 驅動程式負責管理 Spark 應用程式資源,包括任務排程與執行。如果沒有驅動程式,Spark 應用程式就無法運作,並且任何嘗試與它互動的嘗試都會失敗。如果您懷疑 Spark 叢集遇到記憶體問題,您可以檢查 Amazon EMR日誌。容器因 out-of-memory錯誤而遭到終止,通常會以 的程式碼結束
137
。在這種情況下,您需要重新啟動 Spark 應用程式並建立新的 Livy 連線,以繼續與 Spark 叢集的互動。您可以參考知識庫文章,如何在 Amazon 上的 Spark 中解決「容器因超過記憶體限制YARN而遭到刪除」的錯誤EMR?
AWS re:Post 了解可用於解決問題的各種策略和參數 out-of-memory。 我們建議您檢閱 Amazon EMR 最佳實務指南
,以取得在 Amazon EMR叢集上執行 Apache Spark 工作負載的最佳實務和調校指引。 -
您的 Livy 工作階段在第一次連線至 Amazon EMR叢集時逾時。
當您一開始使用 連線至 Amazon EMR叢集sagemaker-studio-analytics-extension
,而 可透過程式SparkMagic 庫使用 Apache Livy 連線至遠端 Spark (AmazonEMR) 叢集時,您可能會遇到連線逾時錯誤: An error was encountered: Session 0 did not start up in 60 seconds.
如果您的 Amazon EMR叢集在建立連線時需要初始化 Spark 應用程式,則出現連線逾時錯誤的機率會增加。
若要降低透過分析擴充功能使用 Livy 連線至 Amazon EMR叢集時,發生逾時的機率,
sagemaker-studio-analytics-extension
版本0.0.19
和更新版本會覆寫預設伺服器工作階段逾時至120
秒,而不是sparkmagic
的預設60
秒數。我們建議您透過執行下列升級命令來更快地升級您的擴充
0.0.18
功能。pip install --upgrade sagemaker-studio-analytics-extension
請注意,在
sparkmagic
中提供自訂逾時組態時,sagemaker-studio-analytics-extension
會遵循此覆寫。不過,將工作階段逾時設定為60
秒會自動觸發sagemaker-studio-analytics-extension
預設伺服器工作階段逾時120
秒。