疑難排解 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解

使用 Studio 或 Studio 典型筆記型電腦中的 Amazon EMR 叢集時,您可能會在連線或使用過程中遇到各種潛在問題或挑戰。為了協助您疑難排解並解決這些錯誤,本節提供可能出現的常見問題的指引。

以下是從 Studio 或工作室傳統筆記型電腦連接或使用 Amazon EMR 叢集時可能發生的常見錯誤。

對 Livy 連線掛起或失敗進行故障診斷

以下是使用工作室或工作室經典筆記本電腦的 Amazon EMR 叢集時可能發生的 Livy 連接問題。

  • 您的 Amazon EMR 群集遇到錯 out-of-memory誤。

    如果您的 Amazon EMR 叢集遇到 out-of-memory錯誤,則透過sparkmagic掛起或失敗進行 Livy 連線的可能原因。

    依預設,Apache Spark 驅動程式的 Java 設定參數 spark.driver.defaultJavaOptions 設定為 -XX:OnOutOfMemoryError='kill -9 %p'。這意味著,當驅動程序遇到一個採取的默認操作OutOfMemoryError是通過發送SIGKILL信號終止驅動程序。當 Apache Spark 驅動程式終止時,任何依賴該驅動程式透過 sparkmagic 的 Livy 連線都會掛起或失敗。這是因為 Spark 驅動程式負責管理 Spark 應用程式資源,包括任務排程與執行。如果沒有驅動程式,Spark 應用程式就無法運作,並且任何嘗試與它互動的嘗試都會失敗。

    如果您懷疑 Spark 叢集遇到記憶體問題,可以檢查 Amazon EMR 日誌。容器因 out-of-memory 錯誤而終止,通常會以的程式碼結束137。在這種情況下,您需要重新啟動 Spark 應用程式並建立新的 Livy 連線,以繼續與 Spark 叢集的互動。

    您可以參考知識庫文章如何解決 Amazon 上的 Spark 中的錯誤「容器因超YARN出內存限制而被殺死」EMR? 繼 AWS re:Post 續瞭解可用於解 out-of-memory 決問題的各種策略和參數。

    我們建議您參閱 Amazon 最EMR佳實務指南,以取得在 Amazon EMR 叢集上執行 Apache Spark 工作負載的最佳實務和調整指引。

  • 第一次連接到 Amazon EMR 叢集時,您的 Livy 工作階段逾時。

    當您最初使用連線到 Amazon EMR 叢集時 sagemaker-studio-analytics-extension,可能會使用 Apache Livy 程式庫透過程式SparkMagic庫連線到遠端 Spark (AmazonEMR) 叢集,您可能會遇到連線逾時錯誤:

    An error was encountered: Session 0 did not start up in 60 seconds.

    如果您的 Amazon EMR 叢集在建立連線時需要初始化 Spark 應用程式,就會增加看到連線逾時錯誤的機會。

    為了減少透過分析擴充功能使用 Livy 連線至 Amazon EMR 叢集時發生逾時的機會,sagemaker-studio-analytics-extension版本0.0.19和更新版本會將預設伺服器工作階段逾時覆寫為120秒數,而非預設秒數60sparkmagic

    我們建議您透過執行下列升級命令來更快地升級您的擴充 0.0.18 功能。

    pip install --upgrade sagemaker-studio-analytics-extension

    請注意,在 sparkmagic 中提供自訂逾時組態時,sagemaker-studio-analytics-extension 會遵循此覆寫。不過,將工作階段逾時設定為 60 秒會自動觸發 sagemaker-studio-analytics-extension 預設伺服器工作階段逾時 120秒。