トラブルシューティング - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

Studio または Studio Classic ノートブックから Amazon EMRクラスターを操作すると、接続または使用プロセス中にさまざまな潜在的な問題や課題が発生する可能性があります。これらのエラーのトラブルシューティングと解決に役立つように、このセクションでは、発生する可能性のある一般的な問題に関するガイダンスを提供します。

以下は、Studio または Studio Classic ノートブックから Amazon EMRクラスターに接続中または使用中に発生する可能性がある一般的なエラーです。

Livy 接続がハングアップまたは失敗した場合のトラブルシューティング

Studio または Studio Classic ノートブックから Amazon EMRクラスターを使用しているときに発生する可能性のある Livy 接続の問題は次のとおりです。

  • Amazon EMRクラスターでエラーが発生しました out-of-memory。

    Livy 接続がsparkmagicハングアップまたは失敗する原因としては、Amazon EMRクラスターで out-of-memoryエラーが発生した場合が考えられます。

    デフォルトでは、Apache Spark ドライバーの Java 設定パラメータ spark.driver.defaultJavaOptions-XX:OnOutOfMemoryError='kill -9 %p' に設定されています。つまり、ドライバープログラムが を検出したときに実行されるデフォルトのアクションOutOfMemoryErrorは、SIGKILLシグナルを送信してドライバープログラムを終了することです。Apache Spark ドライバーが終了すると、そのドライバーに依存する sparkmagic 経由の Livy 接続はすべてハングまたは失敗します。これは、Spark ドライバーがタスクのスケジュール設定や実行など、Spark アプリケーションのリソースを管理する責任があるためです。このドライバーがないと Spark アプリケーションは機能せず、Spark アプリケーションを操作しようとしても失敗します。

    Spark クラスターでメモリの問題が発生していると思われる場合は、Amazon EMRログ を確認できます。 out-of-memory エラーにより強制終了されたコンテナは、通常、 のコードで終了します137。このような場合は、Spark アプリケーションを再起動し、新しい Livy 接続を確立して Spark クラスターとのやり取りを再開する必要があります。

    ナレッジベースの記事「Amazon の Spark で「メモリ制限を超えたYARNために によって強制終了されたコンテナ」というエラーを解決する方法を教えてくださいEMR」を参照して、 out-of-memory 問題に対処するために使用できるさまざまな戦略とパラメータについて学習できます。 AWS re:Post

    Amazon EMRクラスターで Apache EMR Spark ワークロードを実行するためのベストプラクティスとチューニングガイダンスについては、「Amazon ベストプラクティスガイド」を参照してください。

  • Amazon EMRクラスターに初めて接続すると、Livy セッションがタイムアウトします。

    を使用して Amazon EMRクラスターに初めて接続するとsagemaker-studio-analytics-extensionApache Livy を使用してSparkMagicライブラリ経由でリモート Spark (Amazon EMR) クラスターへの接続を有効にすると、接続タイムアウトエラーが発生することがあります。

    An error was encountered: Session 0 did not start up in 60 seconds.

    接続の確立時に Amazon EMRクラスターで Spark アプリケーションの初期化が必要な場合、接続タイムアウトエラーが表示される可能性が高くなります。

    分析拡張機能を介して Livy を使用して Amazon EMRクラスターに接続するときにタイムアウトが発生する可能性を減らすために、sagemaker-studio-analytics-extensionバージョン 0.0.19以降では、デフォルトのサーバーセッションタイムアウトが のデフォルトsparkmagicである 120秒ではなく 60秒に上書きされます。

    以下のアップグレードコマンドを実行して、拡張機能を 0.0.18 以降にアップグレードすることをおすすめします。

    pip install --upgrade sagemaker-studio-analytics-extension

    sparkmagic でカスタムタイムアウト設定を指定する場合、sagemaker-studio-analytics-extension は、このオーバーライドを優先することに注意してください。ただし、セッションタイムアウトを 60 秒に設定すると、sagemaker-studio-analytics-extension でデフォルトのサーバーセッションタイムアウト 120 秒が自動的にトリガーされます。