トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

Studio ノートブックまたは Studio Classic ノートブックから Amazon EMR クラスターを操作する場合、接続または使用プロセス中にさまざまな潜在的な問題や課題が発生する場合があります。このようなエラーのトラブルシューティングと解決に役立つように、このセクションでは発生する可能性のある一般的な問題に関するガイダンスを提供します。

以下は、Studio ノートブックまたは Studio Classic ノートブックから Amazon EMR クラスターに接続したり使用したりする際に発生する可能性のある一般的なエラーのトラブルシューティング方法を説明します。

Livy 接続がハングアップまたは失敗した場合のトラブルシューティング

以下は、Studio ノートブックまたは Studio Classic ノートブックから Amazon EMR クラスターを使用する際に発生する可能性がある Livy 接続に関する問題です。

  • Amazon EMR クラスターでメモリ不足エラーが発生しました。

    sparkmagic による Livy 接続がハングアップまたは失敗する原因としては、Amazon EMR クラスターでメモリ不足エラーが発生したことが考えられます。

    デフォルトでは、Apache Spark ドライバーの Java 設定パラメータ spark.driver.defaultJavaOptions-XX:OnOutOfMemoryError='kill -9 %p' に設定されています。つまり、ドライバープログラムで OutOfMemoryError が発生したときに実行されるデフォルトのアクションは、SIGKILL シグナルを送信してドライバープログラムを終了することを意味します。Apache Spark ドライバーが終了すると、そのドライバーに依存する sparkmagic 経由の Livy 接続はすべてハングまたは失敗します。これは、Spark ドライバーがタスクのスケジュール設定や実行など、Spark アプリケーションのリソースを管理する責任があるためです。このドライバーがないと Spark アプリケーションは機能せず、Spark アプリケーションを操作しようとしても失敗します。

    Spark クラスターでメモリの問題が発生していると思われる場合は、Amazon EMR ログを確認できます。メモリ不足エラーにより強制終了されたコンテナは、通常、コード 137 で終了します。このような場合は、Spark アプリケーションを再起動し、新しい Livy 接続を確立して Spark クラスターとのやり取りを再開する必要があります。

    ナレッジベースの記事「Amazon EMR の Spark で「メモリ制限を超えたために YARN によって強制終了されたコンテナ」というエラーを解決する方法を教えてください」を参照して、out-of-memoryの問題に対処するために使用できるさまざまな戦略とパラメータについて AWS re:Post 学習できます。

    Amazon EMR クラスターで Apache Spark ワークロードを実行する際のベストプラクティスと調整ガイダンスについては、「Amazon EMR Best Practices Guides」を確認することをお勧めします。

  • Amazon EMR クラスターに初めて接続すると、Livy セッションがタイムアウトします。

    sagemaker-studio-analytics-extension を使用して Amazon EMR クラスターに初めて接続すると、Apache Livy を使用した SparkMagic ライブラリ経由でリモート Spark (Amazon EMR) クラスターへの接続が可能になり、次の接続タイムアウトエラーが発生する可能性があります:

    An error was encountered: Session 0 did not start up in 60 seconds.

    Amazon EMR クラスターで接続の確立時に Spark アプリケーションの初期化が必要な場合、接続タイムアウトエラーが発生する可能性が高くなります。

    分析拡張機能を経由して Livy を使用して Amazon EMR クラスターに接続する際にタイムアウトが発生する可能性を減らすため、sagemaker-studio-analytics-extension バージョン 0.0.19 以降では、デフォルトのサーバーセッションタイムアウトが、sparkmagic のデフォルトの 60 秒ではなく 120 秒にオーバーライドされます。

    以下のアップグレードコマンドを実行して、拡張機能を 0.0.18 以降にアップグレードすることをおすすめします。

    pip install --upgrade sagemaker-studio-analytics-extension

    sparkmagic でカスタムタイムアウト設定を指定する場合、sagemaker-studio-analytics-extension は、このオーバーライドを優先することに注意してください。ただし、セッションタイムアウトを 60 秒に設定すると、sagemaker-studio-analytics-extension でデフォルトのサーバーセッションタイムアウト 120 秒が自動的にトリガーされます。