ログのローテーション - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ログのローテーション

Amazon EMR Serverless は、Spark アプリケーションログとイベントログをローテーションできます。ログローテーションによって、ディスク領域をすべて占有する可能性がある長時間実行ジョブが、大きなログファイルを生成する問題を解消できます。ログをローテーションすると、ディスクストレージを節約し、ディスクに空き領域がなくなるため、ジョブの失敗を低減することができます。

ログローテーションはデフォルトで有効になっており、Spark ジョブでのみ利用できます。

Spark イベントログ

注記

Spark イベントログローテーションは、すべての Amazon EMR リリースラベルで利用できます。

EMR Serverless は、単一のイベントログファイルを生成する代わりに、イベントログを定期的にローテーションし、古いイベントログファイルを削除します。ログをローテーションしても、S3 バケットにアップロードされたログには影響しません。

Spark アプリケーションログ

注記

Spark アプリケーションのログローテーションは、すべての Amazon EMR リリースラベルで利用できます。

EMR Serverless は、stdout ファイルや stderr ファイルなどのドライバーやエグゼキュターの Spark アプリケーションログもローテーションします。Spark History Server と Live UI リンクを使用して Studio のログリンクを選択すると、最新のログファイルにアクセスできます。ログファイルは、最新のログの切り捨てられたバージョンです。古いローテーションされたログを表示するには、ログを保存するときに Amazon S3 の場所を指定する必要があります。詳細については、「Amazon S3 バケットを使用した EMR Serverless のログ記録」を参照してください。

最新のログファイルは、次の場所にあります。EMR Serverless は 15 秒ごとにファイルを更新します。これらのファイルの範囲は 0 MB から 128 MB です。

<example-S3-logUri>/applications/<application-id>/jobs/<job-id>/SPARK_DRIVER/stderr.gz

次の場所には、古いローテーションされたファイルが格納されています。各ファイルは 128 MB です。

<example-S3-logUri>/applications/<application-id>/jobs/<job-id>/SPARK_DRIVER/archived/stderr_<index>.gz

Spark エグゼキュターにも同じ動作が適用されます。この変更は S3 ログ記録にのみ適用されます。ログローテーションでは、Amazon CloudWatch にアップロードされたログストリームに変更は加えられません。

EMR Serverless リリース 7.1.0 以降では、ストリーミングジョブとバッチジョブの再試行がサポートされています。ジョブで再試行を有効にした場合、EMR Serverless はそれらのジョブのログパスにプレフィックスを追加して、ログをより適切に追跡し、互いに区別できるようにします。このパスには、ローテーションされたすべてのログが含まれます。

'/applications/<applicationId>/jobs/<jobId>/attempts/<attemptNumber>/'.