ストリーミングジョブのログ管理 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ストリーミングジョブのログ管理

ストリーミングジョブは、Spark アプリケーションログとイベントログのログローテーション、および Spark イベントログのログ圧縮をサポートしています。これにより、リソースを効果的に管理できます。

ログローテーション

ストリーミングジョブは、Spark アプリケーションログとイベントログのログローテーションをサポートします。ログローテーションにより、長時間のストリーミングジョブで大きなログファイルが生成して使用可能なディスク領域をすべて使ってしまうのを防ぎます。ログローテーションはディスクストレージを節約し、ディスク容量が少ないためにジョブが失敗するのを防ぐのに役立ちます。詳細については「Rotating logs」を参照してください。

ログ圧縮

ストリーミングジョブは、マネージドログ記録が利用可能な場合は必ず Spark イベントログのログ圧縮もサポートします。マネージドログ記録の詳細については、「Logging with managed storage」を参照してください。ストリーミングジョブは長時間実行できるため、イベントデータが時間の経過とともに蓄積されて、ログファイルのサイズが著しく増加する可能性があります。Spark History Server は、これらのイベントを読み取り、Spark アプリケーション UI のメモリにロードします。このプロセスは、特に Amazon S3 に保存されているイベントログが非常に大きい場合、レイテンシーが大きくなりコストが高くなる可能性があります。

ログ圧縮によりイベントログのサイズが小さくなるため、Spark History Server が常に 1 GB を超えるイベントログをロードする必要はなくなります。詳細については、Apache Spark ドキュメントの「Monitoring and Instrumentation」を参照してください。