SageMaker HyperPod クラスターリソースのモニタリング - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod クラスターリソースのモニタリング

SageMaker HyperPod クラスターリソースおよびソフトウェアコンポーネントに包括的なオブザーバビリティを実現するには、クラスターを Amazon Managed Service for Prometheus および Amazon Managed Grafana と統合します。Amazon Managed Service for Prometheus との統合により、 HyperPod クラスターリソースに関連するメトリクスのエクスポートが可能になり、パフォーマンス、使用率、ヘルスに関するインサイトが得られます。Amazon Managed Grafana との統合により、クラスターの動作をモニタリングおよび分析するための直感的なインターフェイスを提供するさまざまな Grafana ダッシュボードを通じて、これらのメトリクスを視覚化できます。これらのサービスを活用することで、 HyperPod クラスターの一元化された統一されたビューが得られ、分散トレーニングワークロードのプロアクティブなモニタリング、トラブルシューティング、最適化が容易になります。

ヒント

実用的な例と解決策については、SageMaker HyperPodワークショップ も参照してください。

Amazon Managed Service for Prometheus と Amazon Managed Grafana SageMaker HyperPod で を設定する方法の概要。

図: このアーキテクチャ図は、Amazon Managed Service for Prometheus と Amazon Managed Grafana SageMaker HyperPod で を設定する方法の概要を示しています。

SageMaker HyperPod クラスターオブザーバビリティを設定するには、次のトピックに進みます。