Studio の HyperPod タブ - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Studio の HyperPod タブ

Amazon SageMaker Studio では、HyperPod クラスター (コンピューティングの下) 内のクラスターの 1 つに移動し、クラスターのリストを表示できます。表示されるクラスターには、タスク、ハードウェアメトリクス、設定、メタデータの詳細などの情報が含まれています。この可視性は、チームがトレーニング前または微調整ワークロードに適した候補を特定するのに役立ちます。以下のセクションでは、各タイプの情報について説明します。

タスク

Amazon SageMaker HyperPod は、クラスタータスクのビューを提供します。タスクは、クラスターに送信されるオペレーションまたはジョブです。これらは、トレーニング、実験の実行、推論などの機械学習オペレーションです。次のセクションでは、HyperPod クラスタータスクについて説明します。

Amazon SageMaker Studio では、HyperPod クラスター内のクラスターの 1 つ (コンピューティングの下) に移動し、クラスターのタスク情報を表示できます。タスクの表示に問題がある場合は、「」を参照してくださいトラブルシューティング

タスクテーブルには以下が含まれます。

For Slurm clusters

Slurm クラスターの場合、現在 Slurm ジョブスケジューラキューにあるタスクが表に表示されます。各タスクに表示される情報には、タスク名、ステータス、ジョブ ID、パーティション、実行時間、ノード、作成者、アクションが含まれます。

過去のジョブのリストと詳細については、JupyterLab の sacct コマンドまたは Code Editor ターミナルを使用します。sacct コマンドは、システムで完了または完了したジョブに関する履歴情報を表示するために使用されます。メモリや終了ステータスなどのジョブリソースの使用状況など、アカウンティング情報を提供します。

デフォルトでは、すべての Studio ユーザーは、使用可能なすべての Slurm タスクを表示、管理、操作できます。表示可能なタスクを Studio ユーザーに制限するには、「」を参照してくださいStudio for Slurm クラスターのタスクビューを制限する

For Amazon EKS clusters

Amazon EKS クラスターの場合、kubeflow (PyTorch、MPI、TensorFlow) タスクが表に表示されます。PyTorch タスクはデフォルトで表示されます。PyTorch、MPI、および TensorFlow はタスクタイプでソートできます。各タスクに表示される情報には、タスク名、ステータス、名前空間、優先度クラス、作成時刻が含まれます。

デフォルトでは、すべてのユーザーはすべての名前空間でジョブを表示できます。Studio ユーザーが表示可能な Kubernetes 名前空間を制限するには、「」を参照してくださいStudio for EKS クラスターのタスクビューを制限する。ユーザーがタスクを表示できず、名前空間を指定するように求められた場合は、管理者からその情報を取得する必要があります。

メトリクス

Amazon SageMaker HyperPod は、Slurm または Amazon EKS クラスター使用率メトリクスのビューを提供します。以下に、HyperPod クラスターメトリクスに関する情報を示します。

以下のメトリクスを表示するには、Amazon EKS アドオンをインストールする必要があります。詳細については、Amazon CloudWatch Observability EKS アドオンをインストールする」を参照してください。

Amazon SageMaker Studio では、HyperPod クラスター内のクラスターの 1 つ (コンピューティングの下) に移動し、クラスターのメトリクスの詳細を表示できます。メトリクスは、ハードウェア、チーム、タスクメトリクスなど、クラスター使用率メトリクスの包括的なビューを提供します。これには、コンピューティングの可用性と使用状況、チームの割り当てと使用率、タスクの実行と待機時間に関する情報が含まれます。

設定

Amazon SageMaker HyperPod は、クラスター設定のビューを提供します。以下に、HyperPod クラスター設定に関する情報を示します。

Amazon SageMaker Studio では、HyperPod クラスター内のクラスターの 1 つ (コンピューティングの下) に移動し、クラスターの設定情報を表示できます。情報には以下が含まれます。

  • インスタンス ID、ステータス、インスタンスタイプ、インスタンスグループなど、インスタンスの詳細

  • インスタンスグループ名、タイプ、カウント、コンピューティング情報など、インスタンスグループの詳細

  • オーケストレーター、バージョン、認証機関を含むオーケストレーションの詳細

  • クラスターの耐障害性の詳細

  • サブネットやセキュリティグループを含むセキュリティの詳細

詳細

Amazon SageMaker HyperPod には、クラスターメタデータの詳細が表示されます。次の段落では、HyperPod クラスターの詳細を取得する方法について説明します。

Amazon SageMaker Studio では、HyperPod クラスター内のクラスターの 1 つ (コンピューティングの下) に移動し、クラスターの詳細を表示できます。これには、タグ、ログ、メタデータが含まれます。