トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

次のセクションでは、Studio の HyperPod のトラブルシューティングソリューションを示します。

タスクタブ

タスクタブでカスタムリソース定義 (CRD) がクラスターに設定されていない場合

  • ドメイン実行ロールに EKSAdminViewPolicyおよび ClusterAccessRoleポリシーを付与します。

    実行ロールにタグを追加する方法については、「IAM ロールのタグ付け」を参照してください。

    IAM ユーザーまたはグループにポリシーをアタッチする方法については、「IAM ID アクセス許可の追加と削除」を参照してください。

Slurm メトリクスのタスクグリッドがタスクタブでのロードを停止しない場合。

Studio for EKS クラスターの制限付きタスクビューの場合:

  • 実行ロールに EKS クラスターの名前空間を一覧表示するアクセス許可がない場合。

  • ユーザーが EKS クラスターへのアクセスに問題がある場合。

    1. 次の AWS CLI コマンドを実行して、RBAC が有効になっていることを確認します。

      kubectl api-versions | grep rbac

      これにより、rbac.authorization.k8s.io/v1. が返されます。

    2. 次のコマンドを実行して、 ClusterRoleClusterRoleBindingが存在するかどうかを確認します。

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. ユーザーグループのメンバーシップを確認します。ユーザーが ID プロバイダーまたは IAM の pods-events-crd-cluster-levelグループに正しく割り当てられていることを確認します。

  • ユーザーがリソースを表示できない場合。

    • グループメンバーシップを確認し、 が正しく適用ClusterRoleBindingされていることを確認します。

  • ユーザーがすべての名前空間でリソースを表示できる場合。

    • 名前空間の制限が必要な場合は、 RoleRoleBindingの代わりに ClusterRoleと を使用することを検討してくださいClusterRoleBinding

  • 設定が正しいと思われるが、アクセス許可が適用されない場合。

    • アクセスPodSecurityPoliciesを妨げる NetworkPolicies または があるかどうかを確認します。

メトリクスタブ

Amazon CloudWatch メトリクスがない場合、メトリクスタブに表示されます。

  • HyperPod クラスターの詳細の Metricsセクションでは、CloudWatch を使用してデータを取得します。このセクションのメトリクスを表示するには、 を有効にする必要がありますクラスターオブザーバビリティ。管理者に連絡してメトリクスを設定します。