设置亚马逊托管 Grafana 工作空间 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设置亚马逊托管 Grafana 工作空间

使用适用于 Prometheus 的亚马逊托管服务作为数据源,创建新的亚马逊托管 Grafana 工作空间或更新现有的亚马逊托管 Grafana 工作空间。

创建 Grafana 工作空间并将适用于 Prometheus 的亚马逊托管服务设置为数据源

要可视化亚马逊 Prometheus 托管服务的指标,请创建亚马逊托管 Grafana 工作空间,并将其设置为使用亚马逊 Prometheus 托管服务作为数据源。

  1. 要创建 Grafana 工作空间,请按照《适用于 Prometheus 的亚马逊托管服务用户指南》中创建工作空间中的说明进行操作。

    1. 在步骤 13 中,选择适用于 Prometheus 的亚马逊托管服务作为数据源。

    2. 在步骤 17 中,您可以在 Ident IAM ity Center 中添加管理员用户和其他用户。

有关更多信息,另请参阅以下资源。

打开 Grafana 工作区并完成数据源的设置

成功创建或更新 Amazon Managed Grafana 工作空间后,选择该工作区以打开该URL工作空间。这会提示您输入在 Ident IAM ity Center 中设置的用户的用户名和密码。您应该使用管理员用户登录以完成工作区的设置。

  1. 在工作区主页中,选择应用程序AWS 数据源数据源

  2. 在 “数据源” 页面中,选择 “数据源” 选项卡。

  3. 对于服务,请选择适用于 Prometheus 的亚马逊托管服务。

  4. 浏览和配置数据源部分,选择您为 Prometheus 工作空间配置亚马逊托管服务的 AWS 区域。

  5. 从所选区域的数据源列表中,为适用于 Prometheus 的亚马逊托管服务选择一个数据源。请务必检查您为可观察性堆栈设置的适用于 Prometheus 的亚马逊托管服务工作空间的资源 ID 和资源别名。 HyperPod

导入开源 Grafana 仪表板

成功设置以亚马逊托管服务 Prometheus 为数据源的 Amazon Managed Grafana 工作空间后,您将开始向 Prometheus 收集指标,然后应该会开始看到显示图表、信息等的各种仪表板。Grafana 开源软件提供了各种控制面板,您可以将它们导入到亚马逊托管 Grafana 中。

将开源 Grafana 控制面板导入亚马逊托管 Grafana

  1. 在 Amazon Managed Grafana 工作空间的主页中,选择控制面板。

  2. 选择带有用户界面文本 “新建” 的下拉菜单按钮,然后选择 “导入”。

  3. 粘贴URL到 Slurm 仪表板。

    https://grafana.com/grafana/dashboards/4323-slurm-dashboard/
  4. 选择 “加载”。

  5. 重复前面的步骤以导入以下仪表板。

    1. Node Exporter 完整控制面板

      https://grafana.com/grafana/dashboards/1860-node-exporter-full/
    2. NVIDIADCGM出口商控制面板

      https://grafana.com/grafana/dashboards/12239-nvidia-dcgm-exporter-dashboard/
    3. EFA指标控制面板

      https://grafana.com/grafana/dashboards/20579-efa-metrics-dev/
    4. FSx适用于 Lustre 指标控制面板

      https://grafana.com/grafana/dashboards/20906-fsx-lustre/