使用收穫和 Grafana 監控 FSx 的 ONTAP 文件系統 - FSx for OnTAP

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用收穫和 Grafana 監控 FSx 的 ONTAP 文件系統

NetApp 收穫是一個開源工具,用於從 ONTAP 系統收集性能和容量指標,並與適用於 ONTAP 的 FSx 兼容。您可以將收穫與 Grafana 一起使用,以獲得開放原始碼監控解決方案。

開始使用豐收和 Grafana

以下部分詳細說明如何設定和設定 Harvest 和 Grafana,以測量 FSx 的 ONTAP 檔案系統效能和儲存容量使用率。

您可以使用收穫和 Grafana 監控您的 Amazon FSx 的 NetApp ONTAP 文件系統。 NetApp 收穫會從適用於 ONTAP 檔案系統的 FSx 收集效能、容量和硬體指標來監控 ONTAP 資料中心。Grafana 提供儀表板,可在其中顯示收集的「收穫」指標。

支援的收穫儀表

適用於 NetApp ONTAP 的 Amazon FSx 公開的指標組與現場部署 ONTAP 不同。 NetApp 因此,目前僅支援以下標記為的「 out-of-the-box 收穫」儀表板,以便與 FSx for ONTAP 搭配使用。fsx這些儀表板中的某些面板可能缺少不受支援的資訊。

  • ONTAP:法規遵循

  • ONTAP:資料保護快照

  • ONTAP:安全性

  • 開始:SVM

  • 音量:音量

AWS CloudFormation 範本

若要開始使用,您可以部署 AWS CloudFormation 範本,以自動啟動執行豐收和 Grafana 的 Amazon EC2 執行個體。作為 AWS CloudFormation 範本的輸入,您可以為檔案系統指定fsxadmin使用者和 Amazon FSx 管理端點,這些端點將作為此部署的一部分新增。部署完成後,您可以登入 Grafana 儀表板來監控您的檔案系統。

此解決方案用 AWS CloudFormation 於自動化收穫和 Grafana 解決方案的部署。該模板創建一個 Amazon EC2 Linux 實例,並安裝收穫和 Grafana 軟件。若要使用此解決方案,請下載 FSX-收穫模板範 AWS CloudFormation 本。

注意

實作此解決方案會產生相關 AWS 服務的費用。如需詳細資訊,請參閱這些服務的定價詳細資料頁面。

Amazon EC2 執行個體類型

設定範本時,您需要提供 Amazon EC2 執行個體類型。 NetApp執行個體大小的建議取決於您監視的檔案系統數量,以及您選擇收集的指標數量。使用預設組態時,針對您監視的每 10 個檔案系統, NetApp 建議:

  • 中央處理器:2 核心

  • 記憶體:1 GB

  • 磁盤:500 MB(主要用於日誌文件)

以下是一些範例組態和您可能選擇的t3執行個體類型。

檔案系統 CPU Disk 執行個體類型

10 歲以下

2 個核心

500 MB

t3.micro

10—40

4 個核心

千兆

t3.xlarge

40 歲以上

8 個核心

千兆

t3.2xlarge

如需 Amazon EC2 執行個體類型的詳細資訊,請參閱 Amazon EC2 使用者指南中的一般用途執行個體

執行個體埠規則

當您設定 Amazon EC2 執行個體時,請確定連接埠 3000 和 9090 已針對 Amazon EC2 收穫和 Grafana 執行個體所在的安全群組開放傳入流量。由於啟動的執行個體透過 HTTPS 連線到端點,因此需要解析端點,這需要連接埠 53 TCP/UDP 才能使用 DNS。此外,要到達端點,它需要端口 443 TCP 才能使用 HTTPS 和互聯網訪問。

部署程序

下列程序會設定並部署收成/Grafana 解決方案。部署大約需要五分鐘。在開始之前,您必須在您的 AWS 帳戶中的 Amazon 虛擬私有雲 (Amazon VPC) 中執行一個 FSx for ONTAP 檔案系統,以及下列範本的參數資訊。如需建立檔案系統的詳細資訊,請參閱為 ONTAP 檔案系統建立 FSx

若要啟動收成/Grafana 解決方案堆疊
  1. 下載 FSX-收穫模板模板 AWS CloudFormation 。如需有關建立 AWS CloudFormation 堆疊的詳細資訊,請參閱《使用指南》中的〈在 AWS CloudFormation 主控台上建立堆疊AWS CloudFormation

    注意

    依預設,此範本會在美國東部 (維吉尼亞北部) AWS 區域啟動。您必須在提供 Amazon FSx 的 AWS 區域 位置啟動此解決方案。如需詳細資訊,請參閱.AWS 一般參考

  2. 對於「參數」,請檢閱範本的參數,並根據檔案系統的需求加以修改。此解決方案使用下列預設值。

    參數 預設 描述
    InstanceType t3.micro

    Amazon EC2 實例類型。以下是實t3例類型。

    • t3.micro

    • t3.small

    • t3.medium

    • t3.large

    • t3.xlarge

    • t3.2xlarge

    如需此參數允許的 Amazon EC2 執行個體類型值的完整清單,請參閱 fsx-ontap-harvest-grafana .template。

    KeyPair 無預設值 用來存取 Amazon EC2 執行個體的 key pair。
    SecurityGroup 無預設值 收取/Grafana 執行個體的安全性群組識別碼。確保除了連接埠 53 和 443 以外的輸入連接埠 3000 和 9090,都是從您想要用來存取 Grafana 儀表板的用戶端開啟的。
    子網路類型 無預設值 指定子網路類型 (public或) private。對必須連線到網際網public路的資源使用子網路,並為未連線至網際網路的資源使用私有子網路。如需詳細資訊,請參閱 Amazon VPC 使用者指南中的子網路類型
    子網路 無預設值 針對 NetApp ONTAP 檔案系統的偏好子網路,指定與 Amazon FSx 相同的子網路。您可以在 Amazon FSx 主控台的 ONTAP 檔案系統詳細資訊頁面的「網路和安全」索引標籤中,找到檔案系統的偏好子網路 ID
    LatestLinuxAmiId /aws/service/ami-amazon-linux-latest/amzn2-ami-hvm-x86_64-gp2 在給定的 Amazon Linux 2 AMI 的最新版本 AWS 區域。
    F SxEnd 點運算點 無預設值 檔案系統的管理端點 IP 位址。您可以在 Amazon FSx 主控台的 ONTAP 檔案系統詳細資訊頁面的「管理」索引標籤中,找到檔案系統的管理端點 IP 位址
    SecretName 無預設值 AWS Secrets Manager 包含檔案系統fsxadmin使用者密碼的秘密名稱。這是您在建立檔案系統時提供的密碼。
  3. 選擇下一步

  4. 在「選項」中選擇「下一步

  5. 對於「檢閱」,請檢閱並確認設定。您必須選取確認範本建立 IAM 資源的核取方塊。

  6. 選擇建立以部署堆疊。

您可以在 AWS CloudFormation 主控台的 [狀態] 欄中檢視堆疊的狀態。您應該會在大約五分鐘內看到「建立 _ 完成」狀態。

登入 Grafana

部署完成後,使用瀏覽器登入 Amazon EC2 執行個體 IP 和連接埠 3000 的 Grafana 儀表板:

http://EC2_instance_IP:3000

出現提示時,請使用 Grafana 預設使用者名稱 (admin) 和密碼 (pass)。我們建議您在登入後立即變更密碼。

如需詳細資訊,請參閱上的「 NetApp 收割」頁面 GitHub。

故障排除收穫和 Grafana

如果您遇到任何在 Harvest 和 Grafana 儀表板中提到的資料遺失,或是在使用 FSx 進行 ONTAP 設定 Harvest 和 Grafana 時遇到問題,請查看下列主題以取得潛在的解決方案。

SVM 和磁碟區儀表板為空白

如果 AWS CloudFormation 堆疊部署成功且可以聯絡 Grafana,但 SVM 和磁碟區儀表板為空白,請使用下列程序對環境進行疑難排解。您將需要 SSH 訪問 Amazon EC2 實例的收穫和 Grafana 部署在其上。

  1. SSH 連接到您的收穫和 Grafana 客戶正在運行的 Amazon EC2 實例。

    [~]$ ssh ec2-user@ec2_ip_address
  2. 使用以下命令打開harvest.yml文件並:

    • 驗證是否已針對 ONTAP 執行個體的 FSx 建立了一個項目。Cluster-2

    • 請確認使用者名稱和密碼的項目與您的認fsxadmin證相符。

    [ec2-user@ip-ec2_ip_address ~]$ sudo cat /home/ec2-user/harvest_install/harvest/harvest.yml
  3. 如果密碼欄位為空白,請在編輯器中開啟檔案並使用fsxadmin密碼進行更新,如下所示:

    [ec2-user@ip-ec2_ip_address ~]$ sudo vi /home/ec2-user/harvest_install/harvest/harvest.yml
  4. 請確定fsxadmin使用者認證以下列格式儲存在 Secrets Manager 中,以供 future 部署之用,並以您fsxadmin_password的密碼取代。

    {"username" : "fsxadmin", "password" : "fsxadmin_password"}

CloudFormation 堆棧在超時後回滾

如果您無法成功部署 CloudFormation 堆疊,而且正在復原時發生錯誤,請使用下列程序來解決問題。您需要透過 SSH 存取 CloudFormation 堆疊部署的 EC2 執行個體。

  1. 重新部署 CloudFormation 堆疊,確定已停用自動復原。

  2. SSH 連接到您的收穫和 Grafana 客戶正在運行的 Amazon EC2 實例。

    [~]$ ssh ec2-user@ec2_ip_address
  3. 使用以下命令確認 docker 容器已成功啟動。

    [ec2-user@ip-ec2_ip_address ~]$ sudo docker ps

    在響應中,您應該看到五個容器,如下所示:

    CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 6b9b3f2085ef rahulguptajss/harvest "bin/poller --config…" 8 minutes ago Restarting (1) 20 seconds ago harvest_cluster-2 3cf3e3623fde rahulguptajss/harvest "bin/poller --config…" 8 minutes ago Up About a minute harvest_cluster-1 708f3b7ef6f8 grafana/grafana "/run.sh" 8 minutes ago Up 8 minutes 0.0.0.0:3000->3000/tcp harvest_grafana 0febee61cab7 prom/alertmanager "/bin/alertmanager -…" 8 minutes ago Up 8 minutes 0.0.0.0:9093->9093/tcp harvest_prometheus_alertmanager 1706d8cd5a0c prom/prometheus "/bin/prometheus --c…" 8 minutes ago Up 8 minutes 0.0.0.0:9090->9090/tcp harvest_prometheus
  4. 如果 docker 容器未運行,請按如下方式檢查/var/log/cloud-init-output.log文件中的故障。

    [ec2-user@ip-ec2_ip_address ~]$ sudo cat /var/log/cloud-init-output.log PLAY [Manage Harvest] ********************************************************** TASK [Gathering Facts] ********************************************************* ok: [localhost] TASK [Verify images] *********************************************************** failed: [localhost] (item=prom/prometheus) => {"ansible_loop_var": "item", "changed": false, "item": "prom/prometheus", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetError(104, 'Co nnection reset by peer'))"} failed: [localhost] (item=prom/alertmanager) => {"ansible_loop_var": "item", "changed": false, "item": "prom/alertmanage r", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))"} failed: [localhost] (item=rahulguptajss/harvest) => {"ansible_loop_var": "item", "changed": false, "item": "rahulguptajs s/harvest", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetEr ror(104, 'Connection reset by peer'))"} failed: [localhost] (item=grafana/grafana) => {"ansible_loop_var": "item", "changed": false, "item": "grafana/grafana", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetError(104, 'Co nnection reset by peer'))"} PLAY RECAP ********************************************************************* localhost : ok=1 changed=0 unreachable=0 failed=1 skipped=0 rescued=0 ignored=0
  5. 如果發生故障,請執行以下命令來部署收穫和 Grafana 容器。

    [ec2-user@ip-ec2_ip_address ~]$ sudo su [ec2-user@ip-ec2_ip_address ~]$ cd /home/ec2-user/harvest_install [ec2-user@ip-ec2_ip_address ~]$ /usr/local/bin/ansible-playbook manage_harvest.yml [ec2-user@ip-ec2_ip_address ~]$ /usr/local/bin/ansible-playbook manage_harvest.yml --tags api
  6. 通過運行sudo docker ps並連接到您的收穫和 Grafana 網址來驗證容器成功啟動。