本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用收穫和 Grafana 監控 FSx 的 ONTAP 文件系統
NetApp 收穫是一個開源工具,用於從 ONTAP 系統收集性能和容量指標,並與適用於 ONTAP 的 FSx 兼容。您可以將收穫與 Grafana 一起使用,以獲得開放原始碼監控解決方案。
開始使用豐收和 Grafana
以下部分詳細說明如何設定和設定 Harvest 和 Grafana,以測量 FSx 的 ONTAP 檔案系統效能和儲存容量使用率。
您可以使用收穫和 Grafana 監控您的 Amazon FSx 的 NetApp ONTAP 文件系統。 NetApp 收穫會從適用於 ONTAP 檔案系統的 FSx 收集效能、容量和硬體指標來監控 ONTAP 資料中心。Grafana 提供儀表板,可在其中顯示收集的「收穫」指標。
支援的收穫儀表
適用於 NetApp ONTAP 的 Amazon FSx 公開的指標組與現場部署 ONTAP 不同。 NetApp 因此,目前僅支援以下標記為的「 out-of-the-box 收穫」儀表板,以便與 FSx for ONTAP 搭配使用。fsx
這些儀表板中的某些面板可能缺少不受支援的資訊。
ONTAP:法規遵循
ONTAP:資料保護快照
ONTAP:安全性
開始:SVM
音量:音量
AWS CloudFormation 範本
若要開始使用,您可以部署 AWS CloudFormation 範本,以自動啟動執行豐收和 Grafana 的 Amazon EC2 執行個體。作為 AWS CloudFormation 範本的輸入,您可以為檔案系統指定fsxadmin
使用者和 Amazon FSx 管理端點,這些端點將作為此部署的一部分新增。部署完成後,您可以登入 Grafana 儀表板來監控您的檔案系統。
此解決方案用 AWS CloudFormation 於自動化收穫和 Grafana 解決方案的部署。該模板創建一個 Amazon EC2 Linux 實例,並安裝收穫和 Grafana 軟件。若要使用此解決方案,請下載 FSX-收穫模板範
注意
實作此解決方案會產生相關 AWS 服務的費用。如需詳細資訊,請參閱這些服務的定價詳細資料頁面。
Amazon EC2 執行個體類型
設定範本時,您需要提供 Amazon EC2 執行個體類型。 NetApp執行個體大小的建議取決於您監視的檔案系統數量,以及您選擇收集的指標數量。使用預設組態時,針對您監視的每 10 個檔案系統, NetApp 建議:
中央處理器:2 核心
記憶體:1 GB
磁盤:500 MB(主要用於日誌文件)
以下是一些範例組態和您可能選擇的t3
執行個體類型。
檔案系統 | CPU | Disk | 執行個體類型 |
---|---|---|---|
10 歲以下 |
2 個核心 |
500 MB |
|
10—40 |
4 個核心 |
千兆 |
|
40 歲以上 |
8 個核心 |
千兆 |
|
如需 Amazon EC2 執行個體類型的詳細資訊,請參閱 Amazon EC2 使用者指南中的一般用途執行個體。
執行個體埠規則
當您設定 Amazon EC2 執行個體時,請確定連接埠 3000 和 9090 已針對 Amazon EC2 收穫和 Grafana 執行個體所在的安全群組開放傳入流量。由於啟動的執行個體透過 HTTPS 連線到端點,因此需要解析端點,這需要連接埠 53 TCP/UDP 才能使用 DNS。此外,要到達端點,它需要端口 443 TCP 才能使用 HTTPS 和互聯網訪問。
部署程序
下列程序會設定並部署收成/Grafana 解決方案。部署大約需要五分鐘。在開始之前,您必須在您的 AWS 帳戶中的 Amazon 虛擬私有雲 (Amazon VPC) 中執行一個 FSx for ONTAP 檔案系統,以及下列範本的參數資訊。如需建立檔案系統的詳細資訊,請參閱為 ONTAP 檔案系統建立 FSx。
若要啟動收成/Grafana 解決方案堆疊
-
下載 FSX-收穫模板模板
AWS CloudFormation 。如需有關建立 AWS CloudFormation 堆疊的詳細資訊,請參閱《使用指南》中的〈在 AWS CloudFormation 主控台上建立堆疊AWS CloudFormation〉。 注意
依預設,此範本會在美國東部 (維吉尼亞北部) AWS 區域啟動。您必須在提供 Amazon FSx 的 AWS 區域 位置啟動此解決方案。如需詳細資訊,請參閱.AWS 一般參考
-
對於「參數」,請檢閱範本的參數,並根據檔案系統的需求加以修改。此解決方案使用下列預設值。
參數 預設 描述 InstanceType t3.micro
Amazon EC2 實例類型。以下是實
t3
例類型。t3.micro
t3.small
t3.medium
t3.large
t3.xlarge
t3.2xlarge
如需此參數允許的 Amazon EC2 執行個體類型值的完整清單,請參閱 fsx-ontap-harvest-grafana .template。
KeyPair 無預設值 用來存取 Amazon EC2 執行個體的 key pair。 SecurityGroup 無預設值 收取/Grafana 執行個體的安全性群組識別碼。確保除了連接埠 53 和 443 以外的輸入連接埠 3000 和 9090,都是從您想要用來存取 Grafana 儀表板的用戶端開啟的。 子網路類型 無預設值 指定子網路類型 ( public
或)private
。對必須連線到網際網public
路的資源使用子網路,並為未連線至網際網路的資源使用私有子網路。如需詳細資訊,請參閱 Amazon VPC 使用者指南中的子網路類型。子網路 無預設值 針對 NetApp ONTAP 檔案系統的偏好子網路,指定與 Amazon FSx 相同的子網路。您可以在 Amazon FSx 主控台的 ONTAP 檔案系統詳細資訊頁面的「網路和安全」索引標籤中,找到檔案系統的偏好子網路 ID LatestLinuxAmiId /aws/service/ami-amazon-linux-latest/amzn2-ami-hvm-x86_64-gp2
在給定的 Amazon Linux 2 AMI 的最新版本 AWS 區域。 F SxEnd 點運算點 無預設值 檔案系統的管理端點 IP 位址。您可以在 Amazon FSx 主控台的 ONTAP 檔案系統詳細資訊頁面的「管理」索引標籤中,找到檔案系統的管理端點 IP 位址。 SecretName 無預設值 AWS Secrets Manager 包含檔案系統 fsxadmin
使用者密碼的秘密名稱。這是您在建立檔案系統時提供的密碼。 -
選擇下一步。
-
在「選項」中選擇「下一步」
-
對於「檢閱」,請檢閱並確認設定。您必須選取確認範本建立 IAM 資源的核取方塊。
-
選擇建立以部署堆疊。
您可以在 AWS CloudFormation 主控台的 [狀態] 欄中檢視堆疊的狀態。您應該會在大約五分鐘內看到「建立 _ 完成」狀態。
登入 Grafana
部署完成後,使用瀏覽器登入 Amazon EC2 執行個體 IP 和連接埠 3000 的 Grafana 儀表板:
http://EC2_instance_IP
:3000
出現提示時,請使用 Grafana 預設使用者名稱 (admin
) 和密碼 (pass
)。我們建議您在登入後立即變更密碼。
如需詳細資訊,請參閱上的「 NetApp 收割
故障排除收穫和 Grafana
如果您遇到任何在 Harvest 和 Grafana 儀表板中提到的資料遺失,或是在使用 FSx 進行 ONTAP 設定 Harvest 和 Grafana 時遇到問題,請查看下列主題以取得潛在的解決方案。
SVM 和磁碟區儀表板為空白
如果 AWS CloudFormation 堆疊部署成功且可以聯絡 Grafana,但 SVM 和磁碟區儀表板為空白,請使用下列程序對環境進行疑難排解。您將需要 SSH 訪問 Amazon EC2 實例的收穫和 Grafana 部署在其上。
SSH 連接到您的收穫和 Grafana 客戶正在運行的 Amazon EC2 實例。
[~]$
ssh ec2-user@ec2_ip_address
使用以下命令打開
harvest.yml
文件並:驗證是否已針對 ONTAP 執行個體的 FSx 建立了一個項目。
Cluster-2
請確認使用者名稱和密碼的項目與您的認
fsxadmin
證相符。
[ec2-user@ip-
ec2_ip_address
~]$sudo cat /home/ec2-user/harvest_install/harvest/harvest.yml
-
如果密碼欄位為空白,請在編輯器中開啟檔案並使用
fsxadmin
密碼進行更新,如下所示:[ec2-user@ip-
ec2_ip_address
~]$sudo vi /home/ec2-user/harvest_install/harvest/harvest.yml
請確定
fsxadmin
使用者認證以下列格式儲存在 Secrets Manager 中,以供 future 部署之用,並以您
的密碼取代。fsxadmin_password
{"username" : "fsxadmin", "password" : "
fsxadmin_password
"}
CloudFormation 堆棧在超時後回滾
如果您無法成功部署 CloudFormation 堆疊,而且正在復原時發生錯誤,請使用下列程序來解決問題。您需要透過 SSH 存取 CloudFormation 堆疊部署的 EC2 執行個體。
重新部署 CloudFormation 堆疊,確定已停用自動復原。
-
SSH 連接到您的收穫和 Grafana 客戶正在運行的 Amazon EC2 實例。
[~]$
ssh ec2-user@ec2_ip_address
-
使用以下命令確認 docker 容器已成功啟動。
[ec2-user@ip-
ec2_ip_address
~]$sudo docker ps
在響應中,您應該看到五個容器,如下所示:
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 6b9b3f2085ef rahulguptajss/harvest "bin/poller --config…" 8 minutes ago Restarting (1) 20 seconds ago harvest_cluster-2 3cf3e3623fde rahulguptajss/harvest "bin/poller --config…" 8 minutes ago Up About a minute harvest_cluster-1 708f3b7ef6f8 grafana/grafana "/run.sh" 8 minutes ago Up 8 minutes 0.0.0.0:3000->3000/tcp harvest_grafana 0febee61cab7 prom/alertmanager "/bin/alertmanager -…" 8 minutes ago Up 8 minutes 0.0.0.0:9093->9093/tcp harvest_prometheus_alertmanager 1706d8cd5a0c prom/prometheus "/bin/prometheus --c…" 8 minutes ago Up 8 minutes 0.0.0.0:9090->9090/tcp harvest_prometheus
如果 docker 容器未運行,請按如下方式檢查
/var/log/cloud-init-output.log
文件中的故障。[ec2-user@ip-
ec2_ip_address
~]$sudo cat /var/log/cloud-init-output.log
PLAY [Manage Harvest] ********************************************************** TASK [Gathering Facts] ********************************************************* ok: [localhost] TASK [Verify images] *********************************************************** failed: [localhost] (item=prom/prometheus) => {"ansible_loop_var": "item", "changed": false, "item": "prom/prometheus", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetError(104, 'Co nnection reset by peer'))"} failed: [localhost] (item=prom/alertmanager) => {"ansible_loop_var": "item", "changed": false, "item": "prom/alertmanage r", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))"} failed: [localhost] (item=rahulguptajss/harvest) => {"ansible_loop_var": "item", "changed": false, "item": "rahulguptajs s/harvest", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetEr ror(104, 'Connection reset by peer'))"} failed: [localhost] (item=grafana/grafana) => {"ansible_loop_var": "item", "changed": false, "item": "grafana/grafana", "msg": "Error connecting: Error while fetching server API version: ('Connection aborted.', ConnectionResetError(104, 'Co nnection reset by peer'))"} PLAY RECAP ********************************************************************* localhost : ok=1 changed=0 unreachable=0 failed=1 skipped=0 rescued=0 ignored=0
如果發生故障,請執行以下命令來部署收穫和 Grafana 容器。
[ec2-user@ip-
ec2_ip_address
~]$sudo su
[ec2-user@ip-
ec2_ip_address
~]$cd /home/ec2-user/harvest_install
[ec2-user@ip-
ec2_ip_address
~]$/usr/local/bin/ansible-playbook manage_harvest.yml
[ec2-user@ip-
ec2_ip_address
~]$/usr/local/bin/ansible-playbook manage_harvest.yml --tags api
通過運行sudo docker ps並連接到您的收穫和 Grafana 網址來驗證容器成功啟動。