Amazon EC2 執行個體的狀態檢查 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon EC2 執行個體的狀態檢查

透過執行個體狀態監控,您可以快速判斷 Amazon 是EC2否偵測到任何可能導致執行個體無法執行應用程式的問題。Amazon EC2 對每個執行中的執行個體執行自動化檢查,以識別硬體和軟體問題。EC2您可以檢視這些狀態檢查的結果,以找出特定及可偵測的問題。事件狀態資料可增強 Amazon EC2 已提供的有關每個執行個體狀態的資訊 (例如pendingrunningstopping) 以及 Amazon CloudWatch 監控的使用率指標 (CPU使用率、網路流量和磁碟活動)。

狀態檢查會每分鐘執行一次,並會傳回通過或失敗狀態。如果所有檢查都通過,執行個體的整體狀態即為 OK (正常)。若一或多個檢查失敗,整體狀態便會是 impaired (故障)。狀態檢查內建於 Amazon 中EC2,因此無法停用或刪除它們。

當狀態檢查失敗時,狀態檢查的對應 CloudWatch 測量結果就會增加。如需詳細資訊,請參閱狀態檢查指標。您可以使用這些指標來建立根據狀態檢查結果觸發的 CloudWatch警示。例如,您可以建立警示,在狀態檢查於特定執行個體上失敗時警告您。如需詳細資訊,請參閱為失敗狀態檢查的 Amazon EC2 執行個體建立 CloudWatch 警示

您也可以建立 Amazon CloudWatch 警示來監控 Amazon 執行個體,並在EC2執行個體因潛在問題而受損時自動復原該執行個體。如需詳細資訊,請參閱執行個體彈性

狀態檢查類型

有三種類型的狀態檢查。

系統狀態檢查

系統狀態檢查會監控執行個體執行的 AWS 系統。這些檢查會偵測您執行個體需要 AWS 介入修復的基礎問題。系統狀態檢查失敗時,您可以選擇等 AWS 待修正問題,也可以自行解決。對於 Amazon 支援的執行個體EBS,您可以自行停止和啟動執行個體,這在大多數情況下會導致執行個體遷移到新主機。針對執行個體存放區支援的 Linux 執行個體,您可以終止並取代執行個體。對於 Windows 執行個體,根磁碟區必須是 Amazon EBS 磁碟區;根磁碟區不支援執行個體存放區。請注意,執行個體存放區是暫時的,當執行個體停止時,所有資料都會丟失。

下列為可能導致系統狀態檢查失敗的問題範例:

  • 網路連線中斷

  • 系統電力中斷

  • 實體主機的軟體問題

  • 實體主機上會影響網路連線的硬體問題

如果系統狀態檢查失敗,我們會增加 StatusCheckFailed_System 量度。

裸機執行個體

如果您在裸機執行個體上從作業系統執行重新啟動,則系統狀態檢查可能會暫時傳回失敗狀態。當執行個體變得可用時,系統狀態檢查應傳回通過狀態。

執行個體狀態檢查

Instance status checks (執行個體狀態檢查) 監控個別執行個體的軟體和網路組態。Amazon EC2 會將地址解析通訊協定 (ARP) 請求傳送至網路界面 (NIC),以檢查執行個體的運作狀態。這些檢查會偵測需要您介入修復的問題。當執行個體狀態檢查失敗時,通常您需要自行處理問題 (例如重新開機執行個體或對執行個體的組態進行變更)。

注意

最近用systemd-networkd於網路配置的 Linux 發行版可能會與早期發行版不同,報告健康狀態檢查的報告。在開機程序期間,這種類型的網路可能會提前啟動,並且可能會在其他也會影響執行個體健康狀態的啟動工作之前完成。依賴網路可用性的狀態檢查可在其他工作完成之前報告狀況良好的狀態。

下列為可能導致執行個體狀態檢查失敗的問題範例:

  • 系統狀態檢查失敗

  • 網路或啟動組態不正確

  • 記憶體用盡

  • 檔案系統毀損

  • 核心不相容

  • [Windows 執行個體] 在執行個體重新啟動期間或搭配 Windows 執行個體存放區支援的執行個體時,執行個體狀態檢查會報告失敗,直到執行個體再次可用為止。

如果執行個體狀態檢查失敗,我們會增加 StatusCheckFailed_Instance 量度。

裸機執行個體

如果您在裸機執行個體上從作業系統執行重新啟動,則執行個體狀態檢查可能會暫時傳回失敗狀態。當執行個體變得可用時,執行個體狀態檢查應傳回通過狀態。

附加EBS狀態檢查

附加EBS狀態檢查會監控連接至執行個體的 Amazon EBS 磁碟區是否可存取,以及是否能夠完成 I/O 操作。此StatusCheckFailed_AttachedEBS測量結果是二進位值,表示連接至執行個體的一或多個EBS磁碟區無法完成 I/O 作業時會造成損害。這些狀態檢查可偵測運算或 Amazon 基EBS礎設施的潛在問題。當連接的EBS狀態檢查指標失敗時,您可以等待 AWS 解決問題,也可以採取動作,例如更換受影響的磁碟區或停止再重新啟動執行個體。

以下是可能導致附加EBS狀態檢查失敗的問題範例:

  • 磁碟區底層儲存子系統上的硬體或軟體問題 EBS

  • 影響磁碟區可連接性的實體主機上的硬體問題 EBS

  • 執行個體和EBS磁碟區之間的連線問題

可以使用 StatusCheckFailed_AttachedEBS 指標來協助改善工作負載的彈性。您可以使用此指標建立根據狀態檢查結果觸發的 Amazon CloudWatch 警示。例如,偵測到長期影響時,可容錯移轉至次要執行個體或可用區域。或者,您可以使用EBS CloudWatch 指標來偵測和更換受損的磁碟區,監控每個連接磁碟區的 I/O 效能。如果您的工作負載並未驅動連接至執行個體的任何EBS磁碟區的 I/O,且連接EBS狀態檢查顯示有損壞,您可以停止並啟動執行個體,以解決影響磁碟區可達性的實體主機的問題。EBS如需詳細資訊,請參閱 Amazon 的 Amazon CloudWatch 指標EBS

您也可以設定 Amazon EC2 Auto Scaling 群組以偵測連接的EBS狀態檢查失敗,然後將受影響的執行個體取代為新的執行個體。如需詳細資訊,請參閱 Amazon Auto Scaling 使用者指南中的監控和替換為受損的 Amazon EBS 磁碟區的 EC2 Auto Scaling 執個體。

注意

附加的EBS狀態檢查指標僅適用於 Nitro 實例。