REL05-BP04 快速檢錯和限制佇列 - AWS Well-Architected 架構

REL05-BP04 快速檢錯和限制佇列

在服務無法成功回應請求時快速檢錯。如此將可釋出與請求關聯的資源,並且使服務可在資源用盡時復原。快速檢錯是一種完善的軟體設計模式,可用來在雲端中建置高度可靠的工作負載。佇列也是一種完善的企業整合模式,可以平滑負載,並且讓用戶端在可容忍非同步處理時釋出資源。如果服務在正常情況下能夠成功回應,但在請求速率太高時會失敗,請使用佇列來緩衝請求。不過,請勿允許建置長佇列積存,這可能導致用戶端已放棄的過時請求受到處理。

預期成果:當系統遇到資源爭用、逾時、例外狀況或灰色失敗而使服務水準目標無法達成時,快速檢錯的策略可加快系統復原速度。必須吸納流量尖峰且能支應非同步處理的系統,可讓用戶端使用佇列緩衝處理後端服務的請求以快速釋出請求,藉此提升可靠性。緩衝處理要排入佇列的請求時,會實作佇列管理策略,以避免發生無法克服的積存。

常見的反模式:

  • 在 DLQ 磁碟區上實作訊息佇列,但不設定無效字母佇列 (DLQ) 或警示,以偵測系統失敗。

  • 未測量訊息在佇列中的存留期,這是一種延遲測量,用以了解佇列取用者何時進度落後或發生錯誤導致重試。

  • 當處理這些訊息沒有任何價值,且業務需求已不存在時,未清除佇列中已積存的訊息。

  • 在後進先出 (LIFO) 佇列可更妥善地滿足用戶端需求時設定了先進先出 (FIFO) 佇列,例如,當不需要嚴格排序,以及積存處理延遲了所有新的和時間敏感的請求,導致所有用戶端都經歷違反服務水準的狀況。

  • 將內部佇列公開給用戶端,而不是公開管理工作接受以及將請求放入內部佇列的 API。

  • 藉由將資源需求分攤到不同請求型態,將過多的工作請求類型合併到可能加劇積存條件的單一佇列中。

  • 儘管需要不同的監控、逾時和資源分配,仍在同一佇列中處理複雜而簡單的請求。

  • 不驗證輸入或使用判斷提示在軟體中實作快速檢錯的機制,以對可用正常程序處理錯誤的較高層級元件快顯例外狀況。

  • 不會從請求路由中移除錯誤的資源,特別是在失敗處於灰色地帶,因損毀和重新啟動、間歇性相依性失敗、容量減少或網路封包遺失而導致成功與失敗並存。

建立此最佳實務的優勢:快速檢錯的系統更容易偵錯和修正,並且在發布至生產環境之前,常會出現編碼和組態方面的問題。納入有效佇列策略的系統,可針對流量尖峰和間歇性系統失敗狀況提供更高的恢復能力和可靠性。

未建立此最佳實務時的曝險等級:

實作指引

快速檢錯的策略可以編碼為軟體解決方案,並設定到基礎設施中。除了快速檢錯以外,佇列也是一種簡單而強大的架構技術,可將系統元件平滑負載分離。Amazon CloudWatch 提供監控失敗和發出相關警示的功能。已知系統失敗時,可以調用緩解策略,包括背離受損的資源。當系統使用 Amazon SQS 和其他佇列技術來實作佇列以平滑負載時,必須考量如何管理佇列積存以及訊息取用失敗。

實作步驟

  • 在軟體中實作程式化判斷提示或特定指標,並使用這些提示或指標來明確提醒系統問題。Amazon CloudWatch 可協助您根據應用程式日誌模式和 SDK 檢測來建立指標及提醒。

  • 使用 CloudWatch 指標和警示背離受損的資源,這些資源會增加處理的延遲,或持續無法處理請求。

  • 藉由設計 API 使用非同步處理來接受請求,並使用 Amazon SQS 將請求附加到內部佇列,然後透過成功訊息回應產生訊息的用戶端,讓用戶端可以釋出資源並繼續進行其他工作,同時讓後端佇列取用者處理請求。

  • 藉由比較現在時間與訊息時間戳記,在每次從佇列中取出訊息時產生 CloudWatch 指標,來測量和監控佇列處理延遲。

  • 因失敗而無法成功處理訊息,或無法在服務水準協議內處理磁碟區中的流量尖峰時,請將較舊或過多的流量排除至溢滿佇列。這可讓您優先處理新工作,並且等到有可用的容量時再處理較舊的工作。這種技術類似於 LIFO 處理,方便對所有新工作進行正常的系統處理。

  • 使用無效字母或重新驅動佇列,將無法處理的訊息從積存移到可稍後再研究和解析的位置

  • 進行重試,或在可接受的情況下,藉由比較目前時間與訊息時間戳記,捨棄與請求用戶端不再相關的訊息,將舊訊息捨棄。

資源

相關的最佳實務:

相關文件:

相關範例:

相關影片:

相關工具: