卓越營運 - 卓越運作支柱

卓越營運

在 Amazon,我們將卓越營運視為一項承諾,致力妥善設計軟體,並持續提供絕佳的客戶體驗。其中包括組織團隊、設計工作負載、大規模運作工作負載及促使其進化的最佳實務。卓越營運可協助您的團隊專心設計對客戶有利的新功能,避免將時間耗費在維護與緊急應變上。為了正確設計,我們依循相關最佳實務,為您與團隊造就妥善運作的系統、平衡的工作負載,且最重要的是,為客戶創造絕佳體驗。

卓越營運的目標是要快速且可靠地為客戶提供新功能和錯誤修正。持續投入卓越營運的組織不僅可滿足其客戶,同時也能打造新功能、勇於改變,並且積極面對失敗。在此過程中,卓越營運可協助開發人員持續達成高品質的成果,進而實現持續整合與持續交付 (CI/CD)。

設計原則

下列設計原則有助於實現雲端中的卓越營運:

  • 圍繞業務成果組織團隊:團隊實現業務成果的能力來自於領導力願景、高效運營以及與業務保持一致的運營模式。領導力應該充分投入,並致力於使用合適的雲端作業模式進行 CloudOps 轉型,以鼓勵團隊以最有效的方式營運並達成業務成果。正確的營運模式會利用人員、流程和技術能力來擴展、最佳化生產力,並透過敏捷性、回應性和適應性來實現差異化。組織的長期願景轉化為目標,並在整個企業內傳達給雲端服務的利益相關者和消費者。目標和營運 KPI 在各個層面都一致。這種做法維持了實作下列設計原則所帶來的長期價值。

  • 實作可觀測性以獲得可採取行動的見解:全面了解工作負載的行為、效能、可靠性、成本和運作狀態。建立關鍵績效指標 (KPI),並利用可觀測性遙測來做出明智的決策,並在業務成果有風險時迅速採取行動。根據可採取行動的可觀測性資料,主動改善效能、可靠性和成本。

  • 盡可能安全地自動化:在雲端,您可以在整個環境中套用與您應用程式程式碼所用相同的工程原則。可以將整個工作負載及其操作 (應用程式、基礎設施、組態和程序) 定義為程式碼,然後進行更新。然後,可以透過回應事件來啟動工作負載操作,從而將其自動化。在雲端中,可以透過設定防護機制來採用自動化安全性,包括速率控制、錯誤閾值和核准。透過有效的自動化,可以實現對事件的一致回應,限制人為錯誤並減少操作員的辛勞。

  • 進行頻繁、細微和可逆的變更:設計可擴展且鬆散耦合的工作負載以允許定期更新元件。自動化部署技術加上較細微的增量變更可縮減影響範圍,並在發生故障時更快地反轉情況。這增加了信心,可以為您的工作負載提供有益的變化,同時保持品質並快速適應市場情況的變化。

  • 經常改進營運程序:隨著工作負載的進化,適當地發展您的營運。在使用營運程序時,尋找機會予以改善。定期審查並驗證所有程序是否有效以及團隊是否熟悉這些程序。如果發現差距,請相應地更新程序。向所有利益相關者和團隊傳達程序更新。將營運遊戲化以分享最佳實務並教導團隊。

  • 預料失敗:透過推動故障情境來了解工作負載的風險狀況及其對業務成果的影響,從而最大程度提高營運成功率。針對這些模擬失敗,測試程序的有效性和團隊的回應。制定明智的決策,以管理您的測試所識別的開放式風險。

  • 從所有營運事件和指標中學習:透過從所有營運事件和失敗中學習的經驗來推動改進。跨團隊及在整個組織中分享獲得的經驗。學習應強調有關營運如何為業務成果做出貢獻的資料和軼事。

  • 使用受管服務:盡可能地使用 AWS 受管服務以降低營運負擔。圍繞與這些服務的互動建置營運程序。

定義

雲端有四種最佳實務領域可實現卓越營運:

  • 組織

  • 準備

  • 營運

  • 演進

組織的領導階層定義業務目標。您的組織必須了解需求和優先順序,並使用這些來組織和執行工作以支援業務成果的實現。您的工作負載必須提供支援工作負載所需的資訊。透過自動化重複程序的方式,實作啟用整合、部署及交付工作負載的服務將讓生產享有更多有利的變更。

工作負載的操作本質上就可能存在著風險。您必須了解這些風險,並做出明智的決策才能進入生產階段。您的團隊必須能夠支援您的工作負載。從所需業務成果衍生的業務和營運指標,將協助您了解工作負載的運作狀態、營運活動,並回應事件。您的優先事項會隨著業務需求和業務環境的變化而改變。運用這些方面做為回饋迴圈,以持續改善貴組織和工作負載的運作。