系統復原最佳實務 - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink 之前稱為 Amazon Kinesis Data Analytics for Apache Flink。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

系統復原最佳實務

透過 Amazon Managed Service for Apache Flink 中的自動系統復原和操作可見性功能,您可以識別和解決應用程式的問題。

系統復原

如果您的應用程式更新或擴展操作因客戶錯誤而失敗,例如程式碼錯誤或許可問題,則如果您選擇加入此功能,Amazon Managed Service for Apache Flink 會自動嘗試回復至先前的執行版本。如需詳細資訊,請參閱啟用 Managed Service for Apache Flink 應用程式的系統復原。如果此自動復原失敗,或您尚未選擇加入或選擇退出,您的應用程式將進入 READY 狀態。若要更新您的應用程式,請完成下列步驟:

手動復原

如果應用程式未進行,且長時間處於暫時狀態,或者應用程式成功轉換為 Running,但您看到下游問題,例如在成功更新的 Flink 應用程式中處理錯誤,您可以使用 RollbackApplication 手動將其復原API。

  1. 呼叫 RollbackApplication - 這將還原至先前的執行版本,並還原先前的狀態。

  2. 使用 DescribeApplicationOperation 監控復原操作API。

  3. 如果復原失敗,請使用先前的系統復原步驟。

操作可見性

ListApplicationOperations API 會顯示應用程式上所有客戶和系統操作的歷史記錄。

  1. 從清單中取得失敗操作operationId的 。

  2. 呼叫DescribeApplicationOperation並檢查狀態 和 statusDescription

  3. 如果操作失敗,描述會指向潛在的錯誤進行調查。

常見錯誤碼錯誤:使用復原功能還原至上次運作的版本。解決錯誤並重試更新。

許可問題:使用 DescribeApplicationOperation 查看所需的許可。更新應用程式許可並重試。

Amazon Managed Service for Apache Flink 服務問題:檢查 AWS Health Dashboard 或開啟支援案例。