Amazon Managed Service for Apache Flink 之前稱為 Amazon Kinesis Data Analytics for Apache Flink。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
系統復原最佳實務
透過 Amazon Managed Service for Apache Flink 中的自動系統復原和操作可見性功能,您可以識別和解決應用程式的問題。
系統復原
如果您的應用程式更新或擴展操作因客戶錯誤而失敗,例如程式碼錯誤或許可問題,則如果您選擇加入此功能,Amazon Managed Service for Apache Flink 會自動嘗試回復至先前的執行版本。如需詳細資訊,請參閱啟用 Managed Service for Apache Flink 應用程式的系統復原。如果此自動復原失敗,或您尚未選擇加入或選擇退出,您的應用程式將進入 READY
狀態。若要更新您的應用程式,請完成下列步驟:
手動復原
如果應用程式未進行,且長時間處於暫時狀態,或者應用程式成功轉換為 Running
,但您看到下游問題,例如在成功更新的 Flink 應用程式中處理錯誤,您可以使用 RollbackApplication
手動將其復原API。
-
呼叫
RollbackApplication
- 這將還原至先前的執行版本,並還原先前的狀態。 -
使用
DescribeApplicationOperation
監控復原操作API。 -
如果復原失敗,請使用先前的系統復原步驟。
操作可見性
ListApplicationOperations
API 會顯示應用程式上所有客戶和系統操作的歷史記錄。
-
從清單中取得失敗操作operationId的 。
-
呼叫
DescribeApplicationOperation
並檢查狀態 和 statusDescription。 -
如果操作失敗,描述會指向潛在的錯誤進行調查。
常見錯誤碼錯誤:使用復原功能還原至上次運作的版本。解決錯誤並重試更新。
許可問題:使用 DescribeApplicationOperation
查看所需的許可。更新應用程式許可並重試。
Amazon Managed Service for Apache Flink 服務問題:檢查 AWS Health Dashboard 或開啟支援案例。