システムロールバックのベストプラクティス - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink は、以前は Amazon Kinesis Data Analytics for Apache Flink と呼ばれていました。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

システムロールバックのベストプラクティス

Amazon Managed Service for Apache Flink の自動システムロールバックとオペレーションの可視性機能により、アプリケーションの問題を特定して解決できます。

システムロールバック

コードバグやアクセス許可の問題などの顧客エラーが原因でアプリケーションの更新またはスケーリングオペレーションが失敗した場合、Amazon Managed Service for Apache Flink は、この機能にオプトインすると、以前の実行中のバージョンに自動的にロールバックを試みます。詳細については、「Managed Service for Apache Flink アプリケーションのシステムロールバックを有効にする」を参照してください。この自動ロールバックが失敗した場合、またはオプトインまたはオプトアウトしなかった場合、アプリケーションは READY状態になります。アプリケーションを更新するには、次の手順を実行します。

手動ロールバック

アプリケーションが進行しておらず、長期間一時的な状態である場合、またはアプリケーションが に正常に移行したがRunning、正常に更新された Flink アプリケーションで処理エラーなどのダウンストリームの問題が発生した場合は、 RollbackApplication を使用して手動でロールバックできますAPI。

  1. 呼び出し RollbackApplication - これにより、以前の実行中のバージョンに戻り、前の状態が復元されます。

  2. を使用してロールバックオペレーションをモニタリングしますDescribeApplicationOperationAPI。

  3. ロールバックが失敗した場合、前のシステムロールバックステップを使用します。

オペレーションの可視性

は、アプリケーションのすべてのカスタマーオペレーションとシステムオペレーションの履歴ListApplicationOperationsAPIを表示します。

  1. 失敗したオペレーションoperationIdの をリストから取得します。

  2. を呼び出しDescribeApplicationOperationてステータスと を確認しますstatusDescription

  3. オペレーションが失敗した場合、説明は調査する潜在的なエラーを指しています。

一般的なエラーコードのバグ: ロールバック機能を使用して、最後の動作バージョンに戻ります。バグを解決し、更新を再試行します。

アクセス許可の問題: DescribeApplicationOperationを使用して、必要なアクセス許可を確認します。アプリケーションのアクセス許可を更新して再試行します。

Amazon Managed Service for Apache Flink サービスの問題: を確認する AWS Health Dashboard か、サポートケースを開きます。