Amazon Managed Service for Apache Flink は、以前は Amazon Kinesis Data Analytics for Apache Flink と呼ばれていました。
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
このセクションでは、Python とテーブル API を使用した Apache Flink 向けマネージドサービスの基本概念を紹介します。アプリケーションの作成とテストに使用できるオプションについて説明します。また、このガイドのチュートリアルを完了し、初めてアプリケーションを作成するのに必要なツールのインストール方法についても説明します。
トピック
Managed Service for Apache Flink アプリケーションのコンポーネントを確認する
注記
Amazon Managed Service for Apache Flink は、すべての Apache Flink APIs
データを処理するために、Managed Service for Apache Flink アプリケーションは Python スクリプトを使用して、入力を処理し、Apache Flink ランタイムを使用して出力を生成するデータフローを定義します。
一般的な Managed Service for Apache Flink アプリケーションには、次のコンポーネントがあります。
-
「ランタイムプロパティ:」「ランタイムプロパティ」を使用すると、アプリケーションコードを再コンパイルせずにアプリケーションを設定できます。
-
ソース: アプリケーションは 1 つ以上のソースからのデータを消費します。ソースはコネクタ
を使用して、Kinesis データストリームや Amazon MSK トピックなどの外部システムからデータを読み込みます。特別なコネクタを使用して、アプリケーション内からデータを生成することもできます。SQL を使用する場合、アプリケーションはソースをソーステーブルとして定義します。 -
変換: アプリケーションは、データをフィルタリング、強化、または集計できる 1 つ以上の変換を使用してデータを処理します。SQL を使用する場合、アプリケーションは変換を SQL クエリとして定義します。
-
シンク: アプリケーションは、シンクを介して外部ソースにデータを送信します。シンクはコネクタ
を使用して、Kinesis データストリーム、Amazon MSK トピック、Amazon S3 バケット、リレーショナルデータベースなどの外部システムにデータを送信します。特別なコネクタを使用して、開発目的で出力を印刷することもできます。SQL を使用する場合、アプリケーションはシンクを結果を挿入するシンクテーブルとして定義します。詳細については、「Managed Service for Apache Flink でシンクを使用してデータを書き込む」を参照してください。
Python アプリケーションでは、追加の Python ライブラリやアプリケーションが使用する Flink コネクタなどの外部依存関係が必要になる場合もあります。アプリケーションをパッケージ化するときは、アプリケーションに必要なすべての依存関係を含める必要があります。このチュートリアルでは、コネクタの依存関係を含める方法と、Amazon Managed Service for Apache Flink にデプロイするためにアプリケーションをパッケージ化する方法について説明します。
前提条件を満たす
このチュートリアルを完了するには、以下が必要です。
-
Python 3.11、できれば VirtualEnv (venv)
、Conda 、Miniconda などのスタンドアロン環境を使用します。 -
Git クライアント
- Git クライアントをまだインストールしていない場合はインストールします。 -
Java Development Kit (JDK) バージョン 11
- Java JDK 11 をインストールし、インストール場所を指すように JAVA_HOME
環境変数を設定します。JDK 11 がない場合は、 Amazon Correttoまたは任意の標準の JDK を使用できます。-
JDK が正しくインストールされていることを確認するには、次のコマンドを実行します。Amazon Corretto 11 以外の JDK を使用している場合、出力は異なります。バージョンが 11.x であることを確認します。
$ java --version openjdk 11.0.23 2024-04-16 LTS OpenJDK Runtime Environment Corretto-11.0.23.9.1 (build 11.0.23+9-LTS) OpenJDK 64-Bit Server VM Corretto-11.0.23.9.1 (build 11.0.23+9-LTS, mixed mode)
-
-
Apache Maven
- まだインストールしていない場合は、Apache Maven をインストールします。詳細については、「Apache Maven のインストール 」を参照してください。 -
Apache Maven のインストールをテストするには、次のコマンドを使用します。
$ mvn -version
-
注記
アプリケーションは Python で記述されていますが、Apache Flink は Java 仮想マシン (JVM) で実行されます。Kinesis コネクタなどのほとんどの依存関係を JAR ファイルとして配布します。これらの依存関係を管理し、アプリケーションを ZIP ファイルにパッケージ化するには、Apache Maven
警告
ローカル開発には Python 3.11 を使用することをお勧めします。これは、Flink ランタイム 1.19 で Amazon Managed Service for Apache Flink で使用されるのと同じ Python バージョンです。
Python Flink ライブラリ 1.19 を Python 3.12 にインストールすると、失敗する可能性があります。
マシンにデフォルトで別の Python バージョンがインストールされている場合は、Python 3.11 を使用して VirtualEnv などのスタンドアロン環境を作成することをお勧めします。
ローカル開発用の IDE
PyCharm
次に、 の最初の 2 つのステップを完了しますAmazon Managed Service for Apache Flink (DataStream API) の使用を開始する。
開始するには、「 アプリケーションの作成」を参照してください。