Java で KCL を使用してコンシューマーを開発する

フォーカスモード

Java で KCL を使用してコンシューマーを開発する - Amazon Kinesis Data Streams

前提条件

KCL 3.x の使用を開始する前に、以下があることを確認してください。

Java Development Kit (JDK) 8 以降
AWS SDK for Java 2.x
依存関係管理のための Maven または Gradle

KCL は、ワーカーが実行しているコンピューティングホストから CPU 使用率などの CPU 使用率メトリクスを収集して負荷のバランスを取り、ワーカー間で均等なリソース使用率レベルを実現します。KCL がワーカーから CPU 使用率メトリクスを収集できるようにするには、次の前提条件を満たす必要があります。

Amazon Elastic Compute Cloud(Amazon EC2)

オペレーティングシステムは Linux OS である必要があります。
ECIMDSv22 を有効にする必要があります。 EC2

Amazon EC2 での Amazon Elastic Container Service (Amazon ECS)

オペレーティングシステムは Linux OS である必要があります。
ECS タスクメタデータエンドポイントバージョン 4 を有効にする必要があります。
Amazon ECS コンテナエージェントのバージョンは 1.39.0 以降である必要があります。

での Amazon ECS AWS Fargate

Fargate タスクメタデータエンドポイントバージョン 4 を有効にする必要があります。Fargate プラットフォームバージョン 1.4.0 以降を使用している場合、これはデフォルトで有効になっています。
Fargate プラットフォームバージョン 1.4.0 以降。

Amazon EC2 での Amazon Elastic Kubernetes Service (Amazon EKS)

オペレーティングシステムは Linux OS である必要があります。

での Amazon EKS AWS Fargate

Fargate プラットフォーム 1.3.0 以降。

重要

KCL がワーカーから CPU 使用率メトリクスを収集できない場合、KCL はワーカーあたりのスループットを使用してリースを割り当て、フリート内のワーカー間で負荷のバランスを取ります。詳細については、「KCL がワーカーにリースを割り当て、負荷のバランスを取る方法」を参照してください。

依存関係をインストールして追加する

Maven を使用している場合は、次の依存関係を pom.xml ファイルに追加します。3.x.x を最新の KCL バージョンに置き換えてください。


<dependency>
    <groupId>software.amazon.kinesis</groupId>
    <artifactId>amazon-kinesis-client</artifactId>
    <version>3.x.x</version> <!-- Use the latest version -->
</dependency>

Gradle を使用している場合は、build.gradleファイルに以下を追加します。3.x.x を最新の KCL バージョンに置き換えてください。


implementation 'software.amazon.kinesis:amazon-kinesis-client:3.x.x'

Maven Central Repository で KCL の最新バージョンを確認できます。

コンシューマーを実装する

KCL コンシューマーアプリケーションは、次の主要なコンポーネントで構成されます。

RecordProcessor

RecordProcessor は、Kinesis データストリームレコードを処理するためのビジネスロジックが存在するコアコンポーネントです。アプリケーションが Kinesis ストリームから受信したデータを処理する方法を定義します。

主な責任：

シャードの処理を初期化する
Kinesis ストリームからのレコードのバッチを処理する
シャードのシャットダウン処理 (シャードが分割またはマージされた場合、リースが別のホストに引き渡された場合など）
チェックポイントを処理して進行状況を追跡する

実装例を次に示します。


import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.slf4j.MDC;
import software.amazon.kinesis.exceptions.InvalidStateException;
import software.amazon.kinesis.exceptions.ShutdownException;
import software.amazon.kinesis.lifecycle.events.*;
import software.amazon.kinesis.processor.ShardRecordProcessor;

public class SampleRecordProcessor implements ShardRecordProcessor {
    private static final String SHARD_ID_MDC_KEY = "ShardId";
    private static final Logger log = LoggerFactory.getLogger(SampleRecordProcessor.class);
    private String shardId;

    @Override
    public void initialize(InitializationInput initializationInput) {
        shardId = initializationInput.shardId();
        MDC.put(SHARD_ID_MDC_KEY, shardId);
        try {
            log.info("Initializing @ Sequence: {}", initializationInput.extendedSequenceNumber());
        } finally {
            MDC.remove(SHARD_ID_MDC_KEY);
        }
    }

    @Override
    public void processRecords(ProcessRecordsInput processRecordsInput) {
        MDC.put(SHARD_ID_MDC_KEY, shardId);
        try {
            log.info("Processing {} record(s)", processRecordsInput.records().size());
            processRecordsInput.records().forEach(r -> 
                log.info("Processing record pk: {} -- Seq: {}", r.partitionKey(), r.sequenceNumber())
            );
            
            // Checkpoint periodically
            processRecordsInput.checkpointer().checkpoint();
        } catch (Throwable t) {
            log.error("Caught throwable while processing records. Aborting.", t);
        } finally {
            MDC.remove(SHARD_ID_MDC_KEY);
        }
    }

    @Override
    public void leaseLost(LeaseLostInput leaseLostInput) {
        MDC.put(SHARD_ID_MDC_KEY, shardId);
        try {
            log.info("Lost lease, so terminating.");
        } finally {
            MDC.remove(SHARD_ID_MDC_KEY);
        }
    }

    @Override
    public void shardEnded(ShardEndedInput shardEndedInput) {
        MDC.put(SHARD_ID_MDC_KEY, shardId);
        try {
            log.info("Reached shard end checkpointing.");
            shardEndedInput.checkpointer().checkpoint();
        } catch (ShutdownException | InvalidStateException e) {
            log.error("Exception while checkpointing at shard end. Giving up.", e);
        } finally {
            MDC.remove(SHARD_ID_MDC_KEY);
        }
    }

    @Override
    public void shutdownRequested(ShutdownRequestedInput shutdownRequestedInput) {
        MDC.put(SHARD_ID_MDC_KEY, shardId);
        try {
            log.info("Scheduler is shutting down, checkpointing.");
            shutdownRequestedInput.checkpointer().checkpoint();
        } catch (ShutdownException | InvalidStateException e) {
            log.error("Exception while checkpointing at requested shutdown. Giving up.", e);
        } finally {
            MDC.remove(SHARD_ID_MDC_KEY);
        }
    }
}

以下は、例で使用されている各メソッドの詳細な説明です。

initialize(InitializationInput initializationInput)

目的: レコードを処理するために必要なリソースまたは状態を設定します。
呼び出されたとき: 1 回、KCL がこのレコードプロセッサにシャードを割り当てるとき。
キーポイント:
- initializationInput.shardId(): このプロセッサが処理するシャードの ID。
- initializationInput.extendedSequenceNumber(): 処理を開始するシーケンス番号。

processRecords(ProcessRecordsInput processRecordsInput)

目的: 受信レコードを処理し、オプションでチェックポイントの進行状況を処理します。
呼び出されたとき: レコードプロセッサがシャードのリースを保持している限り、繰り返します。
キーポイント:
- processRecordsInput.records(): 処理するレコードのリスト。
- processRecordsInput.checkpointer(): 進行状況のチェックポイントに使用されます。
- KCL が失敗しないように、処理中に例外を処理したことを確認してください。
- 予期しないワーカーのクラッシュや再起動前にチェックポイントされていないデータなど、一部のシナリオでは同じレコードが複数回処理される可能性があるため、この方法はべき等である必要があります。
- データの整合性を確保するために、チェックポイントの前にバッファされたデータを必ずフラッシュしてください。

leaseLost(LeaseLostInput leaseLostInput)

目的: このシャードの処理に固有のリソースをクリーンアップします。
呼び出されたとき: 別のスケジューラがこのシャードのリースを引き継ぐとき。
キーポイント:
- このメソッドではチェックポイントは許可されません。

shardEnded(ShardEndedInput shardEndedInput)

目的: このシャードとチェックポイントの処理を完了します。
呼び出されたとき: シャードが分割またはマージされると、このシャードのすべてのデータが処理されたことを示します。
キーポイント:
- shardEndedInput.checkpointer(): 最終チェックポイントを実行するために使用されます。
- 処理を完了するには、この方法のチェックポイントが必要です。
- ここでデータとチェックポイントをフラッシュしないと、シャードが再開されたときにデータが失われたり、処理が重複したりする可能性があります。

shutdownRequested(ShutdownRequestedInput shutdownRequestedInput)

目的: KCL のシャットダウン時にリソースをチェックポイントしてクリーンアップします。
呼び出されたとき: KCL がシャットダウンしているとき、たとえば、アプリケーションが終了しているとき）。
キーポイント:
- shutdownRequestedInput.checkpointer(): シャットダウン前にチェックポイントを実行するために使用されます。
- アプリケーションが停止する前に進行状況が保存されるように、メソッドにチェックポイントを実装していることを確認してください。
- ここでデータとチェックポイントをフラッシュしないと、アプリケーションの再起動時にデータの損失やレコードの再処理が発生する可能性があります。

重要

KCL 3.x では、前のワーカーがシャットダウンされる前にチェックポイントを実行して、リースが 1 つのワーカーから別のワーカーに引き渡されたときのデータ再処理が少なくなります。shutdownRequested() メソッドにチェックポイントロジックを実装しない場合、この利点は表示されません。shutdownRequested() メソッド内にチェックポイントロジックが実装されていることを確認します。

RecordProcessorFactory

RecordProcessorFactory は、新しい RecordProcessor インスタンスを作成する責任があります。KCL はこのファクトリを使用して、アプリケーションが処理する必要があるシャードごとに新しい RecordProcessor を作成します。

主な責任：

オンデマンドで新しい RecordProcessor インスタンスを作成する
各 RecordProcessor が適切に初期化されていることを確認します。

実装例を次に示します。


import software.amazon.kinesis.processor.ShardRecordProcessor;
import software.amazon.kinesis.processor.ShardRecordProcessorFactory;

public class SampleRecordProcessorFactory implements ShardRecordProcessorFactory {
    @Override
    public ShardRecordProcessor shardRecordProcessor() {
        return new SampleRecordProcessor();
    }
}

この例では、ファクトリは shardRecordProcessor() が呼び出されるたびに新しい SampleRecordProcessor を作成します。 shardRecordProcessor これを拡張して、必要な初期化ロジックを含めることができます。

スケジューラー

スケジューラは、KCL アプリケーションのすべてのアクティビティを調整する高レベルのコンポーネントです。データ処理の全体的なオーケストレーションを担当します。

主な責任：

RecordProcessors のライフサイクルを管理する
シャードのリース管理を処理する
チェックポイントの調整
アプリケーションの複数のワーカー間でシャード処理負荷のバランスをとる
正常なシャットダウンとアプリケーション終了のシグナルを処理する

スケジューラは通常、メインアプリケーションで作成および開始されます。スケジューラの実装例は、次のセクションの Main Consumer Application で確認できます。

メインコンシューマーアプリケーション

メインコンシューマーアプリケーションは、すべてのコンポーネントを結び付けます。KCL コンシューマーの設定、必要なクライアントの作成、スケジューラの設定、アプリケーションのライフサイクルの管理を担当します。

主な責任：

AWS サービスクライアントの設定 (Kinesis、DynamoDB、CloudWatch)
KCL アプリケーションを設定する
スケジューラを作成して起動する
アプリケーションのシャットダウンを処理する

実装例を次に示します。


import software.amazon.awssdk.regions.Region;
import software.amazon.awssdk.services.cloudwatch.CloudWatchAsyncClient;
import software.amazon.awssdk.services.dynamodb.DynamoDbAsyncClient;
import software.amazon.awssdk.services.kinesis.KinesisAsyncClient;
import software.amazon.kinesis.common.ConfigsBuilder;
import software.amazon.kinesis.common.KinesisClientUtil;
import software.amazon.kinesis.coordinator.Scheduler;
import java.util.UUID;

public class SampleConsumer {
    private final String streamName;
    private final Region region;
    private final KinesisAsyncClient kinesisClient;

    public SampleConsumer(String streamName, Region region) {
        this.streamName = streamName;
        this.region = region;
        this.kinesisClient = KinesisClientUtil.createKinesisAsyncClient(KinesisAsyncClient.builder().region(this.region));
    }

    public void run() {
        DynamoDbAsyncClient dynamoDbAsyncClient = DynamoDbAsyncClient.builder().region(region).build();
        CloudWatchAsyncClient cloudWatchClient = CloudWatchAsyncClient.builder().region(region).build();
        
        ConfigsBuilder configsBuilder = new ConfigsBuilder(
            streamName, 
            streamName, 
            kinesisClient, 
            dynamoDbAsyncClient,
            cloudWatchClient, 
            UUID.randomUUID().toString(), 
            new SampleRecordProcessorFactory()
        );

        Scheduler scheduler = new Scheduler(
            configsBuilder.checkpointConfig(),
            configsBuilder.coordinatorConfig(),
            configsBuilder.leaseManagementConfig(),
            configsBuilder.lifecycleConfig(),
            configsBuilder.metricsConfig(),
            configsBuilder.processorConfig(),
            configsBuilder.retrievalConfig()
        );

        Thread schedulerThread = new Thread(scheduler);
        schedulerThread.setDaemon(true);
        schedulerThread.start();
    }

    public static void main(String[] args) {
        String streamName = "your-stream-name"; // replace with your stream name
        Region region = Region.US_EAST_1; // replace with your region
        new SampleConsumer(streamName, region).run();
    }
}

KCL は、デフォルトで専用スループットを持つ拡張ファンアウト (EFO) コンシューマーを作成します。拡張ファンアウトの詳細については、「」を参照してください専用スループットで拡張ファンアウトコンシューマーを開発する。コンシューマーが 2 つ未満の場合、または 200 ミリ秒未満の読み込み伝達遅延を必要としない場合は、共有スループットコンシューマーを使用するようにスケジューラオブジェクトで次の設定を行う必要があります。


configsBuilder.retrievalConfig().retrievalSpecificConfig(new PollingConfig(streamName, kinesisClient))

次のコードは、共有スループットコンシューマーを使用するスケジューラオブジェクトを作成する例です。

インポート：


import software.amazon.kinesis.retrieval.polling.PollingConfig;

コード：


Scheduler scheduler = new Scheduler(
            configsBuilder.checkpointConfig(),
            configsBuilder.coordinatorConfig(),
            configsBuilder.leaseManagementConfig(),
            configsBuilder.lifecycleConfig(),
            configsBuilder.metricsConfig(),
            configsBuilder.processorConfig(),
            configsBuilder.retrievalConfig().retrievalSpecificConfig(new PollingConfig(streamName, kinesisClient))
        );/

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

KCL を使用してコンシューマーを開発する

Java 以外の言語で KCL を使用してコンシューマーを開発する

次のトピック

Java 以外の言語で KCL を使用してコンシューマーを開発する

前のトピック:

KCL を使用してコンシューマーを開発する

ヘルプが必要ですか?

このページの内容

このページは役に立ちましたか?

フィードバックを送信

プライバシーサイト規約 Cookie の設定

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

Java で KCL を使用してコンシューマーを開発する

前提条件

重要

依存関係をインストールして追加する

コンシューマーを実装する

主要コンポーネント

RecordProcessor

重要

RecordProcessorFactory

スケジューラー

メインコンシューマーアプリケーション

次のトピック

前のトピック:

ヘルプが必要ですか?

このページの内容

このページは役に立ちましたか?