Acerca de KCL (versiones anteriores)Versiones anteriores de KCL Conceptos de KCL (versiones anteriores)Usar una tabla de arrendamiento para realizar el seguimiento de las particiones procesadas por la aplicación de consumo de KCL Procesar varios flujos de datos con el mismo KCL 2.x para aplicaciones de consumo de Java Utilice la KCL con AWS Glue Schema Registry

Información sobre KCL 1.x y 2.x

importante

Las versiones 1.x y 2.x de la biblioteca de clientes de Amazon Kinesis (KCL) están obsoletas. KCL 1.x dejará de recibir asistencia el 30 de enero de 2026. Recomendamos que migre las aplicaciones de KCL que utilizan la versión 1.x a la última versión de KCL antes del 30 de enero de 2026. Para encontrar la versión más reciente de KCL, consulte la página de la biblioteca de clientes de Amazon Kinesis en. GitHub Para obtener información sobre las versiones más recientes de KCL, consulte Uso de Kinesis Client Library. Para obtener información sobre cómo migrar de KCL 1.x a KCL 3.x, consulte Migración de KCL 1.x a KCL 3.x.

Uno de los métodos para desarrollar aplicaciones de consumo personalizadas que puedan procesar datos de flujos de datos de KDS consiste en utilizar Kinesis Client Library (KCL).

Temas

Acerca de KCL (versiones anteriores)
Versiones anteriores de KCL
Conceptos de KCL (versiones anteriores)
Usar una tabla de arrendamiento para realizar el seguimiento de las particiones procesadas por la aplicación de consumo de KCL
Procesar varios flujos de datos con el mismo KCL 2.x para aplicaciones de consumo de Java
Utilice la KCL con AWS Glue Schema Registry

nota

Se recomienda actualizar a la última versión tanto KCL 1.x como KCL 2.x, según el escenario de uso. Tanto KCL 1.x como KCL 2.x se actualizan periódicamente con versiones más recientes que incluyen las últimas revisiones de dependencia y seguridad, correcciones de errores y nuevas características compatibles con versiones anteriores. Para obtener más información, consulte https://github.com/awslabs/amazon-kinesis-client/releases.

Acerca de KCL (versiones anteriores)

KCL ayuda a consumir y procesar los datos de un flujo de datos de Kinesis, ya que se encarga de muchas de las tareas complejas asociadas a la computación distribuida. Estas incluyen equilibrar la carga entre varias instancias de aplicaciones de consumo, responder a los errores de las instancias de aplicaciones de consumo, comprobar los registros procesados y reaccionar ante la repartición. KCL se encarga de todas estas subtareas para que pueda centrar sus esfuerzos en escribir una lógica de procesamiento de registros personalizada.

KCL es diferente de las API de Kinesis Data Streams que están disponibles en los SDK de AWS . La API de Kinesis Data Streams le ayuda a administrar numerosos aspectos de Kinesis Data Streams (como la creación de flujos, la repartición y la inserción y obtención de registros). KCL proporciona una capa de abstracción en torno a todas estas subtareas, específicamente para que pueda centrarse en la lógica de procesamiento de datos personalizada de su aplicación de consumo. Para obtener información sobre la API de Kinesis Data Streams, consulte la referencia de la API de Amazon Kinesis.

importante

KCL es una biblioteca de Java. El soporte para lenguajes distintos de Java se proporciona mediante una interfaz multilingüe llamada MultiLangDaemon. Este daemon funciona Java-based y se ejecuta en segundo plano cuando se utiliza un lenguaje KCL distinto de Java. Por ejemplo, si instala el KCL para Python y escribe su aplicación de consumo completamente en Python, seguirá necesitando instalar Java en su sistema debido a la MultiLangDaemon. Además, MultiLangDaemon tiene algunos ajustes predeterminados que puede que necesites personalizar para tu caso de uso, por ejemplo, la AWS región a la que se conecta. Para obtener más información MultiLangDaemon sobre esto GitHub, consulte el MultiLangDaemon proyecto KCL.

KCL ejerce de intermediaria entre su lógica de procesamiento de registros y Kinesis Data Streams.

Versiones anteriores de KCL

Actualmente, puede utilizar cualquiera de las siguientes versiones compatibles de KCL para crear sus aplicaciones de consumo personalizadas:

KCL 1.x

Para obtener más información, consulte Desarrollar consumidores de KCL 1.x
KCL 2.x

Para obtener más información, consulte Desarrollar consumidores de KCL 2.x

Puede usar KCL 1.x o KCL 2.x para crear aplicaciones de consumo que utilicen un rendimiento compartido. Para obtener más información, consulte Desarrollar consumidores personalizados con rendimiento compartido mediante KCL.

Para crear aplicaciones de consumo que utilicen un rendimiento dedicado (consumidores con distribución mejorada), solo puede utilizar KCL 2.x. Para obtener más información, consulte Desarrollo de consumidores de distribución ramificada mejorada con rendimiento dedicado.

Para obtener información sobre las diferencias entre KCL 1.x y KCL 2.x e instrucciones sobre cómo migrar de KCL 1.x a KCL 2.x, consulte Migrar consumidores de KCL 1.x a KCL 2.x.

Conceptos de KCL (versiones anteriores)

Aplicación para consumidores de KCL: una aplicación creada a medida con KCL y diseñada para leer y procesar registros de flujos de datos.
Instancia de aplicación de consumo: las aplicaciones de consumo de KCL suelen estar distribuidas y una o más instancias de aplicación se ejecutan simultáneamente para coordinar los fallos y equilibrar la carga de forma dinámica del procesamiento de registro de datos.
Proceso de trabajo: clase de alto nivel que utiliza una instancia de aplicación de consumo de KCL para empezar a procesar datos.

importante
Cada instancia de aplicación de consumo de KCL tiene un proceso de trabajo.

El proceso de trabajo inicializa y supervisa diversas tareas, como la sincronización de la información sobre los arrendamientos y las particiones, el seguimiento de las asignaciones de las particiones y el procesamiento de los datos de las particiones. Un trabajador proporciona a KCL la información de configuración de la aplicación de consumo, como el nombre del flujo de datos cuyos registros de datos va a procesar la aplicación de consumo de KCL y las AWS credenciales necesarias para acceder a este flujo de datos. El proceso de trabajo también pone en marcha esa instancia específica de la aplicación de consumo de KCL para entregar los registros de datos del flujo de datos a los procesadores de registros.

importante
En KCL 1.x, esta clase se denomina Proceso de trabajo. Para obtener más información (estos son los repositorios KCL de Java), consulte. https://github.com/awslabs/amazon-kinesis-client/blob/v1.x/src/main/java/com/amazonaws/services/kinesis/clientlibrary/lib/worker/Worker.java En KCL 2.x, esta clase se denomina Programador. El propósito del programador en KCL 2.x es idéntico al propósito del proceso de trabajo en KCL 1.x. Para obtener más información sobre la clase Scheduler en KCL 2.x, consulte. https://github.com/awslabs/amazon-kinesis-client/blob/master/amazon-kinesis-client/src/main/java/software/amazon/kinesis/coordinator/Scheduler.java
Arrendamiento: datos que definen el enlace entre un proceso de trabajo y una partición. Las aplicaciones de consumo distribuidas de KCL utilizan los arrendamientos para dividir el procesamiento de registros de datos entre una flota de procesos de trabajo. En un momento dado, cada partición de registros de datos está vinculada a un proceso de trabajo en particular mediante un arrendamiento identificado por la variable leaseKey.

De forma predeterminada, un trabajador puede tener uno o más contratos de arrendamiento (sujetos al valor de la LeasesForWorker variable max) al mismo tiempo.

importante
Cada proceso de trabajo competirá por tener todos los arrendamientos disponibles para todas las particiones disponibles en un flujo de datos. Sin embargo, solo un proceso de trabajo podrá mantener satisfactoriamente cada arrendamiento a la vez.

Por ejemplo, si tiene una instancia de aplicación de consumo A con el proceso de trabajo A que procesa un flujo de datos con 4 particiones, el proceso de trabajo A puede retener los arrendamientos de las particiones 1, 2, 3 y 4 al mismo tiempo. Sin embargo, si tiene dos instancias de aplicaciones de consumo: A y B con el proceso de trabajo A y el proceso de trabajo B, y estas instancias procesan un flujo de datos con 4 particiones, el proceso de trabajo A y el proceso de trabajo B no pueden retener el arrendamiento de la partición 1 al mismo tiempo. Un proceso de trabajo retiene el arrendamiento de una partición concreta hasta que esté listo para dejar de procesar los registros de datos de esta partición o hasta que falle. Cuando un proceso de trabajo deja de ser titular del arrendamiento, otro proceso de trabajo lo acepta y lo retiene.

Para obtener más información (estos son los repositorios KCL de Java), consulte https://github.com/awslabs/amazon-kinesis-client/blob/v1.x/src/main/java/com/amazonaws/services/kinesis/leases/impl/Lease.javaKCL 1.x y KCL 2.x. https://github.com/awslabs/amazon-kinesis-client/blob/master/amazon-kinesis-client/src/main/java/software/amazon/kinesis/leases/Lease.java
Tabla de arrendamiento: una tabla exclusiva de Amazon DynamoDB que se utiliza para realizar un seguimiento de las particiones de un flujo de datos de KDS que los procesos de trabajo de la aplicación de consumo de KCL están arrendando y procesando. La tabla de arrendamiento debe permanecer sincronizada (dentro de un proceso de trabajo y entre todos los procesos de trabajo) con la información más reciente sobre las particiones del flujo de datos mientras se ejecuta la aplicación de consumo de KCL. Para obtener más información, consulte Usar una tabla de arrendamiento para realizar el seguimiento de las particiones procesadas por la aplicación de consumo de KCL.
Procesador de registros: lógica que define la forma en que su aplicación de consumo de KCL procesa los datos que obtiene de los flujos de datos. En tiempo de ejecución, una instancia de una aplicación de consumo de KCL crea una instancia de un proceso de trabajo, y este proceso de trabajo crea una instancia de un procesador de registros por cada partición que tiene en arrendamiento.

Usar una tabla de arrendamiento para realizar el seguimiento de las particiones procesadas por la aplicación de consumo de KCL

Temas

Qué es una tabla de arrendamiento
Rendimiento
Cómo se sincroniza una tabla de arrendamiento con las particiones de Kinesis Data Streams

Qué es una tabla de arrendamiento

Para cada aplicación de Amazon Kinesis Data Streams, KCL utiliza una tabla de arrendamiento única (almacenada en una tabla de Amazon DynamoDB) para realizar un seguimiento de las particiones de un flujo de datos de KDS que los procesos de trabajo de la aplicación de consumo de KCL están arrendando y procesando.

importante

KCL utiliza el nombre de la aplicación de consumo para crear el nombre de la tabla de arrendamiento que utiliza esta aplicación de consumo, por lo que el nombre de cada aplicación de consumo debe ser único.

Puede consultar la tabla con la consola de Amazon DynamoDB mientras se ejecuta la aplicación de consumo.

Si la tabla de arrendamiento de la aplicación de consumo de KCL no existe cuando se inicia la aplicación, uno de los procesos de trabajo crea la tabla de arrendamiento para esta aplicación.

importante

Se le realizará el cobro de los costos de su cuenta asociados a la tabla de DynamoDB, además de los costos propios asociados a Kinesis Data Streams.

Cada fila de la tabla de arrendamiento representa una partición que procesan los procesos de trabajo de la aplicación de consumo. Si la aplicación de consumo de KCL procesa solo un flujo de datos, la leaseKey que es la clave hash de la tabla de arrendamiento será el identificador de la partición. Si es Procesar varios flujos de datos con el mismo KCL 2.x para aplicaciones de consumo de Java, la estructura de leaseKey tendrá el siguiente aspecto: account-id:StreamName:streamCreationTimestamp:ShardId. Por ejemplo, 111111111:multiStreamTest-1:12345:shardId-000000000336.

Además de la ID del fragmento, cada fila incluye también los siguientes datos:

checkpoint: el número secuencial de punto de comprobación más reciente del fragmento. Este valor es único en todas las particiones del flujo de datos.
punto de controlSubSequenceNumber: cuando se utiliza la función de agregación de la biblioteca de productores de Kinesis, se trata de una extensión del punto de control que rastrea los registros de los usuarios individuales dentro del registro de Kinesis.
leaseCounter: se utiliza para el control de versiones de las asignaciones, de modo que los procesos de trabajo puedan detectar que su asignación ha sido utilizada por otro proceso de trabajo.
leaseKey: un identificador único para una asignación. Cada arrendamiento es específico de una partición del flujo de datos y solo lo retiene un proceso de trabajo cada vez.
leaseOwner: el proceso de trabajo que tiene esta asignación.
propietarioSwitchesSinceCheckpoint: cuántas veces este contrato de arrendamiento ha cambiado de trabajadores desde la última vez que se emitió un punto de control.
padreShardId: se usa para garantizar que el fragmento principal se procese por completo antes de que comience el procesamiento en los fragmentos secundarios. Así, se garantiza que los registros se procesen en el mismo orden en el que se introdujeron en la secuencia.
hashrange: lo utiliza PeriodicShardSyncManager para ejecutar sincronizaciones periódicas para encontrar las particiones que faltan en la tabla de arrendamiento y crear arrendamientos para ellas si es necesario.

nota
Estos datos están presentes en la tabla de arrendamiento de todas las particiones a partir de KCL 1.14 y KCL 2.3. Para obtener más información sobre PeriodicShardSyncManager y la sincronización periódica entre los arrendamientos y las particiones, consulte Cómo se sincroniza una tabla de arrendamiento con las particiones de Kinesis Data Streams.
childshards: lo utiliza LeaseCleanupManager para revisar el estado de procesamiento de la partición secundaria y decidir si la partición principal se puede eliminar de la tabla de arrendamiento.

nota
Estos datos están presentes en la tabla de arrendamiento de todas las particiones a partir de KCL 1.14 y KCL 2.3.
shardID: ID de la partición.

nota
Estos datos solo están presentes en la tabla de arrendamiento si es Procesar varios flujos de datos con el mismo KCL 2.x para aplicaciones de consumo de Java. Esto solo se admite en KCL 2.x para Java, a partir de KCL 2.3 para Java y versiones posteriores.
nombre del flujo El identificador del flujo de datos en el siguiente formato: account-id:StreamName:streamCreationTimestamp.

nota
Estos datos solo están presentes en la tabla de arrendamiento si se dedica al Procesar varios flujos de datos con el mismo KCL 2.x para aplicaciones de consumo de Java. Esto solo se admite en KCL 2.x para Java, a partir de KCL 2.3 para Java y versiones posteriores.

Rendimiento

Si la aplicación de Amazon Kinesis Data Streams recibe excepciones de rendimiento aprovisionado, debe aumentar el rendimiento aprovisionado para la tabla de DynamoDB. KCL crea la tabla con un rendimiento aprovisionado de 10 lecturas por segundo y 10 escrituras por segundo, pero esto podría no ser suficiente para su aplicación. Por ejemplo, si su aplicación de Amazon Kinesis Data Streams crea frecuentemente puntos de comprobación u opera en un flujo que se compone de muchas particiones, es posible que necesite más rendimiento.

Para obtener información sobre el rendimiento aprovisionado en DynamoDB, consulte Modo de Read/Write capacidad y Trabajo con tablas y datos en la Guía para desarrolladores de Amazon DynamoDB.

Cómo se sincroniza una tabla de arrendamiento con las particiones de Kinesis Data Streams

Los procesos de trabajo de las aplicaciones de consumo de KCL utilizan los arrendamientos para procesar particiones de un flujo de datos determinado. La información sobre qué proceso de trabajo está arrendando cada partición en un momento dado se almacena en una tabla de arrendamiento. La tabla de arrendamiento debe permanecer sincronizada con la información más reciente sobre la partición del flujo de datos mientras se ejecuta la aplicación de consumo de KCL. KCL sincroniza la tabla de arrendamiento con la información de las particiones obtenida del servicio Kinesis Data Streams durante el arranque de la aplicación de consumo (ya sea al inicializar o reiniciar la aplicación de consumo) y también siempre que una partición que se esté procesando llegue a su fin (repartición). En otras palabras, los procesos de trabajo o una aplicación de consumo de KCL se sincronizan con el flujo de datos que están procesando durante el arranque inicial de la aplicación de consumo y siempre que la aplicación de consumo encuentra un evento de repartición del flujo de datos.

Temas

Sincronización en KCL 1.0 a 1.13 y KCL 2.0 a 2.2
Sincronización en KCL 2.x, a partir de KCL 2.3 y versiones posteriores
Sincronización en KCL 1.x, a partir de KCL 1.14 y versiones posteriores

Sincronización en KCL 1.0 a 1.13 y KCL 2.0 a 2.2

En KCL 1.0 a 1.13 y KCL 2.0 a 2.2, durante el arranque de la aplicación de consumo y también durante cada evento de repartición del flujo de datos, KCL sincroniza la tabla de arrendamiento con la información de las particiones adquirida en el servicio Kinesis Data Streams invocando las ListShards o API de descubrimiento de DescribeStream. En todas las versiones de KCL mencionadas anteriormente, cada empleado de una aplicación de KCL para consumidores sigue los siguientes pasos para realizar el proceso de lease/shard sincronización durante el arranque de la aplicación para consumidores y en cada evento de refragmentación de la transmisión:

Obtiene todos las particiones de datos del flujo que se está procesando.
Obtiene todos los arrendamientos de particiones de la tabla de arrendamiento.
Filtra cada partición abierta que no tenga arrendamientos en la tabla de arrendamiento.
Repite todas las particiones abiertas encontradas y para cada partición abierta sin un elemento principal abierto:
- Recorre el árbol jerárquico siguiendo la ruta de sus antecesores para determinar si la partición es descendiente. Una partición se considera descendiente si se está procesando una partición anterior (en la tabla de arrendamiento se indica el arrendamiento de la partición anterior) o si se debe procesar una partición anterior (por ejemplo, si la posición inicial es TRIM_HORIZON o AT_TIMESTAMP).
- Si la partición abierta en el contexto es descendiente, KCL comprueba la partición en función de su posición inicial y crea arrendamientos para sus elementos principales, si es necesario.

Sincronización en KCL 2.x, a partir de KCL 2.3 y versiones posteriores

A partir de las últimas versiones compatibles de KCL 2.x (KCL 2.3) y versiones posteriores, la biblioteca ahora admite los siguientes cambios en el proceso de sincronización. Estos cambios de lease/shard sincronización reducen considerablemente el número de llamadas a la API que realizan las aplicaciones de consumo de KCL al servicio Kinesis Data Streams y optimizan la administración de arrendamientos en su aplicación de consumo de KCL.

Durante el arranque de la aplicación, si la tabla de arrendamiento está vacía, KCL utiliza la opción de filtrado de la API ListShard (el parámetro de solicitud ShardFilter opcional) para recuperar y crear arrendamientos únicamente para una instantánea de las particiones abiertas en el momento especificado por el parámetro ShardFilter. El parámetro ShardFilter permite filtrar la respuesta de la API ListShards. La única propiedad obligatoria del parámetro ShardFilter es Type. KCL utiliza la propiedad de filtro Type y los siguientes valores válidos para identificar y devolver una instantánea de las particiones abiertas que podrían requerir nuevos arrendamientos:
- AT_TRIM_HORIZON: la respuesta incluye todas las particiones que estaban abiertas en TRIM_HORIZON.
- AT_LATEST: la respuesta incluye solo las particiones actualmente abiertas del flujo de datos.
- AT_TIMESTAMP: la respuesta incluye todas las particiones cuya marca de tiempo de inicio es anterior o igual a la marca de tiempo dada y cuya marca de tiempo de finalización es posterior o igual que la marca de tiempo dada, o que aún están abiertas.
ShardFilter se utiliza al crear arrendamientos para una tabla de arrendamiento vacía con el fin de inicializar los arrendamientos de una instantánea de las particiones especificadas en RetrievalConfig#initialPositionInStreamExtended.

Para obtener más información acerca de ShardFilter, consulte https://docs.aws.amazon.com/kinesis/latest/APIReference/API_ShardFilter.html.
En lugar de que todos los trabajadores realicen la lease/shard sincronización para mantener la tabla de arrendamientos actualizada con los fragmentos más recientes del flujo de datos, la sincronización la realiza un único líder obrero elegido. lease/shard
KCL 2.3 usa el parámetro de ChildShards retorno de GetRecords y las SubscribeToShard API para realizar la lease/shard sincronización que se produce en SHARD_END los fragmentos cerrados, lo que permite a un trabajador de KCL crear únicamente arrendamientos para los fragmentos secundarios del fragmento que ha terminado de procesar. Para compartirla entre aplicaciones de consumo, esta optimización de la lease/shard sincronización utiliza el parámetro de la API. ChildShards GetRecords En el caso de las aplicaciones de consumo dedicadas al rendimiento (distribución mejorada), esta optimización de la lease/shard sincronización utiliza el ChildShards parámetro de la SubscribeToShard API. Para obtener más información, consulte GetRecords, SubscribeToShards y ChildShard.

Con los cambios anteriores, el comportamiento de KCL está pasando del modelo en el que todos los procesos de trabajo aprenden sobre todas las particiones existentes al modelo en el que los procesos de trabajo aprenden solo sobre las particiones secundarias de las particiones que son propiedad de cada proceso de trabajo. Por lo tanto, además de la sincronización que se produce durante el arranque de las aplicaciones de consumo y los eventos de refragmentación, KCL ahora también realiza shard/lease escaneos periódicos adicionales para identificar cualquier posible laguna en la tabla de arrendamientos (en otras palabras, para obtener información sobre todos los fragmentos nuevos) a fin de garantizar que se procese todo el rango de hash del flujo de datos y crear arrendamientos para ellos si es necesario. PeriodicShardSyncManageres el componente responsable de ejecutar escaneos periódicos. lease/shard

Para obtener más información sobre PeriodicShardSyncManager el KCL 2.3, consulte https://github.com/awslabs/amazon-kinesis-client/blob/master/amazon-kinesis-client/src/main/java/software/amazon/kinesis/leases/LeaseManagementConfig.java# L201-L213.

En KCL 2.3, hay nuevas opciones de configuración disponibles para configurar PeriodicShardSyncManager en LeaseManagementConfig:

Name	Predeterminado	Description (Descripción)
arrendamientos RecoveryAuditorExecutionFrequencyMillis	120 000 (2 minutos)	Frecuencia (en milisegundos) del trabajo del auditor para buscar arrendamientos parciales en la tabla de arrendamiento. Si el auditor detecta lagunas en los arrendamientos de un flujo, activará la sincronización de las particiones basándose en `leasesRecoveryAuditorInconsistencyConfidenceThreshold`.
arrendamientos RecoveryAuditorInconsistencyConfidenceThreshold	3	El umbral de confianza para el trabajo de auditor periódico permite determinar si los arrendamientos de un flujo de datos de la tabla de arrendamiento son incoherentes. Si el auditor encuentra varias veces el mismo conjunto de incoherencias consecutivas en un flujo de datos, se activará una sincronización de particiones.

Ahora también se emiten nuevas CloudWatch métricas para monitorear el estado delPeriodicShardSyncManager. Para obtener más información, consulte PeriodicShardSyncManager.

Incluye una optimización de HierarchicalShardSyncer para crear solo arrendamientos para una capa de particiones.

Sincronización en KCL 1.x, a partir de KCL 1.14 y versiones posteriores

A partir de las últimas versiones compatibles de KCL 1.x (KCL 1.14) y versiones posteriores, la biblioteca ahora admite los siguientes cambios en el proceso de sincronización. Estos cambios de lease/shard sincronización reducen considerablemente el número de llamadas a la API que realizan las aplicaciones de consumo de KCL al servicio Kinesis Data Streams y optimizan la administración de arrendamientos en su aplicación de consumo de KCL.

Durante el arranque de la aplicación, si la tabla de arrendamiento está vacía, KCL utiliza la opción de filtrado de la API ListShard (el parámetro de solicitud ShardFilter opcional) para recuperar y crear arrendamientos únicamente para una instantánea de las particiones abiertas en el momento especificado por el parámetro ShardFilter. El parámetro ShardFilter permite filtrar la respuesta de la API ListShards. La única propiedad obligatoria del parámetro ShardFilter es Type. KCL utiliza la propiedad de filtro Type y los siguientes valores válidos para identificar y devolver una instantánea de las particiones abiertas que podrían requerir nuevos arrendamientos:
- AT_TRIM_HORIZON: la respuesta incluye todas las particiones que estaban abiertas en TRIM_HORIZON.
- AT_LATEST: la respuesta incluye solo las particiones actualmente abiertas del flujo de datos.
- AT_TIMESTAMP: la respuesta incluye todas las particiones cuya marca de tiempo de inicio es anterior o igual a la marca de tiempo dada y cuya marca de tiempo de finalización es posterior o igual que la marca de tiempo dada, o que aún están abiertas.
ShardFilter se utiliza al crear arrendamientos para una tabla de arrendamiento vacía con el fin de inicializar los arrendamientos de una instantánea de las particiones especificadas en KinesisClientLibConfiguration#initialPositionInStreamExtended.

Para obtener más información acerca de ShardFilter, consulte https://docs.aws.amazon.com/kinesis/latest/APIReference/API_ShardFilter.html.
En lugar de que todos los trabajadores realicen la lease/shard sincronización para mantener la tabla de arrendamientos actualizada con los fragmentos más recientes del flujo de datos, la sincronización la realiza un único líder obrero elegido. lease/shard
KCL 1.14 utiliza el parámetro de ChildShards retorno de GetRecords y las SubscribeToShard API para realizar la lease/shard sincronización que se produce en SHARD_END los fragmentos cerrados, lo que permite a un trabajador de KCL crear únicamente arrendamientos para los fragmentos secundarios del fragmento que ha terminado de procesar. Para obtener más información, consulte GetRecords y ChildShard.

Cuando KinesisClientLibConfiguration#shardSyncStrategyType está establecido en ShardSyncStrategyType.SHARD_END, PeriodicShardSync leasesRecoveryAuditorInconsistencyConfidenceThreshold se utiliza para determinar el umbral del número de exámenes consecutivos que contienen lagunas en la tabla de arrendamiento, tras lo cual se exige la sincronización de las particiones. Cuando KinesisClientLibConfiguration#shardSyncStrategyType se establece en ShardSyncStrategyType.PERIODIC, leasesRecoveryAuditorInconsistencyConfidenceThreshold se ignora.

Para obtener más información sobre PeriodicShardSyncManager KCL 1.14, consulte https://github.com/awslabs/amazon-kinesis-client/blob/v1.x/src/main/java/com/amazonaws/services/kinesis/clientlibrary/lib/worker/KinesisClientLibConfiguration.java #. L987-L999

En KCL 1.14, hay una nueva opción de configuración disponible para configurar PeriodicShardSyncManager en LeaseManagementConfig:

Name	Predeterminado	Description (Descripción)
arrendamientos RecoveryAuditorInconsistencyConfidenceThreshold	3	El umbral de confianza para el trabajo de auditor periódico permite determinar si los arrendamientos de un flujo de datos de la tabla de arrendamiento son incoherentes. Si el auditor encuentra varias veces el mismo conjunto de incoherencias consecutivas en un flujo de datos, se activará una sincronización de particiones.

Ahora también se emiten nuevas CloudWatch métricas para monitorear el estado delPeriodicShardSyncManager. Para obtener más información, consulte PeriodicShardSyncManager.

KCL 1.14 ahora también admite la limpieza de arrendamientos diferidos. LeaseCleanupManager elimina los arrendamientos de forma asíncrona al llegar a SHARD_END, cuando una partición ha caducado pasado el periodo de retención del flujo de datos o se ha cerrado como resultado de una operación de repartición.

Están disponibles nuevas opciones de configuración para LeaseCleanupManager.

Name	Predeterminado	Description (Descripción)
Arrendar CleanupIntervalMillis	1 minuto	Intervalo en el que se ejecuta el subproceso de limpieza del arrendamiento.
completado LeaseCleanupIntervalMillis	5 minutos	Intervalo para comprobar si un arrendamiento se ha completado o no.
basura LeaseCleanupIntervalMillis	30 minutos	Intervalo en el que se comprueba si un arrendamiento es un elemento no utilizado (es decir, si ha superado el periodo de retención del flujo de datos) o no.

Incluye una optimización de KinesisShardSyncer para crear solo arrendamientos para una capa de particiones.

Procesar varios flujos de datos con el mismo KCL 2.x para aplicaciones de consumo de Java

En esta sección se describen los siguientes cambios en KCL 2.x para Java, que permiten crear aplicaciones de consumo de KCL que pueden procesar más de un flujo de datos al mismo tiempo.

importante

El procesamiento de varios flujos solo se admite en KCL 2.x para Java, a partir de KCL 2.3 para Java y versiones posteriores.

El procesamiento de varios flujos NO es compatible con ningún otro lenguaje en el que se pueda implementar KCL 2.x.

El procesamiento de varios flujos NO es compatible con ninguna versión de KCL 1.x.

MultistreamTracker interfaz

Para crear una aplicación de consumo que pueda procesar múltiples transmisiones al mismo tiempo, debe implementar una nueva interfaz llamada MultistreamTracker. Esta interfaz incluye el método streamConfigList que devuelve la lista de flujos de datos y sus configuraciones para que los procese la aplicación de consumo de KCL. Tenga en cuenta que los flujos de datos que se procesan pueden cambiar durante el tiempo de ejecución de la aplicación de consumo. KCL llama a streamConfigList periódicamente para obtener información sobre los cambios en los flujos de datos que se van a procesar.

El streamConfigList método rellena la StreamConfiglista.
```
package software.amazon.kinesis.common;

import lombok.Data;
import lombok.experimental.Accessors;

@Data
@Accessors(fluent = true)
public class StreamConfig {
    private final StreamIdentifier streamIdentifier;
    private final InitialPositionInStreamExtended initialPositionInStreamExtended;
    private String consumerArn;
}
                
```
Tenga en cuenta que los campos StreamIdentifier y InitialPositionInStreamExtended son obligatorios, aunque consumerArn es opcional. Debe proporcionar consumerArn únicamente si utiliza KCL 2.x para implementar una aplicación de consumo con distribución mejorada.

Para obtener más información al respectoStreamIdentifier, consulte https://github.com/awslabs/amazon-kinesis-client/blob/v2.5.8/amazon-kinesis-client/src/main/java/software/amazon/kinesis/common/StreamIdentifier.java#L129. Para crear un StreamIdentifier, le recomendamos que cree una instancia multiflujo a partir de streamArn y la streamCreationEpoch que esté disponible en la versión 2.5.0 y versiones posteriores. En las versiones KCL 2.3 y 2.4, que no son compatibles con streamArm, cree una instancia multiflujo con el formato account-id:StreamName:streamCreationTimestamp. Este formato quedará obsoleto y dejará de ser compatible a partir de la próxima versión principal.

MultistreamTracker también incluye una estrategia para eliminar los arrendamientos de flujos antiguos en la tabla de arrendamiento (formerStreamsLeasesDeletionStrategy). Tenga en cuenta que la estrategia NO SE PUEDE cambiar durante el tiempo de ejecución de la aplicación de consumo. Para obtener más información, consulte https://github.com/awslabs/amazon-kinesis-client/blob/0c5042dadf794fe988438436252a5a8fe70b6b0b/amazon-kinesis-client/src/main/java/software/amazon/kinesis/processor/FormerStreamsLeasesDeletionStrategy.java

ConfigsBuilderes una clase que abarca toda la aplicación y que se puede utilizar para especificar todos los ajustes de configuración de KCL 2.x que se utilizarán al crear una aplicación de consumo de KCL. ConfigsBuilderla clase ahora es compatible con la interfaz. MultistreamTracker Puede inicializar ConfigsBuilder cualquiera de las dos con el nombre del flujo de datos desde el que se van a consumir los registros:



 /**
     * Constructor to initialize ConfigsBuilder with StreamName
     * @param streamName
     * @param applicationName
     * @param kinesisClient
     * @param dynamoDBClient
     * @param cloudWatchClient
     * @param workerIdentifier
     * @param shardRecordProcessorFactory
     */
    public ConfigsBuilder(@NonNull String streamName, @NonNull String applicationName,
            @NonNull KinesisAsyncClient kinesisClient, @NonNull DynamoDbAsyncClient dynamoDBClient,
            @NonNull CloudWatchAsyncClient cloudWatchClient, @NonNull String workerIdentifier,
            @NonNull ShardRecordProcessorFactory shardRecordProcessorFactory) {
        this.appStreamTracker = Either.right(streamName);
        this.applicationName = applicationName;
        this.kinesisClient = kinesisClient;
        this.dynamoDBClient = dynamoDBClient;
        this.cloudWatchClient = cloudWatchClient;
        this.workerIdentifier = workerIdentifier;
        this.shardRecordProcessorFactory = shardRecordProcessorFactory;
    }

O bien, puede inicializarlo ConfigsBuilder MultiStreamTracker si desea implementar una aplicación de consumo de KCL que procese varios flujos al mismo tiempo.



* Constructor to initialize ConfigsBuilder with MultiStreamTracker
     * @param multiStreamTracker
     * @param applicationName
     * @param kinesisClient
     * @param dynamoDBClient
     * @param cloudWatchClient
     * @param workerIdentifier
     * @param shardRecordProcessorFactory
     */
    public ConfigsBuilder(@NonNull MultiStreamTracker multiStreamTracker, @NonNull String applicationName,
            @NonNull KinesisAsyncClient kinesisClient, @NonNull DynamoDbAsyncClient dynamoDBClient,
            @NonNull CloudWatchAsyncClient cloudWatchClient, @NonNull String workerIdentifier,
            @NonNull ShardRecordProcessorFactory shardRecordProcessorFactory) {
        this.appStreamTracker = Either.left(multiStreamTracker);
        this.applicationName = applicationName;
        this.kinesisClient = kinesisClient;
        this.dynamoDBClient = dynamoDBClient;
        this.cloudWatchClient = cloudWatchClient;
        this.workerIdentifier = workerIdentifier;
        this.shardRecordProcessorFactory = shardRecordProcessorFactory;
    }

Con la compatibilidad con varios flujos implementada para la aplicación de consumo de KCL, cada fila de la tabla de arrendamiento de la aplicación ahora contiene el ID de la partición y el nombre del flujo de los varios flujos de datos que procesa esta aplicación.
Cuando se implementa la compatibilidad con varios flujos para la aplicación de consumo de KCL, leaseKey adopta la siguiente estructura: account-id:StreamName:streamCreationTimestamp:ShardId. Por ejemplo, 111111111:multiStreamTest-1:12345:shardId-000000000336.

importante
Cuando la aplicación de consumo de KCL existente está configurada para procesar solo un flujo de datos, leaseKey (que es la clave hash de la tabla de arrendamiento) es el ID de la partición. Si vuelve a configurar esta aplicación de consumo de KCL existente para procesar varios flujos de datos, se rompe la tabla de arrendamiento, ya que con la compatibilidad con varios flujos, la estructura de leaseKey debe ser la siguiente: account-id:StreamName:StreamCreationTimestamp:ShardId.

Utilice la KCL con AWS Glue Schema Registry

Puede integrar sus flujos de datos de Kinesis con el registro de AWS Glue esquemas. AWS Glue Schema Registry le permite descubrir, controlar y evolucionar de forma centralizada esquemas, además de garantizar que un esquema registrado valide de forma continua los datos generados. Un esquema define la estructura y el formato de un registro de datos. Un esquema es una especificación versionada para publicación, consumo o almacenamiento de confianza de datos. El registro AWS Glue de esquemas le permite mejorar la calidad integral de los datos y la gobernanza de los datos en sus aplicaciones de streaming. Para obtener más información, consulte AWS Glue Schema Registry. Una de las formas de configurar esta integración es a través de KCL en Java.

importante

Actualmente, la integración de Kinesis Data Streams AWS Glue y Schema Registry solo se admite para las transmisiones de datos de Kinesis que utilizan consumidores de KCL 2.3 implementados en Java. Multi-language no se proporciona soporte. No se admiten las aplicaciones de consumo de KCL 1.0. No se admiten las aplicaciones de consumo de KCL 2.x anteriores a KCL 2.3.

Para obtener instrucciones detalladas sobre cómo configurar la integración de Kinesis Data Streams con Schema Registry mediante la KCL, consulte la sección «Interacción con los datos mediante KPL/KCL las bibliotecas» en Caso de uso: integración de Amazon Kinesis Data Streams con AWS el registro de esquemas de Glue.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Documentación de la versión anterior de KCL

Desarrollar consumidores personalizados con rendimiento compartido