Almacenamiento por niveles para clústeres de Amazon MSK - Transmisión gestionada de Amazon para Apache Kafka

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Almacenamiento por niveles para clústeres de Amazon MSK

El almacenamiento por niveles es un nivel de almacenamiento de bajo costo para Amazon MSK que se amplía hasta un almacenamiento prácticamente ilimitado, lo que hace que sea rentable crear aplicaciones de transmisión de datos.

Puede crear un MSK clúster de Amazon configurado con almacenamiento por niveles que equilibre el rendimiento y el coste. Amazon MSK almacena los datos de streaming en un nivel de almacenamiento principal optimizado para el rendimiento hasta que alcanzan los límites de retención por temas de Apache Kafka. A continuación, Amazon mueve MSK automáticamente los datos al nuevo nivel de almacenamiento de bajo coste.

Cuando la aplicación empiece a leer los datos del almacenamiento por niveles, cabe esperar un aumento de la latencia de lectura durante los primeros bytes. A medida que empiece a leer los datos restantes de forma secuencial desde el nivel de bajo costo, cabe esperar latencias similares a las del nivel de almacenamiento principal. No es necesario aprovisionar almacenamiento para el almacenamiento por niveles de bajo costo ni administrar la infraestructura. Puede almacenar cualquier cantidad de datos y pagar únicamente por lo que utilice. Esta función es compatible con la versión APIs introducida en la versión KIP-405: Kafka Tiered Storage.

A continuación, se muestran algunas de las características del almacenamiento por niveles:

  • Puede escalar a un almacenamiento prácticamente ilimitado, sin necesidad de adivinar cómo escalar la infraestructura de Apache Kafka.

  • Puede retener los datos durante más tiempo en los temas de Apache Kafka o aumentar el almacenamiento de los temas sin necesidad de aumentar el número de agentes.

  • Proporciona un búfer de seguridad de mayor duración para administrar los retrasos inesperados en el procesamiento.

  • Puede volver a procesar los datos antiguos en su orden de producción exacto con el código de procesamiento de flujos existente y con Kafka. APIs

  • Las particiones se vuelven a equilibrar más rápido porque no es necesario replicar los datos del almacenamiento secundario en los discos de los agentes.

  • Los datos entre los intermediarios y el almacenamiento en niveles se mueven dentro de Internet VPC y no viajan a través de Internet.

  • Un equipo cliente puede utilizar el mismo proceso para conectarse a clústeres nuevos con el almacenamiento por niveles habilitado que el que utiliza para conectarse a un clúster sin el almacenamiento por niveles habilitado. Consulte Crear un equipo cliente.

Requisitos de almacenamiento por niveles para los clústeres de Amazon MSK

  • Debe utilizar la versión 3.0.0 o superior del cliente de Apache Kafka para crear un tema nuevo con el almacenamiento por niveles habilitado. Para hacer la transición de un tema existente a un almacenamiento por niveles, puede volver a configurar un equipo cliente que utilice una versión de cliente de Kafka anterior a la 3.0.0 (la versión mínima admitida de Apache Kafka es la 2.8.2.tiered) para habilitar el almacenamiento por niveles. Consulte Paso 4: Crea un tema en el MSK clúster de Amazon.

  • El MSK clúster de Amazon con el almacenamiento por niveles activado debe usar la versión 3.6.0 o superior, o la 2.8.2.tiered.

Restricciones y limitaciones del almacenamiento por niveles para los clústeres de Amazon MSK

El almacenamiento por niveles tiene las siguientes restricciones y limitaciones:

  • Asegúrese de que los clientes no estén configurados para read_committed leer desde remote_tier en AmazonMSK, a menos que la aplicación utilice activamente la función de transacciones.

  • El almacenamiento por niveles no está disponible en las regiones (EE. UU. AWS GovCloud ).

  • El almacenamiento por niveles se aplica solo a los clústeres en modo aprovisionado.

  • El almacenamiento por niveles no admite un broker de tamaño t3.small.

  • El periodo mínimo de retención en el almacenamiento de bajo costo es de 3 días. No hay un periodo mínimo de retención para el almacenamiento principal.

  • El almacenamiento por niveles no admite varios directorios de registro en un agente (JBODfunciones relacionadas).

  • El almacenamiento por niveles no admite temas compactados. Asegúrese de que todos los temas que tengan activado el almacenamiento por niveles tengan su cleanup.policy configurado únicamente en «». DELETE

  • El almacenamiento por niveles se puede deshabilitar para temas individuales, pero no para todo el clúster. Una vez deshabilitado, el almacenamiento por niveles no se puede volver a habilitar para un tema.

  • Si utiliza la MSK versión 2.8.2. tiered de Amazon, solo podrá migrar a otra versión de Apache Kafka compatible con el almacenamiento en niveles. Si no desea seguir utilizando una versión compatible con el almacenamiento por niveles, cree un clúster nuevo y migre sus datos a él. MSK

  • La kafka-log-dirs herramienta no puede informar sobre el tamaño de los datos de almacenamiento por niveles. La herramienta solo informa sobre el tamaño de los segmentos de registro en el almacenamiento principal.