Armazenamento em camadas - Amazon Managed Streaming for Apache Kafka

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Armazenamento em camadas

O armazenamento em camadas é um nível de armazenamento de baixo custo para a Amazon MSK que se expande para armazenamento praticamente ilimitado, tornando econômica a criação de aplicativos de streaming de dados.

Você pode criar um MSK cluster da Amazon configurado com armazenamento hierárquico que equilibra desempenho e custo. A Amazon MSK armazena dados de streaming em um nível de armazenamento primário com desempenho otimizado até atingir os limites de retenção do tópico Apache Kafka. Em seguida, a Amazon move MSK automaticamente os dados para o novo nível de armazenamento de baixo custo.

Quando sua aplicação começa a ler dados do armazenamento em camadas, você pode esperar um aumento na latência de leitura nos primeiros bytes. Ao começar a ler os dados restantes sequencialmente do nível de baixo custo, você pode esperar latências semelhantes às do nível de armazenamento primário. Você não precisa provisionar nenhum armazenamento para o armazenamento em camadas de baixo custo nem gerenciar a infraestrutura. É possível armazenar qualquer quantidade de dados e pagar somente pelo que for usado. Esse recurso é compatível com o APIs apresentado em KIP-405: Kafka Tiered Storage.

Veja alguns dos recursos do armazenamento em camadas:

  • Você pode escalar para armazenamento praticamente ilimitado. Você não precisa adivinhar como escalar sua infraestrutura do Apache Kafka.

  • Você pode reter dados por mais tempo em seus tópicos do Apache Kafka ou aumentar seu armazenamento de tópicos, sem a necessidade de aumentar o número de agentes.

  • Ele fornece um buffer de segurança de maior duração para lidar com atrasos inesperados no processamento.

  • Você pode reprocessar dados antigos em sua ordem de produção exata com seu código de processamento de stream existente e o KafkaAPIs.

  • As partições se reequilibram mais rapidamente porque os dados no armazenamento secundário não exigem replicação em discos intermediários.

  • Os dados entre os corretores e o armazenamento hierárquico se movem dentro da VPC Internet e não são transmitidos pela Internet.

  • Uma máquina cliente pode usar o mesmo processo para se conectar a novos clusters com armazenamento em camadas ativado, assim como para se conectar a um cluster sem o armazenamento em camadas ativado. Consulte Criar uma máquina cliente.

Requisitos de armazenamento em camadas

  • Você deve usar a versão 3.0.0 ou superior do cliente Apache Kafka para criar um novo tópico com o armazenamento em camadas ativado. Para fazer a transição de um tópico existente para o armazenamento em camadas, você pode reconfigurar uma máquina cliente que use uma versão do cliente Kafka anterior à 3.0.0 (a versão mínima suportada do Apache Kafka é 2.8.2.) para habilitar o armazenamento em camadas. Consulte Etapa 4: criar um tópico.

  • O MSK cluster da Amazon com armazenamento em camadas ativado deve usar a versão 3.6.0 ou superior, ou 2.8.2.

Restrições e limitações do armazenamento em camadas

O armazenamento em camadas tem as seguintes restrições e limitações:

  • O armazenamento hierárquico não está disponível nas regiões AWS GovCloud (EUA).

  • O armazenamento em camadas é aplicado apenas aos clusters do modo provisionado.

  • O armazenamento hierárquico não é compatível com o tamanho de corretor t3.small.

  • O período mínimo de retenção em armazenamento de baixo custo é de 3 dias. Não há período mínimo de retenção para o armazenamento primário.

  • O armazenamento hierárquico não oferece suporte a vários diretórios de registros em um corretor (recursos JBOD relacionados).

  • O armazenamento em camadas não oferece suporte a tópicos compactados. Certifique-se de que todos os tópicos com armazenamento hierárquico ativado tenham seu cleanup.policy configurado somente para ''. DELETE

  • O armazenamento em camadas pode ser desabilitado para tópicos individuais, mas não para todo o cluster. Depois de desabilitado, o armazenamento em camadas não pode ser reabilitado para um tópico.

  • Se você usa a MSK versão 2.8.2 em camadas da Amazon, você pode migrar somente para outra versão do Apache Kafka compatível com armazenamento em camadas. Se você não quiser continuar usando uma versão compatível com armazenamento em camadas, crie um novo MSK cluster e migre seus dados para ele.

  • A kafka-log-dirs ferramenta não pode relatar o tamanho dos dados de armazenamento em camadas. A ferramenta relata somente o tamanho dos segmentos de log no armazenamento primário.