Definir configurações de backup - Amazon Data Firehose

A entrega de streams do Amazon Data Firehose para tabelas Apache Iceberg no Amazon S3 está em versão prévia e está sujeita a alterações.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Definir configurações de backup

O Amazon Data Firehose usa o Amazon S3 para fazer backup de todos os dados ou somente os dados falhados que ele tenta entregar ao destino escolhido.

Importante
  • As configurações de backup só são suportadas se a origem do seu stream do Firehose for Direct PUT ou Kinesis Data Streams.

  • O recurso de buffer zero está disponível somente para os destinos do aplicativo e não está disponível para o destino de backup do Amazon S3.

Você pode especificar as configurações de backup do S3 para seu stream do Firehose se tiver feito uma das seguintes opções.

  • Se você definir o Amazon S3 como destino para seu stream do Firehose e optar por especificar um AWS Função Lambda para transformar registros de dados ou se você optar por converter formatos de registro de dados para seu stream do Firehose.

  • Se você definir o Amazon Redshift como destino para seu stream do Firehose e optar por especificar um AWS Função Lambda para transformar registros de dados.

  • Se você definir qualquer um dos seguintes serviços como destino para seu stream do Firehose — Amazon OpenSearch Service, Datadog, Dynatrace, Endpoint, LogicMonitor MongoDB Cloud, New Relic, HTTP Splunk ou Sumo Logic, Snowflake, Apache Iceberg Tables.

A seguir estão as configurações de backup do seu stream do Firehose.

  • Backup do registro de origem no Amazon S3: se o S3 ou o Amazon Redshift for o destino selecionado, essa configuração indicará se você deseja habilitar o backup dos dados da fonte ou mantê-lo desabilitado. Se qualquer outro serviço compatível (exceto o S3 ou o Amazon Redshift) estiver definido como seu destino selecionado, essa configuração indicará se você deseja fazer backup de todos os dados da fonte ou apenas dos dados com falha.

  • Bucket de backup S3 - este é o bucket S3 em que o Amazon Data Firehose faz backup de seus dados.

  • Prefixo do bucket de backup S3 - esse é o prefixo em que o Amazon Data Firehose faz backup de seus dados.

  • Prefixo da saída de erros do bucket de backup do S3: todos os dados com falha são copiados nesse prefixo da saída de erros do bucket do S3.

  • Dicas de armazenamento em buffer, compactação e criptografia para backup — o Amazon Data Firehose usa o Amazon S3 para fazer backup de todos os dados ou somente os dados falhados que tenta entregar ao destino escolhido. O Amazon Data Firehose armazena em buffer os dados recebidos antes de entregá-los (fazer backup) para o Amazon S3. Você pode escolher um tamanho de buffer de 1 a 128 MiBs e um intervalo de buffer de 60 a 900 segundos. A condição que é satisfeita primeiro aciona a entrega de dados ao Amazon S3. Se você habilitar a transformação de dados, o intervalo de buffer se aplica desde o momento em que os dados transformados são recebidos pelo Amazon Data Firehose até a entrega dos dados para o Amazon S3. Se a entrega de dados para o destino ficar aquém da gravação de dados no stream do Firehose, o Amazon Data Firehose aumentará o tamanho do buffer dinamicamente para recuperá-lo. Essa ação ajuda a garantir que todos os dados sejam entregues no destino.

  • Compressão S3 - escolha GZIP compressão de dados Snappy, Zip ou Snappy compatível com Hadoop, ou nenhuma compressão de dados. A compactação Snappy compatível com Snappy, Zip e Hadoop não está disponível para o stream do Firehose com o Amazon Redshift como destino.

  • Formato de extensão de arquivo S3 (opcional) — Especifique um formato de extensão de arquivo para objetos entregues ao bucket de destino do Amazon S3. Se você habilitar esse recurso, a extensão de arquivo especificada substituirá as extensões de arquivo padrão anexadas pelos recursos de conversão de formato de dados ou compactação do S3, como .parquet ou .gz. Verifique se você configurou a extensão de arquivo correta ao usar esse recurso com a conversão de formato de dados ou a compactação S3. A extensão do arquivo deve começar com um ponto (.) e pode conter caracteres permitidos: 0-9a-z! -_.*' (). A extensão do arquivo não pode exceder 128 caracteres.

  • O Firehose oferece suporte à criptografia do lado do servidor Amazon S3 com AWS Key Management Service (SSE-KMS) para criptografar dados entregues no Amazon S3. Você pode optar por usar o tipo de criptografia padrão especificado no bucket S3 de destino ou criptografar com uma chave da lista de AWS KMS chaves que você possui. Se você criptografar os dados com AWS KMS teclas, você pode usar qualquer uma das teclas padrão AWS chave gerenciada (aws/s3) ou uma chave gerenciada pelo cliente. Para obter mais informações, consulte Proteção de dados usando criptografia do lado do servidor com AWS KMS-Chaves gerenciadas (SSE-KMS).

Configurar dicas de buffer

O Amazon Data Firehose armazena em buffer os dados de streaming recebidos na memória até um determinado tamanho (tamanho do buffer) e por um determinado período de tempo (intervalo de buffer) antes de entregá-los aos destinos especificados. Você usaria dicas de buffer quando quiser entregar arquivos de tamanho ideal para o Amazon S3 e obter melhor desempenho dos aplicativos de processamento de dados ou para ajustar a taxa de entrega do Firehose de acordo com a velocidade de destino.

Você pode configurar o tamanho do buffer e o intervalo do buffer ao criar novos streams do Firehose ou atualizar o tamanho do buffer e o intervalo de buffer nos streams existentes do Firehose. O tamanho do buffer é medido em MBs e o intervalo de buffer é medido em segundos. Contudo, se especificar um valor para um deles, você também deverá fornecer um valor para o outro. A primeira condição de buffer satisfeita aciona o Firehose para entregar os dados. Se você não configurar os valores de buffer, os valores padrão serão usados.

Você pode configurar as dicas de buffer do Firehose por meio do AWS Management Console, AWS Command Line Interface, ou AWS SDKs. Para fluxos existentes, você pode reconfigurar dicas de buffer com um valor adequado aos seus casos de uso usando a opção Editar no console ou usando o. UpdateDestinationAPI Para novos streams, você pode configurar dicas de buffer como parte da criação de um novo stream usando o console ou usando o. CreateDeliveryStreamAPI Para ajustar o tamanho do buffer, defina SizeInMBs e IntervalInSeconds no DestinationConfiguration parâmetro específico de destino do CreateDeliveryStreamou. UpdateDestinationAPI

nota
  • As dicas de buffer são aplicadas em um nível de fragmento ou partição, enquanto as dicas de buffer de particionamento dinâmico são aplicadas em nível de stream ou tópico.

  • Para atender às latências mais baixas dos casos de uso em tempo real, você pode usar a dica de intervalo de buffer zero. Quando você configura o intervalo de armazenamento em buffer como zero segundos, o Firehose não armazena dados em buffer e os entrega em alguns segundos. Antes de alterar as dicas de buffer para um valor menor, consulte o fornecedor as dicas de buffer recomendadas do Firehose para seus destinos.

  • O recurso de buffer zero está disponível somente para os destinos do aplicativo e não está disponível para o destino de backup do Amazon S3.

  • O recurso de buffer zero não está disponível para particionamento dinâmico.

  • O Firehose usa o upload de várias partes para o destino S3 quando você configura um intervalo de tempo de buffer inferior a 60 segundos para oferecer latências mais baixas. Devido ao upload de várias partes para o destino do S3, você verá algum aumento nos PUT API custos do S3 se escolher um intervalo de tempo de buffer menor que 60 segundos.

Para intervalos de dicas de buffer e valores padrão específicos do destino, consulte a tabela a seguir:

Destination (Destino) Tamanho do buffer em MB (padrão entre parênteses) Intervalo de buffer em segundos (padrão entre parênteses)
Amazon S3 1-128 (5) 0-900 (300)
Mesas Apache Iceberg 1-128 (5) 0-900 (300)
Amazon Redshift 1-128 (5) 0-900 (300)
OpenSearch Sem servidor 1-100 (5) 0-900 (300)
OpenSearch 1-100 (5) 0-900 (300)
Splunk 1-5 (5) 0-60 (60)
Datadog 1-4 (4) 0-900 (60)
Coralogix 1-64 (6) 0-900 (60)
Dynatrace 1-64 (5) 0-900 (60)
Elastic 1 0-900 (60)
Honeycomb 1-64 (15) 0-900 (60)
HTTPponto final 1-64 (5) 0-900 (60)
LogicMonitor 1-64 (5) 0-900 (60)
Logzio 1-64 (5) 0-900 (60)
MongoDB 1-16 (5) 0-900 (60)
newRelic 1-64 (5) 0-900 (60)
sumoLogic 1-64 (1) 0-900 (60)
Splunk Observability Cloud 1-64 (1) 0-900 (60)
Snowflake 1 - 128 (1) 0 - 900 (0)