Especificar as configurações do agente - Amazon Data Firehose

A entrega de streams do Amazon Data Firehose para tabelas Apache Iceberg no Amazon S3 está em versão prévia e está sujeita a alterações.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Especificar as configurações do agente

O agente oferece suporte a duas configurações obrigatórias, filePattern e deliveryStream, além das configurações opcionais de recursos adicionais. É possível especificar configurações obrigatórios e opcionais em /etc/aws-kinesis/agent.json.

Sempre que você alterar o arquivo de configuração, deverá interromper e iniciar o agente, usando os seguintes comandos:

sudo service aws-kinesis-agent stop sudo service aws-kinesis-agent start

Se desejar, você pode usar o seguinte comando:

sudo service aws-kinesis-agent restart

Estas são as configurações gerais.

Definição da configuração Descrição
assumeRoleARN

O Amazon Resource Name (ARN) da função a ser assumida pelo usuário. Para obter mais informações, consulte Delegate Access Across AWS Contas usando IAM funções no Guia IAM do usuário.

assumeRoleExternalId

Um identificador opcional que determina quem pode assumir a função. Para obter mais informações, consulte Como usar uma ID externa no Guia do IAM usuário.

awsAccessKeyId

AWS ID da chave de acesso que substitui as credenciais padrão. Essa configuração tem precedência sobre todos os outros provedores de credenciais.

awsSecretAccessKey

AWS chave secreta que substitui as credenciais padrão. Essa configuração tem precedência sobre todos os outros provedores de credenciais.

cloudwatch.emitMetrics

Permite que o agente emita métricas para, CloudWatch se definidas (verdadeiras).

Padrão: True

cloudwatch.endpoint

O endpoint regional para CloudWatch.

Padrão: monitoring.us-east-1.amazonaws.com

firehose.endpoint

O endpoint regional do Amazon Data Firehose.

Padrão: firehose.us-east-1.amazonaws.com

sts.endpoint

O endpoint regional para o AWS Serviço de token de segurança.

Padrão: https://sts.amazonaws.com

userDefinedCredentialsProvider.classname Se você definir um provedor de credenciais personalizadas, forneça seu nome de classe totalmente qualificado usando essa configuração. Não inclua .class no final do nome da classe.
userDefinedCredentialsProvider.location Se você definir um provedor de credenciais personalizadas, use essa configuração para especificar o caminho absoluto do jar que contém o provedor de credenciais personalizadas. O agente também procura o arquivo jar no seguinte local: /usr/share/aws-kinesis-agent/lib/.

Estas são as configurações de fluxo.

Definição da configuração Descrição
aggregatedRecordSizeBytes

Para fazer com que o agente agregue registros e depois os coloque no stream do Firehose em uma operação, especifique essa configuração. Defina-o com o tamanho que você deseja que o registro agregado tenha antes que o agente o coloque no stream do Firehose.

Padrão: 0 (sem agregação)

dataProcessingOptions

A lista de opções de processamento aplicadas a cada registro analisado antes de ser enviado ao stream do Firehose. As opções de processamento são executadas na ordem especificada. Para obter mais informações, consulte Pré-processe dados com agentes.

deliveryStream

[Obrigatório] O nome do stream do Firehose.

filePattern

[Obrigatório] Um glob para os arquivos que precisam ser monitorados pelo agente. Qualquer arquivo que corresponda a esse padrão é selecionado pelo agente automaticamente e monitorado. Para todos os arquivos correspondentes a esse padrão, conceda permissão de leitura a aws-kinesis-agent-user. Para o diretório que contém os arquivos, conceda permissões de leitura e execução a aws-kinesis-agent-user.

Importante

O agente seleciona qualquer arquivo que corresponda a esse padrão. Para garantir que o agente não selecione registros não intencionais, escolha esse padrão cuidadosamente.

initialPosition

A posição em que o arquivo começou a ser analisado. Os valores válidos são START_OF_FILE e END_OF_FILE.

Padrão: END_OF_FILE

maxBufferAgeMillis

O tempo máximo, em milissegundos, durante o qual o agente armazena dados em buffer antes de enviá-los para o stream do Firehose.

Intervalo de valores: 1.000 a 900.000 (1 segundo a 15 minutos)

Padrão: 60.000 (1 minuto)

maxBufferSizeBytes

O tamanho máximo, em bytes, para o qual o agente armazena dados em buffer antes de enviá-los para o stream do Firehose.

Intervalo de valores: 1 a 4.194.304 (4 MB)

Padrão: 4.194.304 (4 MB)

maxBufferSizeRecords

O número máximo de registros para os quais o agente armazena dados em buffer antes de enviá-los para o stream do Firehose.

Intervalo de valores: 1 a 500

Padrão: 500

minTimeBetweenFilePollsMillis

O intervalo de tempo, em milissegundos, em que o agente consulta e analisa os arquivos monitorados em busca de novos dados.

Intervalo de valores: 1 ou mais

Padrão: 100

multiLineStartPattern

O padrão de identificação do início de um registro. Um registro é composto por uma linha que corresponde ao padrão e pelas linhas subsequentes que não correspondem ao padrão. Os valores válidos são expressões regulares. Por padrão, cada nova linha nos arquivos de log é analisada como um único registro.

skipHeaderLines

O número de linhas em que o agente ignorará a análise no início dos arquivos monitorados.

Intervalo de valores: 0 ou mais

Padrão: 0 (zero)

truncatedRecordTerminator

A string que o agente usa para truncar um registro analisado quando o tamanho do registro excede o limite de tamanho do registro do Amazon Data Firehose. (1,000 KB)

Padrão: '\n' (nova linha)