As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Trabalhos de streaming para processamento contínuo de dados transmitidos
Um trabalho de streaming no EMR Serverless é um modo de trabalho que permite analisar e processar dados de streaming quase em tempo real. Esses trabalhos de longa duração sondam dados de streaming e processam continuamente os resultados à medida que os dados chegam. Os trabalhos de streaming são mais adequados para tarefas que exigem processamento de dados em tempo real, como análises quase em tempo real, detecção de fraudes e mecanismos de recomendações. EMR As tarefas de streaming sem servidor fornecem otimizações, como resiliência de trabalho integrada, monitoramento em tempo real, gerenciamento aprimorado de registros e integração com conectores de streaming.
Estes são alguns casos de uso com trabalhos de streaming:
-
Análise quase em tempo real — os trabalhos de streaming no Amazon EMR Serverless permitem que você processe dados de streaming quase em tempo real, para que você possa realizar análises em tempo real em fluxos de dados contínuos, como dados de log, dados de sensores ou dados de sequência de cliques para obter insights e tomar decisões oportunas com base nas informações mais recentes.
-
Detecção de fraudes: você pode usar trabalhos de streaming para executar a detecção de fraudes quase em tempo real em transações financeiras, operações de cartão de crédito ou atividades on-line ao analisar fluxos de dados e identificar padrões ou anomalias suspeitas à medida que ocorrem.
-
Mecanismos de recomendação: os trabalhos de streaming podem processar dados de atividade do usuário e atualizar modelos de recomendações. Isso abre possibilidades de recomendações personalizadas e em tempo real com base em comportamentos e preferências.
-
Analytics de mídia social: os trabalhos de streaming podem processar dados de mídia social, como tweets, comentários e publicações, possibilitando que as organizações monitorem tendências, analisem sentimentos e gerenciem a reputação da marca quase em tempo real.
-
Analytics da Internet das Coisas (IoT): trabalhos de streaming podem analisar e lidar com fluxos de dados de alta velocidade de dispositivos de IoT, sensores e máquinas conectadas, para que você possa realizar detecção de anomalias, manutenção preditiva e outros casos de uso de analytics de IoT.
-
Análise de clickstream: os trabalhos de streaming podem processar e analisar dados de clickstream de sites ou de aplicações móveis. As empresas que usam esses dados podem realizar analytics e saber mais sobre o comportamento do usuário, personalizar as experiências do usuário e otimizar campanhas de marketing.
-
Monitoramento e análise de log: os trabalhos de streaming também podem processar dados de log de servidores, aplicações e dispositivos de rede. Isso possibilita detecção de anomalias, solução de problemas e integridade e performance do sistema.
Benefícios principais
Os trabalhos de streaming no EMR Serverless fornecem automaticamente resiliência ao trabalho, que é uma combinação dos seguintes fatores:
-
Tentativa automática — O EMR Serverless repete automaticamente todas as tarefas que falharam sem qualquer intervenção manual de sua parte.
-
Resiliência da zona de disponibilidade (AZ) — O EMR Serverless muda automaticamente as tarefas de streaming para uma AZ saudável se a AZ original apresentar problemas.
-
Gerenciamento de logs:
-
Rotação de registros — para um gerenciamento mais eficiente do armazenamento em disco, o EMR Serverless alterna periodicamente os registros para trabalhos de streaming longos. Isso evita o acúmulo de logs que podem consumir todo o espaço em disco.
-
Compactação de logs: ajuda a gerenciar e otimizar com eficiência os arquivos de log em persistência gerenciada. A compactação também melhora a experiência de depuração quando você usa o servidor gerenciado de histórico do Spark.
-
Fontes de dados e coletores de dados compatíveis
EMRO Serverless funciona com várias fontes de dados de entrada e coletores de dados de saída:
-
Fontes de dados de entrada compatíveis: Amazon Kinesis Data Streams, Amazon Managed Streaming para Apache Kafka e clusters autogerenciados do Apache Kafka. Por padrão, as EMR versões 7.1.0 e superiores da Amazon incluem o conector Amazon Kinesis Data Streams, então você não precisa criar ou baixar nenhum pacote adicional.
-
Coletores de dados de saída compatíveis — tabelas do AWS Glue Data Catalog, Amazon S3, Amazon Redshift, SQL My, SQL Postgre Oracle, Oracle, SQL Microsoft, Apache Iceberg, Delta Lake e Apache Hudi.
Considerações e limitações
Ao usar trabalhos de streaming, lembre-se das considerações e limitações a seguir.
-
Os trabalhos de streaming são compatíveis com as EMRversões 7.1.0 e superiores da Amazon.
-
EMRO Serverless espera que os trabalhos de streaming sejam executados por muito tempo, então você não pode definir o tempo limite de execução para limitar o tempo de execução do trabalho.
-
Os trabalhos de streaming são compatíveis apenas com o mecanismo do Spark, que é criado sobre a estrutura de streaming
. -
EMRO Serverless repete indefinidamente os trabalhos de streaming, e você não pode personalizar o número máximo de tentativas. A prevenção contra thrash é incluída automaticamente para interromper a repetição do trabalho se a quantidade de tentativas malsucedidas ultrapassar o limite definido em uma janela por hora. O limite padrão é de cinco tentativas malsucedidas em uma hora. Você pode configurar esse limite entre 1 e 10 tentativas. Para obter mais informações, consulte Job resiliency.
-
Os trabalhos de streaming têm pontos de verificação para salvar o estado e o progresso do tempo de execução, para que o EMR Serverless possa retomar o trabalho de streaming a partir do ponto de verificação mais recente. Para obter mais informações, consulte Recovering from failures with Checkpointing
na documentação do Apache Spark.