As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configuração da detecção de anomalias em tarefas de ETL do AWS Glue
Para começar com a detecção de anomalias no AWS Glue Studio, abra uma tarefa do AWS Glue Studio e clique em Avaliar transformação do Data Quality.
Ao habilitar esse recurso, o AWS Glue Data Quality analisará seus dados ao longo do tempo para detectar anomalias. Isso fornecerá estatísticas de dados e observações valiosas sobre seus dados, permitindo que você adote medidas sobre quaisquer anomalias identificadas.
Consulte a documentação de detecção de anomalias para entender o funcionamento interno desse recurso.
Como habilitar a detecção de anomalias
Para habilitar a detecção de anomalias no AWS Glue Studio:
-
Escolha o nó do Data Quality em seu trabalho e, em seguida, escolha a guia Detecção de anomalias. Alterne o seletor para ativar a opção Habilitar detecção de anomalias.
-
Defina os dados para monitorar anomalias ao escolher Adicionar analisador. Há dois campos que você pode preencher: Estatísticas e Dados.
-
As Estatísticas são informações sobre a forma e outras propriedades dos dados. É possível escolher uma ou mais estatísticas por vez ou escolher Todas as estatísticas. As estatísticas incluem: completude, exclusividade, média, soma, desvio padrão, entropia, DistinctValuesCount e UniqueValueRatio. Consulte a documentação Analisadores para obter mais detalhes.
-
Os Dados são as colunas no seu conjunto de dados. Você pode escolher todas as colunas ou colunas individuais.
-
-
Escolha Adicionar escopo de detecção de anomalias para salvar as alterações. Depois de adicionar analisadores, você poderá visualizá-los na seção Escopo de detecção de anomalias.
Você também pode usar o menu Ações para editar seus analisadores ou escolher a guia Editor de conjunto de regras e editar o analisador diretamente no bloco de notas do editor de conjunto de regras. Você verá os analisadores que salvou abaixo de todas as regras que criou.
Rules = [ ] Analyzers = [ Completeness “id” ]
Após a configuração do conjunto de regras e dos analisadores atualizados, o AWS Glue Data Quality vai monitorar continuamente os fluxos de dados recebidos. Dependendo de suas configurações, ele poderá sinalizar possíveis anomalias por meio de alertas ou interrupções de tarefa. Esse monitoramento proativo ajuda a garantir a qualidade e a integridade dos dados em todos os seus pipelines de dados.
Na próxima seção, você aprenderá a monitorar com eficácia as anomalias identificadas pelo sistema. Você também aprenderá a visualizar e analisar as estatísticas de dados coletadas pelo AWS Glue Data Quality. Além disso, você entenderá como fornecer feedback ao modelo de machine learning que alimenta o recurso de detecção de anomalias. Esse ciclo de feedback é crucial para melhorar a precisão do modelo e garantir que ele possa detectar com eficácia anomalias que se alinhem aos requisitos comerciais e aos padrões de dados específicos.