Qualidade dos dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Qualidade dos dados

O monitoramento de qualidade dos dados monitora automaticamente os modelos de machine learning (ML) em produção e notifica você quando surgem problemas de qualidade de dados. Os modelos de ML em produção têm que fazer previsões sobre dados da vida real que não são cuidadosamente curados como a maioria dos conjuntos de dados de treinamento. Se a natureza estatística dos dados que o modelo recebe durante a produção se desviar da natureza dos dados da linha de base nos quais foi treinado, o modelo começa a perder a precisão em suas previsões. O Amazon SageMaker Model Monitor usa regras para detectar desvios de dados e alerta você quando isso acontece. Para monitorar a qualidade dos dados, siga estas etapas:

  • Habilite captura de dados. Essa ação captura a entrada e a saída de inferência de um endpoint de inferência em tempo real ou de um trabalho de transformação em lote e armazena os dados no Amazon S3. Para obter mais informações, consulte Captura de dados.

  • Crie uma linha de base. Nesta etapa, você executará um trabalho de linha de base que analisa um conjunto de dados de entrada fornecido por você. A linha de base calcula as restrições do esquema de linha de base para cada recurso usando Deequ, uma biblioteca de código aberto criada no Apache Spark que é usada para medir a qualidade dos dados em conjuntos de dados grandes. Para obter mais informações, consulte Criar uma linha de base.

  • Defina e programe trabalhos de monitoramento de qualidade dos dados. Para obter informações específicas e exemplos de código de trabalhos de monitoramento da qualidade dos dados, consulte Programar trabalhos de monitoramento da qualidade dos dados. Para obter informações gerais sobre trabalhos de monitoramento, consulte Programar trabalhos de monitoramento.

    • Opcionalmente, use scripts de pré-processamento e pós-processamento para transformar os dados que saem da sua análise de qualidade dos dados. Para obter mais informações, consulte Pré-processamento e pós-processamento.

  • Visualize métricas de qualidade dos dados. Para obter mais informações, consulte Esquema para estatísticas (arquivo statistics.json).

  • Integre o monitoramento da qualidade dos dados com a Amazon CloudWatch. Para obter mais informações, consulte CloudWatch Métricas.

  • Interpretar os resultados de um trabalho de monitoramento. Para obter mais informações, consulte Interpretar resultados.

  • Use o SageMaker Studio para permitir o monitoramento da qualidade dos dados e visualizar os resultados se você estiver usando um endpoint em tempo real. Para obter mais informações, consulte Visualize resultados para endpoints em tempo real no Amazon Studio SageMaker .

nota

O Model Monitor calcula métricas e estatísticas do modelo somente em dados tabulares. Por exemplo, um modelo de classificação de imagens que usa imagens como entrada e gera um rótulo baseado nessa imagem ainda pode ser monitorado. O Model Monitor seria capaz de calcular métricas e estatísticas para a saída, não para a entrada.