Guia de compatibilidade de formato de dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Guia de compatibilidade de formato de dados

Este guia descreve os tipos de formato de dados que são compatíveis com as tarefas de processamento do SageMaker Clarify. Os tipos de formato de dados compatíveis incluem extensões de arquivo, estrutura de dados e requisitos ou restrições específicos para conjuntos de dados tabulares, de imagem e de séries temporais. Este guia também mostra como verificar se seu conjunto de dados está em conformidade com esses requisitos.

Em um alto nível, o trabalho de processamento do SageMaker Clarify segue o modelo de entrada-processo-saída para calcular métricas de viés e atribuições de recursos. Consulte os exemplos a seguir para obter detalhes.

A entrada para a tarefa de processamento do SageMaker Clarify consiste no seguinte:

Durante o estágio de processamento, o SageMaker Clarify calcula métricas de viés e atribuições de recursos. O trabalho de processamento do SageMaker Clarify conclui as seguintes etapas no back-end:

  • O trabalho de processamento do SageMaker Clarify analisa sua configuração de análise e carrega seu conjunto de dados.

  • Para calcular métricas de desvio pós-treinamento e atribuições de recursos, o trabalho exige previsões de modelo do seu modelo. O trabalho de processamento do SageMaker Clarify serializa seus dados e os envia como uma solicitação ao seu modelo, que é implantado em um endpoint de inferência SageMaker em tempo real. Depois disso, o trabalho de processamento do SageMaker Clarify extrai previsões da resposta.

  • O trabalho de processamento do SageMaker Clarify executa a análise de viés e explicabilidade e, em seguida, gera os resultados.

Para obter mais informações, consulteComo funcionam os trabalhos de processamento do SageMaker Clarify

O parâmetro usado para especificar o formato dos dados depende de onde os dados são usados no fluxo de processamento, como segue:

  • Para um conjunto de dados de entrada, use o dataset_type parâmetro para especificar o formato ou o MIME tipo.

  • Para uma solicitação para um endpoint, use o paramêtro content_typepara especificar o formato.

  • Para uma solicitação para um endpoint, use o parâmetro accept_typepara especificar o formato.

O conjunto de dados de entrada, a solicitação e a resposta de e para o endpoint não exigem o mesmo formato. Por exemplo, você pode usar um conjunto de dados do Parquet com uma carga de CSV solicitação e uma carga de resposta de JSON linhas, dadas as seguintes condições.

  • Sua análise está configurada corretamente.

  • Seu modelo oferece suporte aos formatos de solicitação e resposta.

nota

Se content_type ou não accept_type forem fornecidos, o contêiner SageMaker Clarify content_type infere o e. accept_type