Guia de compatibilidade de formato de dados - Amazon SageMaker

Guia de compatibilidade de formato de dados

Este guia descreve os tipos de formato de dados que são compatíveis com as trabalhos de processamento do SageMaker Clarify. Os tipos de formato de dados compatíveis incluem extensões de arquivo, estrutura de dados e requisitos ou restrições específicas para conjuntos de dados tabulares, de imagem e de séries temporais. Este guia também mostra como verificar se seu conjunto de dados está em conformidade com esses requisitos.

Em alto nível, o trabalho de processamento do SageMaker Clarify segue o modelo de entrada-processo-saída para calcular métricas de polarização e atribuições de atributos. Consulte os exemplos a seguir para obter detalhes.

A entrada para o trabalho de processamento do SageMaker Clarify consiste no seguinte:

Durante a fase de processamento, o SageMaker Clarify calcula métricas de polarização e atribuições de atributos. O trabalho de processamento do SageMaker Clarify conclui as seguintes etapas no backend:

  • O trabalho de processamento do SageMaker Clarify analisa sua configuração de análise e carrega seu conjunto de dados.

  • Para calcular métricas de desvio pós-treinamento e atribuições de atributos, o trabalho exige predições de modelo do seu modelo. O trabalho de processamento do SageMaker Clarify serializa seus dados e os envia como uma solicitação ao seu modelo, que é implantado em um endpoint de inferência em tempo real do SageMaker. Depois disso, o trabalho de processamento do SageMaker Clarify extrai predições da resposta.

  • O trabalho de processamento do SageMaker Clarify executa a análise de parcialidade e explicabilidade e, em seguida, gera os resultados.

Para obter mais informações, consulteComo os trabalhos de processamento do SageMaker Clarify funcionam

O parâmetro usado para especificar o formato dos dados depende de onde os dados são usados no fluxo de processamento, como segue:

  • Para um conjunto de dados de entrada, use o parâmetro dataset_type para especificar o formato ou o tipo MIME.

  • Para uma solicitação para um endpoint, use o parâmetro content_type para especificar o formato.

  • Para uma solicitação para um endpoint, use o parâmetro accept_typepara especificar o formato.

O conjunto de dados de entrada, a solicitação e a resposta de e para o endpoint não exigem o mesmo formato. Por exemplo, você pode usar um conjunto de dados do Parquet com uma carga útil da solicitação CSV e uma carga útil da resposta de linhas JSON de acordo com as seguintes condições:

  • Sua análise está configurada corretamente.

  • Seu modelo oferece apoio aos formatos de solicitação e resposta.

nota

Se accept_type ou content_type não forem fornecidos, o contêiner do SageMaker Clarify infere o content_type e accept_type.