Guia de compatibilidade de formato de dados

Este guia descreve os tipos de formato de dados que são compatíveis com as tarefas de processamento do SageMaker Clarify. Os tipos de formato de dados compatíveis incluem extensões de arquivo, estrutura de dados e requisitos ou restrições específicas para conjuntos de dados tabulares, de imagem e de séries temporais. Este guia também mostra como verificar se seu conjunto de dados está em conformidade com esses requisitos.

Em um alto nível, o trabalho de processamento do SageMaker Clarify segue o modelo de entrada-processo-saída para calcular métricas de viés e atribuições de recursos. Consulte os exemplos a seguir para obter detalhes.

A entrada para a tarefa de processamento do SageMaker Clarify consiste no seguinte:

O conjunto de dados a ser analisado.
O configuração de análise Para obter mais informações sobre como configurar uma análise, consulte Arquivos de configuração de análise.

Durante o estágio de processamento, o SageMaker Clarify calcula métricas de viés e atribuições de recursos. O trabalho de processamento do SageMaker Clarify conclui as seguintes etapas no back-end:

O trabalho de processamento do SageMaker Clarify analisa sua configuração de análise e carrega seu conjunto de dados.
Para calcular métricas de desvio pós-treinamento e atribuições de atributos, o trabalho exige predições de modelo do seu modelo. O trabalho de processamento do SageMaker Clarify serializa seus dados e os envia como uma solicitação ao seu modelo, que é implantado em um endpoint de inferência de SageMaker IA em tempo real. Depois disso, o trabalho de processamento do SageMaker Clarify extrai previsões da resposta.
O trabalho de processamento do SageMaker Clarify executa a análise de viés e explicabilidade e, em seguida, gera os resultados.

Para obter mais informações, consulte Como funcionam os trabalhos de processamento do SageMaker Clarify.

O parâmetro usado para especificar o formato dos dados depende de onde os dados são usados no fluxo de processamento, como segue:

Para um conjunto de dados de entrada, use o parâmetro dataset_type para especificar o formato ou o tipo MIME.
Para uma solicitação para um endpoint, use o parâmetro content_type para especificar o formato.
Para uma solicitação para um endpoint, use o parâmetro accept_typepara especificar o formato.

O conjunto de dados de entrada, a solicitação e a resposta de e para o endpoint não exigem o mesmo formato. Por exemplo, você pode usar um conjunto de dados do Parquet com uma carga útil da solicitação CSV e uma carga útil da resposta de linhas JSON de acordo com as seguintes condições:

Sua análise está configurada corretamente.
Seu modelo oferece apoio aos formatos de solicitação e resposta.

nota

Se content_type ou não accept_type forem fornecidos, o contêiner SageMaker Clarify content_type infere o e. accept_type

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Arquivos de configuração de análise

Dados tabulares