

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Formatos de arquivo de treinamento do classificador
<a name="prep-class-data-format"></a>

Para um modelo de texto sem formatação, você pode fornecer dados de treinamento do classificador como um arquivo CSV ou como um arquivo de manifesto aumentado que você cria usando o AI Ground Truth. SageMaker O arquivo CSV ou arquivo de manifesto aumentado inclui o texto de cada documento de treinamento e seus rótulos associados.

Para um modelo de documento nativo, você fornece dados do classificador de treinamento como um arquivo CSV. O arquivo CSV inclui o nome do arquivo de cada documento de treinamento e seus rótulos associados. Você inclui os documentos de treinamento na pasta de entrada do Amazon S3 para a tarefa de treinamento.

## Arquivos CSV
<a name="prep-data-csv"></a>

Você fornece dados de treinamento rotulados como texto codificado em UTF-8 em um arquivo CSV. Não inclua uma linha de cabeçalho. Adicionar uma linha de cabeçalho em seu arquivo pode causar erros runtime.

Para cada linha no arquivo CSV, a primeira coluna contém um ou mais rótulos de classe. Um rótulo de classe pode ser qualquer string UTF-8 válida. Recomendamos usar nomes de classe claros que não se sobreponham em significado. O nome pode incluir espaço em branco e consistir em várias palavras conectadas por sublinhados ou hífens.

Não deixe nenhum caractere de espaço antes ou depois das vírgulas que separam os valores em uma linha. 

O conteúdo exato do arquivo CSV depende do modo classificador e do tipo de dados de treinamento. Para mais detalhes, consulte as seções em [Modo multiclasse](prep-classifier-data-multi-class.md) e [Modo multirrótulo](prep-classifier-data-multi-label.md).

## Arquivo de manifesto aumentado
<a name="prep-data-annotations"></a>

Um arquivo de manifesto aumentado é um conjunto de dados rotulado que você cria usando o AI Ground SageMaker Truth. O Ground Truth é um serviço de rotulagem de dados que ajuda você ou seus funcionários a criar conjuntos de dados de treinamento para modelos de machine learning. 

Para obter mais informações sobre o Ground Truth e os resultados que ele produz, consulte [Use o SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) no *Amazon SageMaker AI Developer Guide*.

Os arquivos de manifesto aumentado estão no formato de linhas JSON. Nesses arquivos, cada linha é um objeto JSON completo que contém um documento de treinamento e seus rótulos associados. O conteúdo exato de cada linha depende do modo classificador. Para mais detalhes, consulte as seções em [Modo multiclasse](prep-classifier-data-multi-class.md) e [Modo multirrótulo](prep-classifier-data-multi-label.md).

Ao fornecer seus dados de treinamento ao Amazon Comprehend, você especifica um ou mais nomes de atributos do rótulo. A quantidade de nomes de atributos que você especifica depende se seu arquivo de manifesto aumentado é a saída de uma única tarefa de rotulagem ou de uma tarefa de rotulagem em cadeia.

Se seu arquivo for a saída de uma tarefa de rotulagem única, especifique o nome do atributo de rótulo único da tarefa do Ground Truth. 

Se seu arquivo for a saída de um trabalho de rotulagem em cadeia, especifique o nome de atributo de rótulo etiqueta para um ou mais trabalhos na cadeia. Cada nome de atributo de rótulo fornece as anotações de uma tarefa individual. Você pode especificar até 5 desses atributos para arquivos de manifesto aumentados a partir de tarefas de rotulagem encadeadas. 

Para obter mais informações sobre trabalhos de etiquetagem em cadeia e para obter exemplos dos resultados que eles produzem, consulte [Encadeamento de trabalhos de etiquetagem](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) no Amazon SageMaker AI Developer Guide.