

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Preparar dados de treinamento do classificador
<a name="prep-classifier-data"></a>

Para classificação personalizada, você treina o modelo no modo multiclasse ou no modo multirrótulos. O modo multiclasse associa uma única classe a cada documento. O modo multirrótulos associa uma ou mais classes a cada documento. Os formatos de arquivo de entrada são diferentes para cada modo, então escolha o modo a ser usado antes de criar os dados de treinamento. 

**nota**  
O console do Amazon Comprehend se refere ao modo multiclasse como modo de rótulo único.

A classificação personalizada é compatível com modelos que você treina com documentos sem formatação e modelos treinados com documentos originais (como PDF, Word ou imagens). Para mais informações sobre modelos de classificadores e seus tipos de documentos compatíveis, consulte [Modelos de classificação de treinamento](training-classifier-model.md).

Preparar dados para treinar um modelo de classificador personalizado: 

1. Identifique as classes que você deseja que esse classificador analise. Decida qual modo usar (multiclasse ou multirrótulo).

1. Decida o tipo de modelo do classificador, com base no modelo ter o fim de analisar documentos de texto simples ou documentos semiestruturados. 

1. Reúna exemplos de documentos para cada uma das classes. Para obter os requisitos mínimos de treinamento, consulte[Cotas gerais para classificação de documentos](guidelines-and-limits.md#limits-class-general).

1. Para um modelo de texto sem formatação, escolha o formato de arquivo de treinamento a ser usado (arquivo CSV ou arquivo de manifesto aumentado). Para treinar um modelo de documento nativo, você sempre usa um arquivo CSV. 

**Topics**
+ [Formatos de arquivo de treinamento do classificador](prep-class-data-format.md)
+ [Modo multiclasse](prep-classifier-data-multi-class.md)
+ [Modo multirrótulo](prep-classifier-data-multi-label.md)

# Formatos de arquivo de treinamento do classificador
<a name="prep-class-data-format"></a>

Para um modelo de texto sem formatação, você pode fornecer dados de treinamento do classificador como um arquivo CSV ou como um arquivo de manifesto aumentado que você cria usando o AI Ground Truth. SageMaker O arquivo CSV ou arquivo de manifesto aumentado inclui o texto de cada documento de treinamento e seus rótulos associados.

Para um modelo de documento nativo, você fornece dados do classificador de treinamento como um arquivo CSV. O arquivo CSV inclui o nome do arquivo de cada documento de treinamento e seus rótulos associados. Você inclui os documentos de treinamento na pasta de entrada do Amazon S3 para a tarefa de treinamento.

## Arquivos CSV
<a name="prep-data-csv"></a>

Você fornece dados de treinamento rotulados como texto codificado em UTF-8 em um arquivo CSV. Não inclua uma linha de cabeçalho. Adicionar uma linha de cabeçalho em seu arquivo pode causar erros runtime.

Para cada linha no arquivo CSV, a primeira coluna contém um ou mais rótulos de classe. Um rótulo de classe pode ser qualquer string UTF-8 válida. Recomendamos usar nomes de classe claros que não se sobreponham em significado. O nome pode incluir espaço em branco e consistir em várias palavras conectadas por sublinhados ou hífens.

Não deixe nenhum caractere de espaço antes ou depois das vírgulas que separam os valores em uma linha. 

O conteúdo exato do arquivo CSV depende do modo classificador e do tipo de dados de treinamento. Para mais detalhes, consulte as seções em [Modo multiclasse](prep-classifier-data-multi-class.md) e [Modo multirrótulo](prep-classifier-data-multi-label.md).

## Arquivo de manifesto aumentado
<a name="prep-data-annotations"></a>

Um arquivo de manifesto aumentado é um conjunto de dados rotulado que você cria usando o AI Ground SageMaker Truth. O Ground Truth é um serviço de rotulagem de dados que ajuda você ou seus funcionários a criar conjuntos de dados de treinamento para modelos de machine learning. 

Para obter mais informações sobre o Ground Truth e os resultados que ele produz, consulte [Use o SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) no *Amazon SageMaker AI Developer Guide*.

Os arquivos de manifesto aumentado estão no formato de linhas JSON. Nesses arquivos, cada linha é um objeto JSON completo que contém um documento de treinamento e seus rótulos associados. O conteúdo exato de cada linha depende do modo classificador. Para mais detalhes, consulte as seções em [Modo multiclasse](prep-classifier-data-multi-class.md) e [Modo multirrótulo](prep-classifier-data-multi-label.md).

Ao fornecer seus dados de treinamento ao Amazon Comprehend, você especifica um ou mais nomes de atributos do rótulo. A quantidade de nomes de atributos que você especifica depende se seu arquivo de manifesto aumentado é a saída de uma única tarefa de rotulagem ou de uma tarefa de rotulagem em cadeia.

Se seu arquivo for a saída de uma tarefa de rotulagem única, especifique o nome do atributo de rótulo único da tarefa do Ground Truth. 

Se seu arquivo for a saída de um trabalho de rotulagem em cadeia, especifique o nome de atributo de rótulo etiqueta para um ou mais trabalhos na cadeia. Cada nome de atributo de rótulo fornece as anotações de uma tarefa individual. Você pode especificar até 5 desses atributos para arquivos de manifesto aumentados a partir de tarefas de rotulagem encadeadas. 

Para obter mais informações sobre trabalhos de etiquetagem em cadeia e para obter exemplos dos resultados que eles produzem, consulte [Encadeamento de trabalhos de etiquetagem](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) no Amazon SageMaker AI Developer Guide.

# Modo multiclasse
<a name="prep-classifier-data-multi-class"></a>

No modo multiclasse, a classificação atribui uma classe para cada documento. As classes individuais são mutuamente exclusivas. Por exemplo, você pode classificar um filme como comédia ou ficção científica, mas não ambos. 

**nota**  
O console do Amazon Comprehend se refere ao modo multiclasse como modo de rótulo único.

**Topics**
+ [Modelos de texto sem formatação](#prep-multi-class-plaintext)
+ [Modelos de documento originais](#prep-multi-class-structured)

## Modelos de texto sem formatação
<a name="prep-multi-class-plaintext"></a>

Para treinar um modelo de texto simples, você pode fornecer dados de treinamento rotulados como um arquivo CSV ou como um arquivo de manifesto aumentado do AI Ground Truth. SageMaker 

### Arquivo CSV
<a name="prep-multi-class-plaintext-csv"></a>

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte [Arquivos CSV](prep-class-data-format.md#prep-data-csv).

Forneça os dados de treinamento como um arquivo CSV de duas colunas. Para cada linha, a primeira coluna contém o valor do rótulo da classe. A segunda coluna contém um exemplo de documento de texto para essa classe. Cada linha deve terminar com caracteres \$1n ou \$1r\$1n.

O exemplo a seguir mostra um arquivo CSV contendo três documentos.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar se uma mensagem de e-mail é spam:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### Arquivo de manifesto aumentado
<a name="prep-multi-class-plaintext-manifest"></a>

Para informações gerais sobre o uso de arquivos de manifesto aumentados para treinar classificadores, consulte [Arquivo de manifesto aumentado](prep-class-data-format.md#prep-data-annotations).

Para documentos de texto sem formatação, cada linha do arquivo de manifesto aumentado é um objeto JSON completo contendo um documento de treinamento, um único nome de classe e outros metadados do Ground Truth. O exemplo a seguir é um arquivo de manifesto aumentado para treinar um classificador personalizado a fim de reconhecer mensagens de e-mail de spam:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 O exemplo a seguir mostra um objeto JSON do arquivo de manifesto aumentado, formatado para facilitar a leitura: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

Neste exemplo, o atributo `source` fornece o texto do documento de treinamento e o atributo `MultiClassJob` atribui o índice de uma classe de uma lista de classificação. O atributo `job-name` é o nome que você definiu para a tarefa de rotulagem no Ground Truth. 

 Ao iniciar a tarefa de treinamento de classificadores no Amazon Comprehend, você especifica o mesmo nome da tarefa de rotulagem. 

## Modelos de documento originais
<a name="prep-multi-class-structured"></a>

Um modelo de documento nativo é um modelo que você treina com documentos nativos (como PDF, DOCX e imagens). Você fornece os dados de treinamento como um arquivo CSV.

### Arquivo CSV
<a name="prep-multi-class-structured-csv"></a>

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte [Arquivos CSV](prep-class-data-format.md#prep-data-csv).

Forneça os dados de treinamento como um arquivo CSV de três colunas. Para cada linha, a primeira coluna contém o valor do rótulo da classe. A segunda coluna contém o nome do arquivo de um documento de exemplo para essa classe. A terceira coluna contém o número da página. O número da página é opcional se o documento de exemplo for uma imagem.

O exemplo a seguir mostra um arquivo CSV que faz referência a três documentos de entrada. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar se uma mensagem de e-mail é spam. A página 2 do arquivo PDF contém o exemplo de spam. 

```
SPAM,email-content-3.pdf,2
```

# Modo multirrótulo
<a name="prep-classifier-data-multi-label"></a>

No modo multirrótulo, as classes individuais representam categorias diferentes que não são mutuamente exclusivas. A classificação multirrótulo atribui uma ou mais classes a cada documento. Por exemplo, você pode classificar um filme como documentário e outro filme como ficção científica, ação e comédia. 

Para treinamento, o modo multirrótulo suporta até 1 milhão de exemplos contendo até 100 classes exclusivas.

**Topics**
+ [Modelos de texto sem formatação](#prep-multi-label-plaintext)
+ [Modelos de documento originais](#prep-multi-label-structured)

## Modelos de texto sem formatação
<a name="prep-multi-label-plaintext"></a>

Para treinar um modelo de texto simples, você pode fornecer dados de treinamento rotulados como um arquivo CSV ou como um arquivo de manifesto aumentado do AI Ground Truth. SageMaker 

### Arquivo CSV
<a name="prep-multi-label-plaintext-csv"></a>

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte [Arquivos CSV](prep-class-data-format.md#prep-data-csv).

Forneça os dados de treinamento como um arquivo CSV de duas colunas. Para cada linha, a primeira coluna contém os valores do rótulo da classe e a segunda coluna contém um exemplo de documento de texto para essas classes. Para inserir mais de uma classe na primeira coluna, use um delimitador (como \$1) entre cada classe.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar gêneros em resumos de filmes:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

O delimitador padrão entre os nomes das classes é uma barra vertical, também chamada de pipe (\$1). No entanto, é possível usar um caractere diferente como um delimitador. O delimitador deve ser diferente de todos os caracteres nos nomes de suas classes. Por exemplo, se suas classes são CLASSE\$11, CLASSE\$12 e CLASSE\$13, o sublinhado (**\$1**) faz parte do nome da classe. Portanto, não use um sublinhado como delimitador para separar os nomes das classes.

### Arquivo de manifesto aumentado
<a name="prep-multi-label-plaintext-manifest"></a>

Para informações gerais sobre o uso de arquivos de manifesto aumentados para treinar classificadores, consulte [Arquivo de manifesto aumentado](prep-class-data-format.md#prep-data-annotations).

Para documentos de texto sem formatação, cada linha do arquivo de manifesto aumentado é um objeto JSON completo. Ele contém um documento de treinamento, nomes de classes e outros metadados do Ground Truth. O exemplo a seguir é um arquivo de manifesto aumentado para treinar um classificador personalizado a fim de detectar gêneros em resumos de filmes:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 O exemplo a seguir mostra um objeto JSON do arquivo de manifesto aumentado, formatado para facilitar a leitura: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

Neste exemplo, o atributo `source` fornece o texto do documento de treinamento e o atributo `MultiLabelJob` atribui os índices de várias classes de uma lista de classificação. O nome da tarefa nos metadados do `MultiLabelJob` é o nome que você definiu para a tarefa de rotulagem no Ground Truth. 

## Modelos de documento originais
<a name="prep-multi-label-structured"></a>

Um modelo de documento nativo é um modelo que você treina com documentos nativos (como PDF, DOCX e arquivos de imagem). Você fornece dados de treinamento rotulados como um arquivo CSV.

### Arquivo CSV
<a name="prep-multi-label-structured-csv"></a>

Para informações gerais sobre como usar arquivos CSV para classificadores de treinamento, consulte [Arquivos CSV](prep-class-data-format.md#prep-data-csv).

Forneça os dados de treinamento como um arquivo CSV de três colunas. Para cada linha, a primeira coluna contém os valores do rótulo da classe. A segunda coluna contém o nome do arquivo de um documento de exemplo para essas classes. A terceira coluna contém o número da página. O número da página é opcional se o documento de exemplo for uma imagem.

Para inserir mais de uma classe na primeira coluna, use um delimitador (como \$1) entre cada classe.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

O exemplo a seguir mostra uma linha de um arquivo CSV que treina um classificador personalizado para detectar gêneros em resumos de filmes. A página 2 do arquivo PDF contém o exemplo de um comedy/teen filme.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

O delimitador padrão entre os nomes das classes é uma barra vertical, também chamada de pipe (\$1). No entanto, é possível usar um caractere diferente como um delimitador. O delimitador deve ser diferente de todos os caracteres nos nomes de suas classes. Por exemplo, se suas classes são CLASSE\$11, CLASSE\$12 e CLASSE\$13, o sublinhado (**\$1**) faz parte do nome da classe. Portanto, não use um sublinhado como delimitador para separar os nomes das classes.