Arquivos de anotação em texto simples - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Arquivos de anotação em texto simples

Para anotações em texto simples, crie um arquivo de valores separados por vírgulas (CSV) contendo uma lista de anotações. O arquivo CSV deverá conter as seguintes colunas se o formato de entrada do arquivo de treinamento estiver configurado como um documento por linha.

Arquivo Linha Início deslocamento Final deslocamento Tipo

O nome do arquivo que contém o documento. Por exemplo, se um dos arquivos do documento estiver localizado em s3://my-S3-bucket/test-files/documents.txt, o valor na coluna File será documents.txt. Você deve incluir a extensão do arquivo (nesse caso, “.txt”) como parte do nome do arquivo.

O número da linha que contém a entidade. Omita essa coluna se o formato de entrada estiver configurado como um documento por arquivo.

O deslocamento de caracteres no texto de entrada (em relação ao início da linha) que mostra onde a entidade começa. O primeiro caractere está na posição 0.

O deslocamento de caracteres no texto de entrada que mostra onde a entidade termina.

O tipo de entidade definido pelo cliente. Os tipos de entidade devem ser uma sequência de caracteres em letras maiúsculas separadas por sublinhado. Recomendamos usar tipos de entidade descritivos, como MANAGER, SENIOR_MANAGER ou PRODUCT_CODE. É possível treinar até 25 tipos de entidades por modelo.

Se o formato de entrada do arquivo de treinamento estiver configurado como um documento por arquivo, você omitirá a coluna do número de linha e os valores de Início deslocamento e Final deslocamento serão os deslocamentos da entidade desde o início do documento.

O exemplo a seguir é para um documento por linha. O arquivo documents.txt contém 4 linhas (linhas 0, 1, 2 e 3):

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

O arquivo CSV com a lista de anotações é o seguinte:

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
nota

No arquivo de anotações, o número da linha que contém a entidade começa com a linha 0. Neste exemplo, o arquivo CSV não contém nenhuma entrada para a linha 2 porque não há nenhuma entidade na linha 2 de documents.txt.

Como criar seus arquivos de dados

Para reduzir o risco de erros, é importante colocar suas anotações em um arquivo CSV configurado corretamente. Para configurar seu arquivo CSV manualmente, o seguinte deve ser verdadeiro:

  • A codificação UTF-8 deve ser especificada explicitamente, mesmo que seja usada como padrão na maioria dos casos.

  • A primeira linha contém os cabeçalhos de coluna: File, Line (opcional), Begin Offset, End Offset, Type.

É altamente recomendável que você gere os arquivos de entrada CSV programaticamente para evitar possíveis problemas.

O exemplo a seguir usa Python para gerar um CSV para as anotações apresentadas anteriormente:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])