As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Arquivos de anotação em texto simples
Para anotações em texto simples, crie um arquivo de valores separados por vírgulas (CSV) contendo uma lista de anotações. O arquivo CSV deverá conter as seguintes colunas se o formato de entrada do arquivo de treinamento estiver configurado como um documento por linha.
Arquivo | Linha | Início deslocamento | Final deslocamento | Tipo |
---|---|---|---|---|
O nome do arquivo que contém o documento. Por exemplo, se um dos arquivos do documento estiver localizado em |
O número da linha que contém a entidade. Omita essa coluna se o formato de entrada estiver configurado como um documento por arquivo. |
O deslocamento de caracteres no texto de entrada (em relação ao início da linha) que mostra onde a entidade começa. O primeiro caractere está na posição 0. |
O deslocamento de caracteres no texto de entrada que mostra onde a entidade termina. |
O tipo de entidade definido pelo cliente. Os tipos de entidade devem ser uma sequência de caracteres em letras maiúsculas separadas por sublinhado. Recomendamos usar tipos de entidade descritivos, como |
Se o formato de entrada do arquivo de treinamento estiver configurado como um documento por arquivo, você omitirá a coluna do número de linha e os valores de Início deslocamento e Final deslocamento serão os deslocamentos da entidade desde o início do documento.
O exemplo a seguir é para um documento por linha. O arquivo documents.txt
contém 4 linhas (linhas 0, 1, 2 e 3):
Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.
O arquivo CSV com a lista de anotações é o seguinte:
File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
nota
No arquivo de anotações, o número da linha que contém a entidade começa com a linha 0. Neste exemplo, o arquivo CSV não contém nenhuma entrada para a linha 2 porque não há nenhuma entidade na linha 2 de documents.txt
.
Como criar seus arquivos de dados
Para reduzir o risco de erros, é importante colocar suas anotações em um arquivo CSV configurado corretamente. Para configurar seu arquivo CSV manualmente, o seguinte deve ser verdadeiro:
-
A codificação UTF-8 deve ser especificada explicitamente, mesmo que seja usada como padrão na maioria dos casos.
-
A primeira linha contém os cabeçalhos de coluna:
File
,Line
(opcional),Begin Offset
,End Offset
,Type
.
É altamente recomendável que você gere os arquivos de entrada CSV programaticamente para evitar possíveis problemas.
O exemplo a seguir usa Python para gerar um CSV para as anotações apresentadas anteriormente:
import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])