File di annotazione in testo semplice - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

File di annotazione in testo semplice

Per le annotazioni in testo semplice, si crea un file con valori separati da virgole (CSV) che contiene un elenco di annotazioni. Il file CSV deve contenere le seguenti colonne se il formato di input del file di training è un documento per riga.

File Line (Linea) Offset iniziale Offset finale Type

Il nome del file contenente il documento. Ad esempio, se uno dei file del documento si trova ins3://my-S3-bucket/test-files/documents.txt, il valore nella File colonna saràdocuments.txt. È necessario includere l'estensione del file (in questo caso '.txt') come parte del nome del file.

Il numero di riga contenente l'entità. Ometti questa colonna se il formato di input è un documento per file.

L'offset dei caratteri nel testo di input (rispetto all'inizio della riga) che mostra dove inizia l'entità. Il primo carattere si trova nella posizione 0.

L'offset dei caratteri nel testo di input che mostra dove finisce l'entità.

Il tipo di entità definito dal cliente. I tipi di entità devono essere una stringa maiuscola separata da un carattere di sottolineatura. Consigliamo di utilizzare tipi di entità descrittivi come, o. MANAGER SENIOR_MANAGER PRODUCT_CODE È possibile addestrare fino a 25 tipi di entità per modello.

Se il formato di input del file di addestramento è un documento per file, si omette la colonna del numero di riga e i valori Offset iniziale e Offset finale sono gli offset dell'entità dall'inizio del documento.

L'esempio seguente riguarda un documento per riga. Il file documents.txt contiene quattro righe (righe 0, 1, 2 e 3):

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

Il file CSV con l'elenco delle annotazioni è il seguente:

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
Nota

Nel file di annotazioni, il numero di riga contenente l'entità inizia con la riga 0. In questo esempio, il file CSV non contiene alcuna voce per la riga 2 perché non c'è alcuna entità nella riga 2 di. documents.txt

Creazione dei file di dati

È importante inserire le annotazioni in un file CSV configurato correttamente per ridurre il rischio di errori. Per configurare manualmente il file CSV, deve essere vero quanto segue:

  • La codifica UTF-8 deve essere specificata in modo esplicito, anche se viene utilizzata come impostazione predefinita nella maggior parte dei casi.

  • La prima riga contiene le intestazioni delle colonne:File, Line (opzionale),,. Begin Offset End Offset Type

Ti consigliamo vivamente di generare i file di input CSV a livello di codice per evitare potenziali problemi.

L'esempio seguente usa Python per generare un file CSV per le annotazioni mostrate in precedenza:

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])