

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# File di annotazione in testo semplice
<a name="cer-annotation-csv"></a>

Per le annotazioni in testo semplice, si crea un file con valori separati da virgole (CSV) che contiene un elenco di annotazioni. **Il file CSV deve contenere le seguenti colonne se il formato di input del file di training è un documento per riga.**


| File | Line (Linea) | Offset iniziale | Offset finale | Tipo | 
| --- | --- | --- | --- | --- | 
|  Il nome del file contenente il documento. Ad esempio, se uno dei file del documento si trova in`s3://my-S3-bucket/test-files/documents.txt`, il valore nella `File` colonna sarà`documents.txt`. È necessario includere l'estensione del file (in questo caso '`.txt`') come parte del nome del file.  |  Il numero di riga contenente l'entità. Ometti questa colonna se il formato di input è un documento per file.  |  L'offset dei caratteri nel testo di input (rispetto all'inizio della riga) che mostra dove inizia l'entità. Il primo carattere si trova nella posizione 0.  |  L'offset dei caratteri nel testo di input che mostra dove finisce l'entità.  |  Il tipo di entità definito dal cliente. I tipi di entità devono essere una stringa maiuscola separata da un carattere di sottolineatura. Consigliamo di utilizzare tipi di entità descrittivi come, o. `MANAGER` `SENIOR_MANAGER` `PRODUCT_CODE` È possibile addestrare fino a 25 tipi di entità per modello.  | 

Se il formato di input del file di addestramento è **un documento per file**, si omette la colonna del numero di riga e i valori **Offset iniziale** e **Offset finale** sono gli offset dell'entità dall'inizio del documento.

L'esempio seguente riguarda un documento per riga. Il file `documents.txt` contiene quattro righe (righe 0, 1, 2 e 3):

```
Diego Ramirez is an engineer in the high tech industry.
Emilio Johnson has been an engineer for 14 years.
J Doe is a judge on the Washington Supreme Court.
Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.
```

Il file CSV con l'elenco delle annotazioni è il seguente: 

```
File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENGINEER
documents.txt, 1, 0, 14, ENGINEER
documents.txt, 3, 25, 38, MANAGER
```

**Nota**  
Nel file di annotazioni, il numero di riga contenente l'entità inizia con la riga 0. In questo esempio, il file CSV non contiene alcuna voce per la riga 2 perché non c'è alcuna entità nella riga 2 di. `documents.txt`

**Creazione dei file di dati**

È importante inserire le annotazioni in un file CSV configurato correttamente per ridurre il rischio di errori. Per configurare manualmente il file CSV, deve essere vero quanto segue:
+ La codifica UTF-8 deve essere specificata in modo esplicito, anche se viene utilizzata come impostazione predefinita nella maggior parte dei casi.
+ La prima riga contiene le intestazioni delle colonne:`File`, `Line` (opzionale),,. `Begin Offset` `End Offset` `Type`

Ti consigliamo vivamente di generare i file di input CSV a livello di codice per evitare potenziali problemi.

L'esempio seguente usa Python per generare un CSV per le annotazioni mostrate in precedenza:

```
import csv 
with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"])
    csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"])
    csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])
```