Fichiers d'annotations en texte brut - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Fichiers d'annotations en texte brut

Pour les annotations en texte brut, vous créez un fichier de valeurs séparées par des virgules (CSV) qui contient une liste d'annotations. Le fichier CSV doit contenir les colonnes suivantes si le format d'entrée de votre fichier de formation est d'un document par ligne.

Fichier Line Commencer le décalage Décalage final Type

Nom du fichier contenant le document. Par exemple, si l'un des fichiers du document se trouve danss3://my-S3-bucket/test-files/documents.txt, la valeur de la File colonne seradocuments.txt. Vous devez inclure l'extension du fichier (dans ce cas .txt « ») dans le nom du fichier.

Numéro de ligne contenant l'entité. Omettez cette colonne si votre format d'entrée est un document par fichier.

Décalage de caractères dans le texte saisi (par rapport au début de la ligne) qui indique le point de départ de l'entité. Le premier caractère est à la position 0.

Le décalage de caractères dans le texte d'entrée qui indique où se termine l'entité.

Type d'entité défini par le client. Les types d'entités doivent être des chaînes majuscules séparées par des traits de soulignement. Nous vous recommandons d'utiliser des types d'entités descriptifs tels que MANAGERSENIOR_MANAGER, ouPRODUCT_CODE. Jusqu'à 25 types d'entités peuvent être formés par modèle.

Si le format d'entrée de votre fichier de formation est d'un document par fichier, vous omettez la colonne des numéros de ligne et les valeurs de décalage de début et de fin sont les décalages de l'entité depuis le début du document.

L'exemple suivant concerne un document par ligne. Le fichier documents.txt contient quatre lignes (lignes 0, 1, 2 et 3) :

Diego Ramirez is an engineer in the high tech industry. Emilio Johnson has been an engineer for 14 years. J Doe is a judge on the Washington Supreme Court. Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.

Le fichier CSV contenant la liste des annotations est le suivant :

File, Line, Begin Offset, End Offset, Type documents.txt, 0, 0, 13, ENGINEER documents.txt, 1, 0, 14, ENGINEER documents.txt, 3, 25, 38, MANAGER
Note

Dans le fichier d'annotations, le numéro de ligne contenant l'entité commence par la ligne 0. Dans cet exemple, le fichier CSV ne contient aucune entrée pour la ligne 2 car il n'y a aucune entité dans la ligne 2 dedocuments.txt.

Création de vos fichiers de données

Il est important de placer vos annotations dans un fichier CSV correctement configuré afin de réduire le risque d'erreurs. Pour configurer manuellement votre fichier CSV, les conditions suivantes doivent être remplies :

  • Le codage UTF-8 doit être explicitement spécifié, même s'il est utilisé par défaut dans la plupart des cas.

  • La première ligne contient les en-têtes de colonne :File, Line (facultatif),, Begin OffsetEnd Offset,Type.

Nous vous recommandons vivement de générer les fichiers d'entrée CSV par programmation afin d'éviter d'éventuels problèmes.

L'exemple suivant utilise Python pour générer un fichier CSV pour les annotations présentées précédemment :

import csv with open("./annotations/annotations.csv", "w", encoding="utf-8") as csv_file: csv_writer = csv.writer(csv_file) csv_writer.writerow(["File", "Line", "Begin Offset", "End Offset", "Type"]) csv_writer.writerow(["documents.txt", 0, 0, 11, "ENGINEER"]) csv_writer.writerow(["documents.txt", 1, 0, 5, "ENGINEER"]) csv_writer.writerow(["documents.txt", 3, 25, 30, "MANAGER"])