Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparation des données de formation du système de reconnaissance d'entités
Pour former un modèle personnalisé de reconnaissance d'entités efficace, il est important de fournir au formateur des données de haute qualité en entrée. Sans données fiables, le modèle n'apprendra pas à identifier correctement les entités.
Vous pouvez choisir l'une des deux méthodes suivantes pour fournir des données à Amazon Comprehend afin de créer un modèle de reconnaissance d'entité personnalisé :
-
Liste des entités : répertorie les entités spécifiques afin qu'Amazon Comprehend puisse s'entraîner à identifier vos entités personnalisées. Remarque : Les listes d'entités ne peuvent être utilisées que pour les documents en texte brut.
-
Annotations — Fournit l'emplacement de vos entités dans un certain nombre de documents afin qu'Amazon Comprehend puisse s'entraîner à la fois sur l'entité et sur son contexte. Pour créer un modèle permettant d'analyser des fichiers image ou des documents Word PDFs, vous devez entraîner votre outil de reconnaissance à l'aide d'annotations PDF.
Dans les deux cas, Amazon Comprehend découvre le type de documents et le contexte dans lequel les entités apparaissent et crée un outil de reconnaissance capable de généraliser pour détecter les nouvelles entités lorsque vous analysez des documents.
Lorsque vous créez un modèle personnalisé (ou que vous entraînez une nouvelle version), vous pouvez fournir un jeu de données de test. Si vous ne fournissez pas de données de test, Amazon Comprehend réserve 10 % des documents d'entrée pour tester le modèle. Amazon Comprehend entraîne le modèle avec les autres documents.
Si vous fournissez un jeu de données de test pour votre ensemble d'entraînement aux annotations, les données de test doivent inclure au moins une annotation pour chacun des types d'entités spécifiés dans la demande de création.
Rubriques
Quand utiliser des annotations plutôt que des listes d'entités
La création d'annotations demande plus de travail que la création d'une liste d'entités, mais le modèle obtenu peut être nettement plus précis. L'utilisation d'une liste d'entités est plus rapide et demande moins de travail, mais les résultats sont moins précis et moins précis. Cela est dû au fait que les annotations fournissent plus de contexte à Amazon Comprehend lors de l'entraînement du modèle. Sans ce contexte, Amazon Comprehend aura un plus grand nombre de faux positifs lorsqu'il tentera d'identifier les entités.
Il existe des scénarios dans lesquels il est plus judicieux sur le plan commercial d'éviter les dépenses et la charge de travail accrues liées à l'utilisation des annotations. Par exemple, le nom John Johnson est important pour votre recherche, mais il n'est pas pertinent de savoir s'il s'agit de la personne exacte. Ou bien, lorsque vous utilisez la liste d'entités, les indicateurs sont suffisamment bons pour vous fournir les résultats de reconnaissance dont vous avez besoin. Dans de tels cas, l'utilisation d'une liste d'entités peut être le choix le plus efficace.
Nous recommandons d'utiliser le mode annotations dans les cas suivants :
-
Si vous prévoyez d'effectuer des inférences pour des fichiers image ou PDFs des documents Word. Dans ce scénario, vous entraînez un modèle à l'aide de fichiers PDF annotés et vous l'utilisez pour exécuter des tâches d'inférence pour des fichiers image et des documents Word. PDFs
-
Quand la signification des entités peut être ambiguë et dépendre du contexte. Par exemple, le terme Amazon peut désigner le fleuve au Brésil ou le détaillant en ligne Amazon.com. Lorsque vous créez un outil de reconnaissance d'entités personnalisé pour identifier des entités commerciales telles qu'Amazon, vous devez utiliser des annotations plutôt qu'une liste d'entités, car cette méthode permet de mieux utiliser le contexte pour rechercher des entités.
-
Lorsque vous êtes à l'aise pour configurer un processus d'acquisition d'annotations, ce qui peut nécessiter un certain effort.
Nous vous recommandons d'utiliser une liste d'entités dans les cas suivants :
-
Lorsque vous avez déjà une liste d'entités ou lorsqu'il est relativement facile de composer une liste complète d'entités. Si vous utilisez une liste d'entités, celle-ci doit être complète ou au moins couvrir la majorité des entités valides susceptibles de figurer dans les documents que vous fournissez pour la formation.
-
Pour les nouveaux utilisateurs, il est généralement recommandé d'utiliser une liste d'entités, car cela demande moins d'efforts que la création d'annotations. Cependant, il est important de noter que le modèle entraîné n'est peut-être pas aussi précis que si vous utilisiez des annotations.