Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Reconnaissance d'entités personnalisée
La reconnaissance personnalisée des entités étend les fonctionnalités d'Amazon Comprehend en vous aidant à identifier vos nouveaux types d'entités spécifiques qui ne figurent pas dans les types d'entités génériques prédéfinis. Cela signifie que vous pouvez analyser des documents et extraire des entités telles que des codes de produit ou des entités spécifiques à l'entreprise qui répondent à vos besoins particuliers.
Construire vous-même un outil de reconnaissance d'entités personnalisé précis peut s'avérer un processus complexe, qui nécessite la préparation de grands ensembles de documents de formation annotés manuellement et la sélection des algorithmes et paramètres appropriés pour l'entraînement des modèles. Amazon Comprehend contribue à réduire la complexité en fournissant des annotations automatiques et en développant des modèles afin de créer un modèle de reconnaissance d'entité personnalisé.
La création d'un modèle de reconnaissance d'entités personnalisé est une approche plus efficace que l'utilisation de correspondances de chaînes ou d'expressions régulières pour extraire des entités de documents. Par exemple, pour extraire les noms d'ENGINEER dans un document, il est difficile d'énumérer tous les noms possibles. De plus, sans contexte, il est difficile de faire la distinction entre les noms ENGINEER et ANALYST. Un modèle de reconnaissance d'entité personnalisé peut connaître le contexte dans lequel ces noms sont susceptibles d'apparaître. En outre, la correspondance de chaînes ne détectera pas les entités présentant des fautes de frappe ou respectant de nouvelles conventions de dénomination, alors que cela est possible à l'aide d'un modèle personnalisé.
Deux options s'offrent à vous pour créer un modèle personnalisé :
-
Annotations : fournissez un ensemble de données contenant des entités annotées pour l'entraînement des modèles.
-
Listes d'entités (texte brut uniquement) : fournissez une liste d'entités et leur étiquette de type (par exemple, un ensemble de documents non annotés contenant ces entités pour l'apprentissage des modèles).
PRODUCT_CODES
Lorsque vous créez un outil de reconnaissance d'entités personnalisé à l'aide de fichiers PDF annotés, vous pouvez l'utiliser avec différents formats de fichiers d'entrée : texte brut, fichiers image (JPG, PNG, TIFF), fichiers PDF et documents Word, sans prétraitement ni aplatissement du document. Amazon Comprehend ne prend pas en charge l'annotation de fichiers image ou de documents Word.
Note
Un outil de reconnaissance d'entités personnalisé utilisant des fichiers PDF annotés ne prend en charge que les documents en anglais.
Vous pouvez entraîner un modèle sur un maximum de 25 entités personnalisées à la fois. Pour plus de détails, consultez la page Directives et quotas.
Une fois votre modèle entraîné, vous pouvez l'utiliser pour la détection d'entités en temps réel et dans le cadre de tâches de détection d'entités.