Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Entraînez des outils de reconnaissance personnalisés (console)
Vous pouvez créer des outils de reconnaissance d'entités personnalisés à l'aide de la console Amazon Comprehend. Cette section explique comment créer et entraîner un outil de reconnaissance d'entités personnalisé.
Rubriques
Pour créer le système de reconnaissance d'entités personnalisé, fournissez d'abord un jeu de données pour entraîner votre modèle. Avec cet ensemble de données, incluez l'un des éléments suivants : un ensemble de documents annotés ou une liste d'entités et leur étiquette de type, ainsi qu'un ensemble de documents contenant ces entités. Pour plus d’informations, consultez Reconnaissance d'entités personnalisée.
Pour entraîner un outil de reconnaissance d'entités personnalisé avec un fichier CSV
-
Connectez-vous à la console Amazon Comprehend AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/comprehend/
-
Dans le menu de gauche, choisissez Personnalisation, puis Reconnaissance d'entité personnalisée.
-
Choisissez Créer un nouveau modèle.
-
Donnez un nom au dispositif de reconnaissance. Le nom doit être unique au sein de la région et du compte.
-
Sélectionnez la langue.
-
Sous Type d'entité personnalisé, entrez une étiquette personnalisée que vous souhaitez que le dispositif de reconnaissance trouve dans le jeu de données.
Le type d'entité doit être en majuscules, et s'il est composé de plusieurs mots, séparez-les par un trait de soulignement.
-
Choisissez Ajouter un type.
-
Si vous souhaitez ajouter un type d'entité supplémentaire, saisissez-le, puis choisissez Ajouter un type. Si vous souhaitez supprimer l'un des types d'entités que vous avez ajoutés, choisissez Supprimer le type, puis choisissez le type d'entité à supprimer de la liste. Un maximum de 25 types d'entités peuvent être répertoriés.
-
Pour chiffrer votre tâche de formation, choisissez le chiffrement Recognizer, puis choisissez d'utiliser une KMS clé associée au compte courant ou une clé provenant d'un autre compte.
Si vous utilisez une clé associée au compte courant, dans le champ ID KMS clé, choisissez l'ID clé.
Si vous utilisez une clé associée à un autre compte, ARN saisissez l'identifiant de la KMSARNclé dans le champ clé.
Note
Pour plus d'informations sur la création et l'utilisation de KMS clés ainsi que sur le chiffrement associé, consultez AWS Key Management Service.
-
Sous Spécifications des données, choisissez le format de vos documents de formation :
-
CSVfichier — Un CSV fichier qui complète vos documents de formation. Le CSV fichier contient des informations sur les entités personnalisées que votre modèle entraîné détectera. Le format requis du fichier varie selon que vous fournissez des annotations ou une liste d'entités.
-
Manifeste augmenté : ensemble de données étiqueté produit par Amazon SageMaker Ground Truth. Ce fichier est au format JSON lignes. Chaque ligne est un JSON objet complet qui contient un document de formation et ses étiquettes. Chaque étiquette indique une entité nommée dans le document de formation. Vous pouvez fournir jusqu'à 5 fichiers manifestes augmentés.
Pour plus d'informations sur les formats disponibles et pour des exemples, consultezFormer des modèles de reconnaissance d'entités personnalisés.
-
-
Sous Type de formation, choisissez le type de formation à utiliser :
Utilisation des annotations et des documents de formation
Utilisation de la liste des entités et des documents de formation
Si vous choisissez des annotations, saisissez le nom URL du fichier d'annotations dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les fichiers d'annotation et choisir Browse S3.
Si vous choisissez une liste d'entités, saisissez URL celle de la liste d'entités dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouve la liste des entités et choisir Browse S3.
-
Entrez le nom URL d'un ensemble de données d'entrée contenant les documents de formation dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier d'Amazon S3 où se trouvent les documents de formation et choisir Sélectionner un dossier.
-
Sous Ensemble de données de test, sélectionnez la manière dont vous souhaitez évaluer les performances de votre modèle entraîné. Vous pouvez le faire à la fois pour les annotations et les types d'entraînement par liste d'entités.
-
Autosplit : Autosplit sélectionne automatiquement 10 % des données d'entraînement fournies à utiliser comme données de test
-
(Facultatif) Fourni par le client : lorsque vous sélectionnez Fourni par le client, vous pouvez spécifier exactement les données de test que vous souhaitez utiliser.
-
-
Si vous sélectionnez l'ensemble de données de test fourni par le client, entrez le fichier URL d'annotations dans Amazon S3. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les fichiers d'annotation et choisir Sélectionner un dossier.
-
Dans la section Choisissez un IAM rôle, sélectionnez un IAM rôle existant ou créez-en un nouveau.
-
Choisissez un IAM rôle existant : sélectionnez cette option si vous avez déjà un IAM rôle autorisé à accéder aux compartiments d'entrée et de sortie Amazon S3.
-
Créer un nouveau IAM rôle : sélectionnez cette option lorsque vous souhaitez créer un nouveau IAM rôle avec les autorisations appropriées permettant à Amazon Comprehend d'accéder aux compartiments d'entrée et de sortie.
Note
Si les documents d'entrée sont chiffrés, le IAM rôle utilisé doit disposer d'une
kms:Decrypt
autorisation. Pour de plus amples informations, veuillez consulter Autorisations requises pour utiliser KMS le chiffrement.
-
(Facultatif) Pour lancer vos ressources dans Amazon Comprehend à partir d'unVPC, entrez l'VPCidentifiant ci-dessous VPCou choisissez-le dans la liste déroulante.
Choisissez le sous-réseau sous Sous-réseau (s). Après avoir sélectionné le premier sous-réseau, vous pouvez en choisir d'autres.
Sous Groupe (s) de sécurité, choisissez le groupe de sécurité à utiliser si vous en avez spécifié un. Après avoir sélectionné le premier groupe de sécurité, vous pouvez en choisir d'autres.
Note
Lorsque vous utilisez un VPC avec votre tâche de reconnaissance d'entité personnalisée, le
DataAccessRole
fichier utilisé pour les opérations de création et de démarrage doit disposer des autorisations VPC permettant d'accéder aux documents d'entrée et au compartiment de sortie.-
(Facultatif) Pour ajouter une balise au système de reconnaissance d'entités personnalisé, entrez une paire clé-valeur sous Balises. Choisissez Ajouter une balise. Pour supprimer cette paire avant de créer le dispositif de reconnaissance, choisissez Supprimer le tag.
-
Choisissez Train.
Le nouveau dispositif de reconnaissance apparaîtra alors dans la liste et indiquera son statut. Il s'affichera d'abord sous la formeSubmitted
. Il s'affichera ensuite Training
pour un classificateur qui traite des documents de formation, Trained
pour un classificateur prêt à être utilisé et In error
pour un classificateur comportant une erreur. Vous pouvez cliquer sur une tâche pour obtenir plus d'informations sur le système de reconnaissance, y compris les éventuels messages d'erreur.
Pour entraîner un outil de reconnaissance d'entités personnalisé à l'aide d'un document en texte brut ou Word PDF
-
Connectez-vous à la console Amazon Comprehend AWS Management Console
et ouvrez-la. -
Dans le menu de gauche, choisissez Personnalisation, puis Reconnaissance d'entité personnalisée.
-
Choisissez Train recognizer.
-
Donnez un nom au dispositif de reconnaissance. Le nom doit être unique au sein de la région et du compte.
-
Sélectionnez la langue. Remarque : Si vous entraînez un document PDF ou un document Word, l'anglais est la langue prise en charge.
-
Sous Type d'entité personnalisé, entrez une étiquette personnalisée que vous souhaitez que le dispositif de reconnaissance trouve dans le jeu de données.
Le type d'entité doit être en majuscules, et s'il est composé de plusieurs mots, séparez-les par un trait de soulignement.
-
Choisissez Ajouter un type.
-
Si vous souhaitez ajouter un type d'entité supplémentaire, saisissez-le, puis choisissez Ajouter un type. Si vous souhaitez supprimer l'un des types d'entités que vous avez ajoutés, choisissez Supprimer le type, puis choisissez le type d'entité à supprimer de la liste. Un maximum de 25 types d'entités peuvent être répertoriés.
-
Pour chiffrer votre tâche de formation, choisissez le chiffrement Recognizer, puis choisissez d'utiliser une KMS clé associée au compte courant ou une clé provenant d'un autre compte.
-
Si vous utilisez une clé associée au compte courant, dans le champ ID KMS clé, choisissez l'ID clé.
-
Si vous utilisez une clé associée à un autre compte, ARN saisissez l'identifiant de la KMSARNclé dans le champ clé.
Note
Pour plus d'informations sur la création et l'utilisation de KMS clés ainsi que sur le chiffrement associé, consultez AWS Key Management Service.
-
-
Sous Données d'entraînement, choisissez le manifeste augmenté comme format de données :
-
Manifeste augmenté : ensemble de données étiqueté produit par Amazon SageMaker Ground Truth. Ce fichier est au format JSON lignes. Chaque ligne du fichier est un JSON objet complet qui contient un document de formation et ses étiquettes. Chaque étiquette indique une entité nommée dans le document de formation. Vous pouvez fournir jusqu'à 5 fichiers manifestes augmentés. Si vous utilisez des PDF documents pour les données d'entraînement, vous devez sélectionner le manifeste augmenté. Vous pouvez fournir jusqu'à 5 fichiers manifestes augmentés. Pour chaque fichier, vous pouvez nommer jusqu'à 5 attributs à utiliser comme données d'entraînement.
Pour plus d'informations sur les formats disponibles et pour des exemples, consultezFormer des modèles de reconnaissance d'entités personnalisés.
-
-
Sélectionnez le type de modèle d'entraînement.
Si vous avez sélectionné Documents en texte brut, sous Emplacement d'entrée, entrez le fichier Amazon S3 URL du manifeste augmenté Amazon SageMaker AIGround Truth. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les manifestes augmentés et choisir Sélectionner un dossier.
-
Sous Nom de l'attribut, entrez le nom de l'attribut qui contient vos annotations. Si le fichier contient des annotations provenant de plusieurs tâches d'étiquetage en chaîne, ajoutez un attribut pour chaque tâche. Dans ce cas, chaque attribut contient l'ensemble des annotations d'une tâche d'étiquetage. Remarque : Vous pouvez fournir jusqu'à 5 noms d'attributs pour chaque fichier.
-
Sélectionnez Ajouter.
-
Si vous avez sélectionné PDFDocuments Word sous Emplacement d'entrée, saisissez l'Amazon S3 URL du fichier manifeste augmenté Amazon SageMaker AI Ground Truth. Vous pouvez également accéder au compartiment ou au dossier dans Amazon S3 où se trouvent les manifestes augmentés et choisir Sélectionner un dossier.
-
Entrez le préfixe S3 pour vos fichiers de données d'annotation. Il s'agit des PDF documents que vous avez étiquetés.
-
Entrez le préfixe S3 pour vos documents source. Il s'agit des PDF documents originaux (objets de données) que vous avez fournis à Ground Truth pour votre travail d'étiquetage.
-
Entrez les noms des attributs qui contiennent vos annotations. Remarque : Vous pouvez fournir jusqu'à 5 noms d'attributs pour chaque fichier. Tous les attributs de votre fichier que vous ne spécifiez pas sont ignorés.
-
Dans la section des IAM rôles, sélectionnez un IAM rôle existant ou créez-en un nouveau.
-
Choisissez un IAM rôle existant : sélectionnez cette option si vous avez déjà un IAM rôle autorisé à accéder aux compartiments d'entrée et de sortie Amazon S3.
-
Créer un nouveau IAM rôle : sélectionnez cette option lorsque vous souhaitez créer un nouveau IAM rôle avec les autorisations appropriées permettant à Amazon Comprehend d'accéder aux compartiments d'entrée et de sortie.
Note
Si les documents d'entrée sont chiffrés, le IAM rôle utilisé doit disposer d'une
kms:Decrypt
autorisation. Pour de plus amples informations, veuillez consulter Autorisations requises pour utiliser KMS le chiffrement.
-
-
(Facultatif) Pour lancer vos ressources dans Amazon Comprehend à partir d'unVPC, entrez l'VPCidentifiant ci-dessous VPCou choisissez-le dans la liste déroulante.
-
Choisissez le sous-réseau sous Sous-réseau (s). Après avoir sélectionné le premier sous-réseau, vous pouvez en choisir d'autres.
-
Sous Groupe (s) de sécurité, choisissez le groupe de sécurité à utiliser si vous en avez spécifié un. Après avoir sélectionné le premier groupe de sécurité, vous pouvez en choisir d'autres.
Note
Lorsque vous utilisez un VPC avec votre tâche de reconnaissance d'entité personnalisée, le
DataAccessRole
fichier utilisé pour les opérations de création et de démarrage doit disposer des autorisations VPC permettant d'accéder aux documents d'entrée et au compartiment de sortie. -
-
(Facultatif) Pour ajouter une balise au système de reconnaissance d'entités personnalisé, entrez une paire clé-valeur sous Balises. Choisissez Ajouter une balise. Pour supprimer cette paire avant de créer le dispositif de reconnaissance, choisissez Supprimer le tag.
-
Choisissez Train.
Le nouveau dispositif de reconnaissance apparaîtra alors dans la liste et indiquera son statut. Il s'affichera d'abord sous la formeSubmitted
. Il s'affichera ensuite Training
pour un classificateur qui traite des documents de formation, Trained
pour un classificateur prêt à être utilisé et In error
pour un classificateur comportant une erreur. Vous pouvez cliquer sur une tâche pour obtenir plus d'informations sur le système de reconnaissance, y compris les éventuels messages d'erreur.