Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Démarrage d'une tâche de détection d'entités personnalisée (API)
Vous pouvez utiliser l'API pour démarrer et surveiller une tâche d'analyse asynchrone pour une reconnaissance d'entité personnalisée.
Pour démarrer une tâche de détection d'entité personnalisée avec l'StartEntitiesDetectionJobopération, vous devez fournir le EntityRecognizerArn, qui est l'Amazon Resource Name (ARN) du modèle entraîné. Vous pouvez trouver cet ARN dans la réponse à l'CreateEntityRecognizeropération.
Rubriques
Détection d'entités personnalisées à l'aide du AWS Command Line Interface
Utilisez l'exemple suivant pour les environnements Unix, Linux et macOS. Pour Windows, remplacez le caractère de continuation Unix, à savoir la barre oblique inversée (\), à la fin de chaque ligne par un accent circonflexe (^). Pour détecter des entités personnalisées dans un ensemble de documents, utilisez la syntaxe de demande suivante :
aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:
region
:account number
:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number
:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name
/Bucket Path
" \ --output-data-config "S3Uri=s3://Bucket Name
/Bucket Path
/" \ --regionregion
Amazon Comprehend répond par le JobID
JobStatus
et renvoie le résultat de la tâche dans le compartiment S3 que vous avez spécifié dans la demande.
Détection d'entités personnalisées à l'aide du AWS SDK for Java
Pour des exemples Amazon Comprehend utilisant Java, consultez les exemples Amazon Comprehend
Détection d'entités personnalisées à l'aide du AWS SDK for Python (Boto3)
Cet exemple crée un outil de reconnaissance d'entités personnalisé, entraîne le modèle, puis l'exécute dans une tâche de reconnaissance d'entités à l'aide du. AWS SDK for Python (Boto3)
Instanciez le SDK pour Python.
import boto3 import uuid comprehend = boto3.client("comprehend", region_name="
region
")
Créez un outil de reconnaissance d'entités :
response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="
Role ARN
", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE
" } ], "Documents": { "S3Uri": "s3://Bucket Name
/Bucket Path
/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name
/Bucket Path
/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]
Répertoriez tous les outils de reconnaissance :
response = comprehend.list_entity_recognizers()
Attendez que le système de reconnaissance d'entités atteigne le statut TRAINED :
while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)
Démarrez une tâche de détection d'entités personnalisée :
response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="
Role ARN
", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name
/Bucket Path
/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name
/Bucket Path
/output" } )
Remplacer les actions de l'API pour les fichiers PDF
Pour les fichiers image et les fichiers PDF, vous pouvez remplacer les actions d'extraction par défaut à l'aide du DocumentReaderConfig
paramètre inInputDataConfig
.
L'exemple suivant définit un fichier JSON nommé myInputData Config.json pour définir les InputDataConfig
valeurs. Il est configuré DocumentReadConfig
pour utiliser l'DetectDocumentText
API Amazon Textract pour tous les fichiers PDF.
"InputDataConfig": { "S3Uri": s3://
Bucket Name
/Bucket Path
", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }
Dans l'StartEntitiesDetectionJob
opération, spécifiez le fichier myInputData Config.json comme paramètre : InputDataConfig
--input-data-config file://myInputDataConfig.json
Pour plus d'informations sur les DocumentReaderConfig
paramètres, consultezConfiguration des options d'extraction de texte.