As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Iniciando um trabalho personalizado de detecção de entidades (API)
Você pode usar a API para iniciar e monitorar um trabalho de análise assíncrona para reconhecimento personalizado de entidades.
Para iniciar um trabalho personalizado de detecção de entidades com a StartEntitiesDetectionJoboperação, você fornece o EntityRecognizerArn, que é o Amazon Resource Name (ARN) do modelo treinado. Você pode encontrar esse ARN na resposta à CreateEntityRecognizeroperação.
Tópicos
Detectando entidades personalizadas usando o AWS Command Line Interface
Use o exemplo a seguir para ambientes Unix, Linux e macOS. Para Windows, substitua o caractere de continuação Unix de barra invertida (\) no final de cada linha por um circunflexo (^). Para detectar entidades personalizadas em um conjunto de documentos, use a seguinte sintaxe de solicitação:
aws comprehend start-entities-detection-job \ --entity-recognizer-arn "arn:aws:comprehend:
region
:account number
:entity-recognizer/test-6" \ --job-name infer-1 \ --data-access-role-arn "arn:aws:iam::account number
:role/service-role/AmazonComprehendServiceRole-role" \ --language-code en \ --input-data-config "S3Uri=s3://Bucket Name
/Bucket Path
" \ --output-data-config "S3Uri=s3://Bucket Name
/Bucket Path
/" \ --regionregion
O Amazon Comprehend responde com JobID
e JobStatus
e retornará a saída do trabalho no bucket do S3 que você especificou na solicitação.
Detectando entidades personalizadas usando o AWS SDK for Java
Para obter exemplos do Amazon Comprehend com Java, consulte exemplos em Java para o Amazon Comprehend
Detectando entidades personalizadas usando o AWS SDK for Python (Boto3)
Este exemplo cria um reconhecedor de entidades personalizado, treina o modelo e o executa em um trabalho de reconhecimento de entidades usando o AWS SDK for Python (Boto3).
Instancie o SDK Python.
import boto3 import uuid comprehend = boto3.client("comprehend", region_name="
region
")
Crie um reconhecedor de entidades:
response = comprehend.create_entity_recognizer( RecognizerName="Recognizer-Name-Goes-Here-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="
Role ARN
", InputDataConfig={ "EntityTypes": [ { "Type": "ENTITY_TYPE
" } ], "Documents": { "S3Uri": "s3://Bucket Name
/Bucket Path
/documents" }, "Annotations": { "S3Uri": "s3://Bucket Name
/Bucket Path
/annotations" } } ) recognizer_arn = response["EntityRecognizerArn"]
Listar todos os reconhecedores:
response = comprehend.list_entity_recognizers()
Aguarde até que o reconhecedor de entidades atinja o status TRAINED:
while True: response = comprehend.describe_entity_recognizer( EntityRecognizerArn=recognizer_arn ) status = response["EntityRecognizerProperties"]["Status"] if "IN_ERROR" == status: sys.exit(1) if "TRAINED" == status: break time.sleep(10)
Inicie um trabalho personalizado de detecção de entidades:
response = comprehend.start_entities_detection_job( EntityRecognizerArn=recognizer_arn, JobName="Detection-Job-Name-{}".format(str(uuid.uuid4())), LanguageCode="en", DataAccessRoleArn="
Role ARN
", InputDataConfig={ "InputFormat": "ONE_DOC_PER_LINE", "S3Uri": "s3://Bucket Name
/Bucket Path
/documents" }, OutputDataConfig={ "S3Uri": "s3://Bucket Name
/Bucket Path
/output" } )
Substituindo ações de API para arquivos em PDF
Para arquivos de imagem e arquivos em PDF, você pode substituir as ações padrão de extração usando o parâmetro DocumentReaderConfig
em InputDataConfig
.
O exemplo a seguir define um arquivo JSON chamado myInputData config.json para definir os valores. InputDataConfig
Ele configura DocumentReadConfig
para usar a API DetectDocumentText
do Amazon Textract para todos os arquivos em PDF.
"InputDataConfig": { "S3Uri": s3://
Bucket Name
/Bucket Path
", "InputFormat": "ONE_DOC_PER_FILE", "DocumentReaderConfig": { "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT", "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION" } }
Na StartEntitiesDetectionJob
operação, especifique o arquivo myInputData config.json como parâmetro: InputDataConfig
--input-data-config file://myInputDataConfig.json
Para obter mais informações sobre o parâmetro DocumentReaderConfig
, consulte Configurando opções de extração de texto.