Há mais AWS SDK exemplos disponíveis no GitHub repositório AWS Doc SDK Examples
As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Use StartDocumentClassificationJob
com um AWS SDK ou CLI
Os exemplos de código a seguir mostram como usar o StartDocumentClassificationJob
.
Exemplos de ações são trechos de código de programas maiores e devem ser executados em contexto. É possível ver essa ação no contexto no seguinte exemplo de código:
- CLI
-
- AWS CLI
-
Para iniciar um trabalho de classificação de documento
O exemplo de
start-document-classification-job
a seguir inicia um trabalho de classificação de documentos com um modelo personalizado em todos os arquivos no endereço especificado pela tag--input-data-config
. Neste exemplo, o bucket do S3 de entrada contémSampleSMStext1.txt
,SampleSMStext2.txt
eSampleSMStext3.txt
. O modelo foi previamente treinado em classificações de documentos de spam e não spam, ou mensagens “falsas”. SMS Quando o trabalho é concluído,output.tar.gz
é colocado no local especificado pela tag--output-data-config
.output.tar.gz
contémpredictions.jsonl
, que lista a classificação de cada documento. A saída Json é impressa em uma linha por arquivo, mas foi formatada aqui para facilitar a leitura.aws comprehend start-document-classification-job \ --job-name
exampleclassificationjob
\ --input-data-config"S3Uri=s3://DOC-EXAMPLE-BUCKET-INPUT/jobdata/"
\ --output-data-config"S3Uri=s3://DOC-EXAMPLE-DESTINATION-BUCKET/testfolder/"
\ --data-access-role-arnarn:aws:iam::111122223333:role/service-role/AmazonComprehendServiceRole-example-role
\ --document-classifier-arnarn:aws:comprehend:us-west-2:111122223333:document-classifier/mymodel/version/12
Conteúdo de
SampleSMStext1.txt
:"CONGRATULATIONS! TXT 2155550100 to win $5000"
Conteúdo de
SampleSMStext2.txt
:"Hi, when do you want me to pick you up from practice?"
Conteúdo de
SampleSMStext3.txt
:"Plz send bank account # to 2155550100 to claim prize!!"
Saída:
{ "JobId": "e758dd56b824aa717ceab551fEXAMPLE", "JobArn": "arn:aws:comprehend:us-west-2:111122223333:document-classification-job/e758dd56b824aa717ceab551fEXAMPLE", "JobStatus": "SUBMITTED" }
Conteúdo de
predictions.jsonl
:{"File": "SampleSMSText1.txt", "Line": "0", "Classes": [{"Name": "spam", "Score": 0.9999}, {"Name": "ham", "Score": 0.0001}]} {"File": "SampleSMStext2.txt", "Line": "0", "Classes": [{"Name": "ham", "Score": 0.9994}, {"Name": "spam", "Score": 0.0006}]} {"File": "SampleSMSText3.txt", "Line": "0", "Classes": [{"Name": "spam", "Score": 0.9999}, {"Name": "ham", "Score": 0.0001}]}
Para obter mais informações, consulte Classificação personalizada no Guia do desenvolvedor do Amazon Comprehend.
-
Para API obter detalhes, consulte StartDocumentClassificationJob
na Referência de AWS CLI Comandos.
-
- Python
-
- SDKpara Python (Boto3)
-
nota
Tem mais sobre GitHub. Encontre o exemplo completo e saiba como configurar e executar no Repositório de exemplos de código da AWS
. class ComprehendClassifier: """Encapsulates an Amazon Comprehend custom classifier.""" def __init__(self, comprehend_client): """ :param comprehend_client: A Boto3 Comprehend client. """ self.comprehend_client = comprehend_client self.classifier_arn = None def start_job( self, job_name, input_bucket, input_key, input_format, output_bucket, output_key, data_access_role_arn, ): """ Starts a classification job. The classifier must be trained or the job will fail. Input is read from the specified Amazon S3 input bucket and written to the specified output bucket. Output data is stored in a tar archive compressed in gzip format. The job runs asynchronously, so you can call `describe_document_classification_job` to get job status until it returns a status of SUCCEEDED. :param job_name: The name of the job. :param input_bucket: The Amazon S3 bucket that contains input data. :param input_key: The prefix used to find input data in the input bucket. If multiple objects have the same prefix, all of them are used. :param input_format: The format of the input data, either one document per file or one document per line. :param output_bucket: The Amazon S3 bucket where output data is written. :param output_key: The prefix prepended to the output data. :param data_access_role_arn: The Amazon Resource Name (ARN) of a role that grants Comprehend permission to read from the input bucket and write to the output bucket. :return: Information about the job, including the job ID. """ try: response = self.comprehend_client.start_document_classification_job( DocumentClassifierArn=self.classifier_arn, JobName=job_name, InputDataConfig={ "S3Uri": f"s3://{input_bucket}/{input_key}", "InputFormat": input_format.value, }, OutputDataConfig={"S3Uri": f"s3://{output_bucket}/{output_key}"}, DataAccessRoleArn=data_access_role_arn, ) logger.info( "Document classification job %s is %s.", job_name, response["JobStatus"] ) except ClientError: logger.exception("Couldn't start classification job %s.", job_name) raise else: return response
-
Para API obter detalhes, consulte a StartDocumentClassificationJobReferência AWS SDK do Python (Boto3). API
-