À utiliser `StartDocumentClassificationJob` avec un AWS SDKou CLI

Les exemples de code suivants montrent comment utiliserStartDocumentClassificationJob.

Les exemples d’actions sont des extraits de code de programmes de plus grande envergure et doivent être exécutés en contexte. Vous pouvez voir cette action en contexte dans l’exemple de code suivant :

Formez un classificateur personnalisé et classez des documents

CLI

AWS CLI

Pour démarrer une tâche de classification de documents

L'start-document-classification-jobexemple suivant démarre une tâche de classification de documents avec un modèle personnalisé sur tous les fichiers à l'adresse spécifiée par la --input-data-config balise. Dans cet exemple, le compartiment S3 d'entrée contient SampleSMStext1.txtSampleSMStext2.txt, etSampleSMStext3.txt. Le modèle a déjà été formé à la classification des documents contenant du spam et des SMS messages non indésirables, ou « spam ». Lorsque le travail est terminé, output.tar.gz il est placé à l'emplacement spécifié par la --output-data-config balise. output.tar.gzpredictions.jsonlcontient la liste de classification de chaque document. La sortie Json est imprimée sur une ligne par fichier, mais elle est formatée ici pour des raisons de lisibilité.


aws comprehend start-document-classification-job \
    --job-name exampleclassificationjob \
    --input-data-config "S3Uri=s3://DOC-EXAMPLE-BUCKET-INPUT/jobdata/" \
    --output-data-config "S3Uri=s3://DOC-EXAMPLE-DESTINATION-BUCKET/testfolder/" \
    --data-access-role-arn arn:aws:iam::111122223333:role/service-role/AmazonComprehendServiceRole-example-role \
    --document-classifier-arn arn:aws:comprehend:us-west-2:111122223333:document-classifier/mymodel/version/12

Contenu de SampleSMStext1.txt :


"CONGRATULATIONS! TXT 2155550100 to win $5000"

Contenu de SampleSMStext2.txt :


"Hi, when do you want me to pick you up from practice?"

Contenu de SampleSMStext3.txt :


"Plz send bank account # to 2155550100 to claim prize!!"

Sortie :


{
    "JobId": "e758dd56b824aa717ceab551fEXAMPLE",
    "JobArn": "arn:aws:comprehend:us-west-2:111122223333:document-classification-job/e758dd56b824aa717ceab551fEXAMPLE",
    "JobStatus": "SUBMITTED"
}

Contenu de predictions.jsonl :


{"File": "SampleSMSText1.txt", "Line": "0", "Classes": [{"Name": "spam", "Score": 0.9999}, {"Name": "ham", "Score": 0.0001}]}
{"File": "SampleSMStext2.txt", "Line": "0", "Classes": [{"Name": "ham", "Score": 0.9994}, {"Name": "spam", "Score": 0.0006}]}
{"File": "SampleSMSText3.txt", "Line": "0", "Classes": [{"Name": "spam", "Score": 0.9999}, {"Name": "ham", "Score": 0.0001}]}

Pour plus d'informations, consultez la section Classification personnalisée dans le manuel Amazon Comprehend Developer Guide.

Pour API plus de détails, voir StartDocumentClassificationJobdans AWS CLI Référence de commande.

Python

SDKpour Python (Boto3)

Note

Il y en a plus sur GitHub. Consultez l'exemple complet et apprenez à configurer et à exécuter dans AWS Référentiel d'exemples de code.


class ComprehendClassifier:
    """Encapsulates an Amazon Comprehend custom classifier."""

    def __init__(self, comprehend_client):
        """
        :param comprehend_client: A Boto3 Comprehend client.
        """
        self.comprehend_client = comprehend_client
        self.classifier_arn = None


    def start_job(
        self,
        job_name,
        input_bucket,
        input_key,
        input_format,
        output_bucket,
        output_key,
        data_access_role_arn,
    ):
        """
        Starts a classification job. The classifier must be trained or the job
        will fail. Input is read from the specified Amazon S3 input bucket and
        written to the specified output bucket. Output data is stored in a tar
        archive compressed in gzip format. The job runs asynchronously, so you can
        call `describe_document_classification_job` to get job status until it
        returns a status of SUCCEEDED.

        :param job_name: The name of the job.
        :param input_bucket: The Amazon S3 bucket that contains input data.
        :param input_key: The prefix used to find input data in the input
                          bucket. If multiple objects have the same prefix, all
                          of them are used.
        :param input_format: The format of the input data, either one document per
                             file or one document per line.
        :param output_bucket: The Amazon S3 bucket where output data is written.
        :param output_key: The prefix prepended to the output data.
        :param data_access_role_arn: The Amazon Resource Name (ARN) of a role that
                                     grants Comprehend permission to read from the
                                     input bucket and write to the output bucket.
        :return: Information about the job, including the job ID.
        """
        try:
            response = self.comprehend_client.start_document_classification_job(
                DocumentClassifierArn=self.classifier_arn,
                JobName=job_name,
                InputDataConfig={
                    "S3Uri": f"s3://{input_bucket}/{input_key}",
                    "InputFormat": input_format.value,
                },
                OutputDataConfig={"S3Uri": f"s3://{output_bucket}/{output_key}"},
                DataAccessRoleArn=data_access_role_arn,
            )
            logger.info(
                "Document classification job %s is %s.", job_name, response["JobStatus"]
            )
        except ClientError:
            logger.exception("Couldn't start classification job %s.", job_name)
            raise
        else:
            return response

Pour API plus de détails, voir StartDocumentClassificationJobdans AWS SDKpour Python (Boto3) Reference. API

Pour une liste complète des AWS SDKguides du développeur et exemples de code, voirUtilisation d'Amazon Comprehend avec un SDK AWS. Cette rubrique inclut également des informations sur la mise en route et des détails sur SDK les versions précédentes.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

ListTopicsDetectionJobs

StartTopicsDetectionJob

À utiliser StartDocumentClassificationJob avec un AWS SDKou CLI

Note

À utiliser `StartDocumentClassificationJob` avec un AWS SDKou CLI