Créer une tâche d’étiquetage de classification de texte (Console)Créer une tâche d’étiquetage de classification de texte (API)Données de sortie de classification de texte

Catégorisation de texte à l’aide de la classification de texte (à étiquette unique)

Pour catégoriser les articles et le texte en catégories prédéfinies, utilisez la classification de texte. Par exemple, vous pouvez utiliser la classification de texte pour identifier le sentiment exprimé dans une révision ou l’émotion sous-jacente à une section de texte. Utilisez la classification de texte Amazon SageMaker Ground Truth pour que les employés trient le texte dans les catégories que vous définissez. Vous créez une tâche d'étiquetage de classification de texte à l'aide de la section Ground Truth de la console Amazon SageMaker AI ou de l'CreateLabelingJobopération.

Important

Si vous créez manuellement un fichier manifeste source, utilisez "source" pour identifier le texte à étiqueter. Pour de plus amples informations, veuillez consulter Données d’entrée.

Créer une tâche d’étiquetage de classification de texte (Console)

Vous pouvez suivre les instructions Création d’une tâche d’étiquetage (Console) pour savoir comment créer une tâche d'étiquetage de classification de texte dans la console SageMaker AI. À l’étape 10, choisissez Texte dans le menu déroulant Catégorie de tâches et choisissez Classification de texte (une étiquette) comme type de tâche.

Ground Truth fournit une interface utilisateur employé similaire à la suivante pour l’étiquetage des tâches. Lorsque vous créez la tâche d’étiquetage avec la console, vous spécifiez des instructions pour aider les collaborateurs à terminer la tâche et des étiquettes parmi lesquelles ceux-ci peuvent faire leur choix.

Gif montrant comment créer une tâche d'étiquetage de classification de texte dans la console SageMaker AI.

Créer une tâche d’étiquetage de classification de texte (API)

Pour créer une tâche d'étiquetage de classification de texte, utilisez l'opération SageMaker APICreateLabelingJob. Cette API définit cette opération pour tous les AWS SDK. Pour afficher la liste des kits SDK spécifiques à la langue pris en charge pour cette opération, consultez la section Voir aussi de CreateLabelingJob.

Suivez les instructions présentées dans Création d’une tâche d’étiquetage (API) et procédez comme suit pour configurer votre demande :

Pre-annotation Les fonctions Lambda pour ce type de tâche se terminent par. PRE-TextMultiClass Pour trouver l'ARN Lambda préalable à l'annotation pour votre région PreHumanTaskLambdaArn, consultez.
Annotation-consolidation Les fonctions Lambda pour ce type de tâche se terminent par. ACS-TextMultiClass Pour trouver l'ARN Lambda de consolidation des annotations pour votre région, consultez. AnnotationConsolidationLambdaArn

Voici un exemple de requête du kit SDK AWS Python (Boto3) pour créer une tâche d’étiquetage dans la région USA Est (Virginie du Nord). Tous les paramètres en rouge doivent être remplacés par vos spécifications et ressources.


response = client.create_labeling_job(
    LabelingJobName='example-text-classification-labeling-job,
    LabelAttributeName='label',
    InputConfig={
        'DataSource': {
            'S3DataSource': {
                'ManifestS3Uri': 's3://bucket/path/manifest-with-input-data.json'
            }
        },
        'DataAttributes': {
            'ContentClassifiers': [
                'FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent',
            ]
        }
    },
    OutputConfig={
        'S3OutputPath': 's3://bucket/path/file-to-store-output-data',
        'KmsKeyId': 'string'
    },
    RoleArn='arn:aws:iam::*:role/*,
    LabelCategoryConfigS3Uri='s3://bucket/path/label-categories.json',
    StoppingConditions={
        'MaxHumanLabeledObjectCount': 123,
        'MaxPercentageOfInputDatasetLabeled': 123
    },
    HumanTaskConfig={
        'WorkteamArn': 'arn:aws:sagemaker:region:*:workteam/private-crowd/*',
        'UiConfig': {
            'UiTemplateS3Uri': 's3://bucket/path/worker-task-template.html'
        },
        'PreHumanTaskLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:PRE-TextMultiClass,
        'TaskKeywords': [
            Text classification',
        ],
        'TaskTitle': Text classification task',
        'TaskDescription': 'Carefully read and classify this text using the categories provided.',
        'NumberOfHumanWorkersPerDataObject': 123,
        'TaskTimeLimitInSeconds': 123,
        'TaskAvailabilityLifetimeInSeconds': 123,
        'MaxConcurrentTaskCount': 123,
        'AnnotationConsolidationConfig': {
            'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:ACS-TextMultiClass'
        },
    Tags=[
        {
            'Key': 'string',
            'Value': 'string'
        },
    ]
)

Fournir un modèle pour les tâches d’étiquetage de classification de texte

Si vous créez une tâche d’étiquetage à l’aide de l’API, vous devez fournir un modèle de tâche d’employé dans UiTemplateS3Uri. Copiez et modifiez le modèle suivant. Modifiez uniquement short-instructions, full-instructions, et header.

Téléchargez ce modèle vers S3 et fournissez l’URI S3 pour ce fichier dans UiTemplateS3Uri.


<script src="https://assets.crowd.aws/crowd-html-elements.js"></script>
<crowd-form>
  <crowd-classifier
    name="crowd-classifier"
    categories="{{ task.input.labels | to_json | escape }}"
    header="classify text"
  >
    <classification-target style="white-space: pre-wrap">
      {{ task.input.taskObject }}
    </classification-target>
    <full-instructions header="Classifier instructions">
      <ol><li><strong>Read</strong> the text carefully.</li>
      <li><strong>Read</strong> the examples to understand more about the options.</li>
      <li><strong>Choose</strong> the appropriate labels that best suit the text.</li></ol>
    </full-instructions>
    <short-instructions>
      <p>Enter description of the labels that workers have to choose from</p>
      <p><br></p><p><br></p><p>Add examples to help workers understand the label</p>
      <p><br></p><p><br></p><p><br></p><p><br></p><p><br></p>
    </short-instructions>
  </crowd-classifier>
  </crowd-form>

Données de sortie de classification de texte

Une fois que vous avez créé une tâche d’étiquetage de classification de texte, vos données de sortie seront situées dans le compartiment Amazon S3 spécifié dans le paramètre S3OutputPath lorsque vous utilisez l’API ou dans le champ Output dataset location (Emplacement du jeu de données de sortie) de la section Job overview (Présentation de la tâche) de la console.

Pour en savoir plus sur le fichier manifeste de sortie généré par Ground Truth et sur la structure de fichier que ce dernier utilise pour stocker vos données de sortie, consultez Étiquetage des données de sortie des tâches.

Pour accéder à un exemple de fichier manifeste en sortie pour la tâche d’étiquetage de classification de texte, consultez Sortie de la tâche de classification.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Extraction d’informations textuelles en utilisant la reconnaissance des entités nommées

Catégoriser le texte à l'aide de la classification de texte () Multi-label