Classificar texto com classificação de texto (Rótulo Único)

Modo de foco

Classificar texto com classificação de texto (Rótulo Único) - SageMaker IA da Amazon

Criar um trabalho de rotulagem de classificação de texto (Console)Criar um trabalho de rotulagem de classificação de texto (API)Dados de saída de classificação de texto

Para categorizar artigos e texto em categorias predefinidas, use a classificação de texto. Por exemplo, você pode usar a classificação de texto para identificar o sentimento transmitido em uma revisão ou a emoção implícita em uma seção de texto. Use a classificação de texto Amazon SageMaker Ground Truth para que os funcionários classifiquem o texto em categorias definidas por você. Você cria um trabalho de rotulagem de classificação de texto usando a seção Ground Truth do console Amazon SageMaker AI ou a CreateLabelingJoboperação.

Importante

Se você criar manualmente um arquivo de manifesto de entrada, use "source" para identificar o texto que você deseja rotular. Para obter mais informações, consulte Dados de entrada.

Criar um trabalho de rotulagem de classificação de texto (Console)

Você pode seguir as instruções Criar um trabalho de rotulagem (console) para aprender como criar um trabalho de rotulagem de classificação de texto no console de SageMaker IA. Na Etapa 10, escolha Texto no menu suspenso Categoria de tarefa e Classificação de texto (Único rótulo) como o tipo de tarefa.

O Ground Truth fornece uma interface de usuário do operador que se parece com a seguinte para tarefas de rotulagem: Ao criar o trabalho de rotulagem com o console, você especifica instruções para ajudar os operadores a concluírem o trabalho e os rótulos que eles podem escolher.

Gif mostrando como criar um trabalho de rotulagem de classificação de texto no console de SageMaker IA.

Criar um trabalho de rotulagem de classificação de texto (API)

Para criar um trabalho de rotulagem de classificação de texto, use a operação SageMaker da APICreateLabelingJob. Essa API define essa operação para todos AWS SDKs. Para ver uma lista de idiomas específicos com SDKs suporte para essa operação, consulte a seção Consulte também do. CreateLabelingJob

Siga as instruções em Criar um trabalho de rotulagem (API) e faça o seguinte enquanto você configura a solicitação:

As funções do Lambda de pré-anotação para esse tipo de tarefa terminam com PRE-TextMultiClass. Para encontrar a pré-anotação Lambda ARN para sua região, consulte. PreHumanTaskLambdaArn
As funções do Lambda de consolidação de anotações para esse tipo de tarefa terminam com ACS-TextMultiClass. Para encontrar o ARN Lambda de consolidação de anotações para sua região, consulte. AnnotationConsolidationLambdaArn

Veja a seguir um exemplo de uma solicitação do SDK Python (Boto3) da AWS para criar um trabalho de rotulagem de dados automatizada na região Leste dos EUA (Norte da Virgínia). Todos os parâmetros em vermelho devem ser substituídos por suas especificações e recursos.


response = client.create_labeling_job(
    LabelingJobName='example-text-classification-labeling-job,
    LabelAttributeName='label',
    InputConfig={
        'DataSource': {
            'S3DataSource': {
                'ManifestS3Uri': 's3://bucket/path/manifest-with-input-data.json'
            }
        },
        'DataAttributes': {
            'ContentClassifiers': [
                'FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent',
            ]
        }
    },
    OutputConfig={
        'S3OutputPath': 's3://bucket/path/file-to-store-output-data',
        'KmsKeyId': 'string'
    },
    RoleArn='arn:aws:iam::*:role/*,
    LabelCategoryConfigS3Uri='s3://bucket/path/label-categories.json',
    StoppingConditions={
        'MaxHumanLabeledObjectCount': 123,
        'MaxPercentageOfInputDatasetLabeled': 123
    },
    HumanTaskConfig={
        'WorkteamArn': 'arn:aws:sagemaker:region:*:workteam/private-crowd/*',
        'UiConfig': {
            'UiTemplateS3Uri': 's3://bucket/path/worker-task-template.html'
        },
        'PreHumanTaskLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:PRE-TextMultiClass,
        'TaskKeywords': [
            Text classification',
        ],
        'TaskTitle': Text classification task',
        'TaskDescription': 'Carefully read and classify this text using the categories provided.',
        'NumberOfHumanWorkersPerDataObject': 123,
        'TaskTimeLimitInSeconds': 123,
        'TaskAvailabilityLifetimeInSeconds': 123,
        'MaxConcurrentTaskCount': 123,
        'AnnotationConsolidationConfig': {
            'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:ACS-TextMultiClass'
        },
    Tags=[
        {
            'Key': 'string',
            'Value': 'string'
        },
    ]
)

Fornecer um modelo para trabalhos de rotulagem de classificação de texto

Se você criar um trabalho de rotulagem usando a API, será necessário fornecer um modelo de tarefas de operador em UiTemplateS3Uri. Copie e modifique o modelo a seguir. Modifique somente short-instructions, full-instructions e header.

Faça upload deste modelo para o S3 e forneça o URI do S3 para este arquivo em UiTemplateS3Uri.


<script src="https://assets.crowd.aws/crowd-html-elements.js"></script>
<crowd-form>
  <crowd-classifier
    name="crowd-classifier"
    categories="{{ task.input.labels | to_json | escape }}"
    header="classify text"
  >
    <classification-target style="white-space: pre-wrap">
      {{ task.input.taskObject }}
    </classification-target>
    <full-instructions header="Classifier instructions">
      <ol><li><strong>Read</strong> the text carefully.</li>
      <li><strong>Read</strong> the examples to understand more about the options.</li>
      <li><strong>Choose</strong> the appropriate labels that best suit the text.</li></ol>
    </full-instructions>
    <short-instructions>
      <p>Enter description of the labels that workers have to choose from</p>
      <p><br></p><p><br></p><p>Add examples to help workers understand the label</p>
      <p><br></p><p><br></p><p><br></p><p><br></p><p><br></p>
    </short-instructions>
  </crowd-classifier>
  </crowd-form>

Dados de saída de classificação de texto

Depois de criar um trabalho de rotulagem de classificação de texto, seus dados de saída serão localizados no bucket do Amazon S3 especificado no parâmetro S3OutputPath ao usar a API ou no campo Local do conjunto de dados de saída da seção Visão geral do trabalho do console.

Para saber mais sobre o arquivo manifesto de saída gerado pelo Ground Truth, e sobre a estrutura do arquivo que o Ground Truth usa para armazenar os dados de saída, consulte Rotulando dados de saída do trabalho.

Para ver um exemplo de arquivo manifesto de saída de um trabalho de rotulagem de classificação de texto, consulte Saída do trabalho de classificação.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Extraia informações de texto usando o reconhecimento de entidade nomeada

Categorizar o texto com classificação de texto (multirrótulo)

Nesta página

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Classificar texto com classificação de texto (Rótulo Único)

Importante

Criar um trabalho de rotulagem de classificação de texto (Console)

Criar um trabalho de rotulagem de classificação de texto (API)

Fornecer um modelo para trabalhos de rotulagem de classificação de texto

Dados de saída de classificação de texto

Nesta página

Esta página foi útil?

Próximo tópico:

Tópico anterior:

Precisa de ajuda?

Gif mostrando como criar um trabalho de rotulagem de classificação de texto no console de SageMaker IA.