텍스트 분류(단일 레이블)로 텍스트 분류 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

텍스트 분류(단일 레이블)로 텍스트 분류

기사 및 텍스트를 미리 정의된 범주로 분류하려면 텍스트 분류를 사용합니다. 예를 들어 텍스트 분류를 사용하여 검토 시 전달되는 감성 또는 텍스트 섹션의 기본이 되는 감정을 식별할 수 있습니다. Amazon SageMaker Ground Truth 텍스트 분류를 사용하여 작업자가 텍스트를 정의한 범주로 정렬하도록 할 수 있습니다. Amazon SageMaker 콘솔의 Ground Truth 섹션 또는 작업을 사용하여 텍스트 분류 레이블 CreateLabelingJob 지정 작업을 생성합니다.

중요

입력 매니페스트 파일을 수동으로 생성하는 경우 레이블을 지정하려는 텍스트를 식별하는 데 "source"를 사용하세요. 자세한 내용은 입력 데이터 단원을 참조하십시오.

텍스트 분류 레이블 지정 작업 생성(콘솔)

지침에 따라 SageMaker 콘솔에서 텍스트 분류 레이블 지정 작업을 생성하는 방법을 레이블 지정 작업 생성(콘솔) 알아볼 수 있습니다. 10단계에서 작업 범주 드롭다운 메뉴에서 텍스트를 선택하고 작업 유형으로 텍스트 분류(단일 레이블)를 선택합니다.

Ground Truth에서는 작업에 레이블을 지정할 때 다음과 유사한 작업자 UI를 제공합니다. 콘솔을 사용하여 레이블 지정 작업을 생성할 때 작업자가 작업을 완료하는 데 도움이 되는 지침과 작업자가 선택할 수 있는 레이블을 지정합니다.

SageMaker 콘솔에서 텍스트 분류 레이블 지정 작업을 생성하는 방법을 보여주는 Gif입니다.

텍스트 분류 레이블 지정 작업 생성(API)

텍스트 분류 레이블 지정 작업을 생성하려면 작업을 사용합니다 SageMaker APICreateLabelingJob. 이는 모든 에 대해 이 작업을 API 정의합니다 AWS SDKs. 이 작업에 SDKs 지원되는 언어별 목록을 보려면 의 또한 섹션을 참조하세요CreateLabelingJob.

레이블 지정 작업 생성(API)의 지침에 따라 요청을 구성하는 동안 다음을 수행합니다.

  • 이 작업 유형에 대한 주석 전 Lambda 함수는 PRE-TextMultiClass로 끝납니다. 리전의 사전 주석 LambdaARN를 찾으려면 PreHumanTaskLambdaArn 섹션을 참조하세요.

  • 이 작업 유형에 대한 주석 통합 Lambda 함수는 ACS-TextMultiClass로 끝납니다. 리전의 주석 통합 LambdaARN를 찾으려면 섹션을 참조하세요AnnotationConsolidationLambdaArn.

다음은 미국 동부AWS SDK(버지니아 북부) 리전에서 레이블 지정 작업을 생성하기 위한 Python(Boto3) 요청의 예입니다. 빨간색으로 된 모든 파라미터는 사양과 리소스로 대체해야 합니다.

response = client.create_labeling_job( LabelingJobName='example-text-classification-labeling-job, LabelAttributeName='label', InputConfig={ 'DataSource': { 'S3DataSource': { 'ManifestS3Uri': 's3://bucket/path/manifest-with-input-data.json' } }, 'DataAttributes': { 'ContentClassifiers': [ 'FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent', ] } }, OutputConfig={ 'S3OutputPath': 's3://bucket/path/file-to-store-output-data', 'KmsKeyId': 'string' }, RoleArn='arn:aws:iam::*:role/*, LabelCategoryConfigS3Uri='s3://bucket/path/label-categories.json', StoppingConditions={ 'MaxHumanLabeledObjectCount': 123, 'MaxPercentageOfInputDatasetLabeled': 123 }, HumanTaskConfig={ 'WorkteamArn': 'arn:aws:sagemaker:region:*:workteam/private-crowd/*', 'UiConfig': { 'UiTemplateS3Uri': 's3://bucket/path/worker-task-template.html' }, 'PreHumanTaskLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:PRE-TextMultiClass, 'TaskKeywords': [ Text classification', ], 'TaskTitle': Text classification task', 'TaskDescription': 'Carefully read and classify this text using the categories provided.', 'NumberOfHumanWorkersPerDataObject': 123, 'TaskTimeLimitInSeconds': 123, 'TaskAvailabilityLifetimeInSeconds': 123, 'MaxConcurrentTaskCount': 123, 'AnnotationConsolidationConfig': { 'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:us-east-1:432418664414:function:ACS-TextMultiClass' }, Tags=[ { 'Key': 'string', 'Value': 'string' }, ] )

텍스트 분류 레이블 지정 작업을 위한 템플릿 제공

를 사용하여 레이블 지정 작업을 생성하는 경우 에 작업자 태스크 템플릿을 제공해야 API합니다UiTemplateS3Uri. 다음 템플릿을 복사하고 수정합니다. short-instructions, full-instructionsheader만 수정합니다.

이 템플릿을 S3에 업로드하고 에 이 파일의 S3URI를 제공합니다UiTemplateS3Uri.

<script src="https://assets.crowd.aws/crowd-html-elements.js"></script> <crowd-form> <crowd-classifier name="crowd-classifier" categories="{{ task.input.labels | to_json | escape }}" header="classify text" > <classification-target style="white-space: pre-wrap"> {{ task.input.taskObject }} </classification-target> <full-instructions header="Classifier instructions"> <ol><li><strong>Read</strong> the text carefully.</li> <li><strong>Read</strong> the examples to understand more about the options.</li> <li><strong>Choose</strong> the appropriate labels that best suit the text.</li></ol> </full-instructions> <short-instructions> <p>Enter description of the labels that workers have to choose from</p> <p><br></p><p><br></p><p>Add examples to help workers understand the label</p> <p><br></p><p><br></p><p><br></p><p><br></p><p><br></p> </short-instructions> </crowd-classifier> </crowd-form>

텍스트 분류 출력 데이터

텍스트 분류 레이블 지정 작업을 생성하면 콘솔의 작업 개요 섹션의 출력 데이터 세트 위치 필드에 API 또는 를 사용할 때 S3OutputPath 파라미터에 지정된 Amazon S3 버킷에 출력 데이터가 배치됩니다.

Ground Truth에서 생성된 출력 매니페스트 파일 및 Ground Truth에서 출력 데이터 저장에 사용하는 파일 구조에 대한 자세한 내용은 작업 출력 데이터 레이블 지정 섹션을 참조하세요.

텍스트 분류 레이블 지정 작업에 대한 출력 매니페스트 파일의 예제를 보려면 분류 작업 출력 단원을 참조하세요.