Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kategorikan teks dengan klasifikasi teks (Multi-label)
Untuk mengkategorikan artikel dan teks ke dalam beberapa kategori yang telah ditentukan sebelumnya, gunakan jenis tugas klasifikasi teks multi-label. Misalnya, Anda dapat menggunakan jenis tugas ini untuk mengidentifikasi lebih dari satu emosi yang disampaikan dalam teks. Bagian berikut memberikan informasi tentang cara membuat tugas klasifikasi teks multi-label dari konsol danAPI.
Saat mengerjakan tugas klasifikasi teks multi-label, pekerja harus memilih semua label yang berlaku, tetapi harus memilih setidaknya satu. Saat membuat pekerjaan menggunakan jenis tugas ini, Anda dapat memberikan hingga 50 kategori label.
Amazon SageMaker Ground Truth tidak menyediakan kategori “tidak ada” ketika tidak ada label yang berlaku. Untuk memberikan opsi ini kepada pekerja, sertakan label yang mirip dengan “tidak ada” atau “lainnya” saat Anda membuat pekerjaan klasifikasi teks multi-label.
Untuk membatasi pekerja memilih label tunggal untuk setiap dokumen atau pemilihan teks, gunakan jenis Kategorikan teks dengan klasifikasi teks (Single Label) tugas.
penting
Jika Anda membuat file manifes masukan secara manual, gunakan "source"
untuk mengidentifikasi teks yang ingin diberi label. Untuk informasi selengkapnya, lihat Data input.
Membuat Pekerjaan Pelabelan Klasifikasi Teks Multi-Label (Konsol)
Anda dapat mengikuti petunjuk Membuat Job Pelabelan (Konsol) untuk mempelajari cara membuat pekerjaan pelabelan klasifikasi teks multi-label di konsol Amazon SageMaker . Pada Langkah 10, pilih Teks dari menu tarik-turun Kategori tugas, dan pilih Klasifikasi Teks (Multi-label) sebagai jenis tugas.
Ground Truth menyediakan UI pekerja yang mirip dengan yang berikut ini untuk tugas pelabelan. Saat membuat pekerjaan pelabelan dengan konsol, Anda menentukan petunjuk untuk membantu pekerja menyelesaikan pekerjaan dan label yang dapat dipilih pekerja.
Buat Job Pelabelan Klasifikasi Teks Multi-Label () API
Untuk membuat pekerjaan pelabelan klasifikasi teks multi-label, gunakan operasi. SageMaker API CreateLabelingJob
Ini API mendefinisikan operasi ini untuk semua AWS SDKs. Untuk melihat daftar bahasa khusus yang SDKs didukung untuk operasi ini, tinjau bagian Lihat Juga. CreateLabelingJob
Ikuti petunjuk Membuat Job Pelabelan (API) dan lakukan hal berikut saat Anda mengonfigurasi permintaan Anda:
-
Fungsi Lambda pra-anotasi untuk jenis tugas ini diakhiri dengan.
PRE-TextMultiClassMultiLabel
Untuk menemukan Lambda pra-anotasi ARN untuk Wilayah Anda, lihat. PreHumanTaskLambdaArn -
Fungsi Lambda konsolidasi anotasi untuk jenis tugas ini diakhiri dengan.
ACS-TextMultiClassMultiLabel
Untuk menemukan ARN Lambda anotasi-konsolidasi untuk Wilayah Anda, lihat. AnnotationConsolidationLambdaArn
Berikut ini adalah contoh permintaan AWS Python SDK (Boto3)
response = client.create_labeling_job( LabelingJobName=
'example-multi-label-text-classification-labeling-job
, LabelAttributeName='label'
, InputConfig={ 'DataSource': { 'S3DataSource': { 'ManifestS3Uri':'s3://bucket/path/manifest-with-input-data.json'
} }, 'DataAttributes': { 'ContentClassifiers': ['FreeOfPersonallyIdentifiableInformation'|'FreeOfAdultContent'
, ] } }, OutputConfig={ 'S3OutputPath':'s3://bucket/path/file-to-store-output-data'
, 'KmsKeyId':'string'
}, RoleArn='arn:aws:iam::*:role/*
, LabelCategoryConfigS3Uri='s3://bucket/path/label-categories.json'
, StoppingConditions={ 'MaxHumanLabeledObjectCount':123
, 'MaxPercentageOfInputDatasetLabeled':123
}, HumanTaskConfig={ 'WorkteamArn':'arn:aws:sagemaker:region:*:workteam/private-crowd/*'
, 'UiConfig': { 'UiTemplateS3Uri':'s3://bucket/path/custom-worker-task-template.html'
}, 'PreHumanTaskLambdaArn': 'arn:aws:lambda::function:PRE-TextMultiClassMultiLabel, 'TaskKeywords': ['Text Classification'
, ], 'TaskTitle':'Multi-label text classification task'
, 'TaskDescription':'Select all labels that apply to the text shown'
, 'NumberOfHumanWorkersPerDataObject':123
, 'TaskTimeLimitInSeconds':123
, 'TaskAvailabilityLifetimeInSeconds':123
, 'MaxConcurrentTaskCount':123
, 'AnnotationConsolidationConfig': { 'AnnotationConsolidationLambdaArn': 'arn:aws:lambda:us-east-1:432418664414
:function:ACS-TextMultiClassMultiLabel' }, Tags=[ { 'Key':'string'
, 'Value':'string'
}, ] )
Buat Template untuk Klasifikasi Teks Multi-label
Jika Anda membuat pekerjaan pelabelan menggunakanAPI, Anda harus menyediakan template tugas pekerja diUiTemplateS3Uri
. Salin dan modifikasi template berikut. Hanya memodifikasi short-instructions
, full-instructions
, danheader
.
Unggah template ini ke S3, dan berikan S3 URI untuk file ini. UiTemplateS3Uri
<script src="https://assets.crowd.aws/crowd-html-elements.js"></script> <crowd-form> <crowd-classifier-multi-select name="crowd-classifier-multi-select" categories="{{ task.input.labels | to_json | escape }}" header="Please identify all classes in the below text" > <classification-target style="white-space: pre-wrap"> {{ task.input.taskObject }} </classification-target> <full-instructions header="Classifier instructions"> <ol><li><strong>Read</strong> the text carefully.</li> <li><strong>Read</strong> the examples to understand more about the options.</li> <li><strong>Choose</strong> the appropriate labels that best suit the text.</li></ol> </full-instructions> <short-instructions> <p>Enter description of the labels that workers have to choose from</p> <p><br></p> <p><br></p><p>Add examples to help workers understand the label</p> <p><br></p><p><br></p><p><br></p><p><br></p><p><br></p> </short-instructions> </crowd-classifier-multi-select> </crowd-form>
Untuk mempelajari cara membuat template kustom, lihatAlur kerja pelabelan khusus.
Data Keluaran Klasifikasi Teks Multi-label
Setelah Anda membuat tugas pelabelan klasifikasi teks multi-label, data keluaran Anda akan ditempatkan di bucket Amazon S3 yang ditentukan dalam S3OutputPath
parameter saat menggunakan API atau di bidang lokasi kumpulan data Output pada bagian Ikhtisar pekerjaan konsol.
Untuk mempelajari lebih lanjut tentang file manifes keluaran yang dihasilkan oleh Ground Truth dan struktur file yang digunakan Ground Truth untuk menyimpan data keluaran Anda, lihatPelabelan data keluaran pekerjaan.
Untuk melihat contoh file manifes keluaran untuk pekerjaan pelabelan klasifikasi teks multi-label, lihat. Output pekerjaan klasifikasi multi-label