

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mempersiapkan data pelatihan pengklasifikasi
<a name="prep-classifier-data"></a>

Untuk klasifikasi khusus, Anda melatih model dalam mode multi-kelas atau mode multi-label. Mode multi-kelas mengaitkan satu kelas dengan setiap dokumen. Mode multi-label mengaitkan satu atau lebih kelas dengan setiap dokumen. Format file input berbeda untuk setiap mode, jadi pilih mode yang akan digunakan sebelum Anda membuat data pelatihan. 

**catatan**  
Konsol Amazon Comprehend mengacu pada mode multi-kelas sebagai mode label tunggal.

Klasifikasi kustom mendukung model yang Anda latih dengan dokumen teks biasa dan model yang Anda latih dengan dokumen asli (seperti PDF, Word, atau gambar). Untuk informasi selengkapnya tentang model pengklasifikasi dan jenis dokumen yang didukung, lihat[Model klasifikasi pelatihan](training-classifier-model.md).

Untuk menyiapkan data untuk melatih model pengklasifikasi kustom: 

1. Identifikasi kelas yang Anda ingin pengklasifikasi ini untuk dianalisis. Tentukan mode mana yang akan digunakan (multi-kelas atau multi-label).

1. Tentukan jenis model pengklasifikasi, berdasarkan apakah model tersebut untuk menganalisis dokumen teks biasa atau dokumen semi-terstruktur. 

1. Kumpulkan contoh dokumen untuk masing-masing kelas. Untuk persyaratan pelatihan minimum, lihat[Kuota umum untuk klasifikasi dokumen](guidelines-and-limits.md#limits-class-general).

1. Untuk model teks biasa, pilih format file pelatihan yang akan digunakan (file CSV atau file manifes tambahan). Untuk melatih model dokumen asli, Anda selalu menggunakan file CSV. 

**Topics**
+ [Format file pelatihan pengklasifikasi](prep-class-data-format.md)
+ [Mode multi-kelas](prep-classifier-data-multi-class.md)
+ [Mode multi-label](prep-classifier-data-multi-label.md)

# Format file pelatihan pengklasifikasi
<a name="prep-class-data-format"></a>

Untuk model teks biasa, Anda dapat memberikan data pelatihan pengklasifikasi sebagai file CSV atau sebagai file manifes tambahan yang Anda buat menggunakan AI Ground Truth. SageMaker File CSV atau file manifes tambahan menyertakan teks untuk setiap dokumen pelatihan, dan label terkaitnya.

Untuk model dokumen asli, Anda menyediakan data pelatihan Classifier sebagai file CSV. File CSV menyertakan nama file untuk setiap dokumen pelatihan, dan label terkaitnya. Anda menyertakan dokumen pelatihan di folder input Amazon S3 untuk pekerjaan pelatihan.

## Berkas CSV
<a name="prep-data-csv"></a>

Anda memberikan data pelatihan berlabel sebagai teks yang disandikan UTF-8 dalam file CSV. Jangan sertakan baris header. Menambahkan baris header di file Anda dapat menyebabkan kesalahan runtime.

Untuk setiap baris dalam file CSV, kolom pertama berisi satu atau lebih label kelas, Label kelas dapat berupa string UTF-8 yang valid. Sebaiknya gunakan nama kelas yang jelas yang tidak tumpang tindih artinya. Nama dapat mencakup ruang putih, dan dapat terdiri dari beberapa kata yang dihubungkan oleh garis bawah atau tanda hubung.

Jangan tinggalkan karakter spasi sebelum atau sesudah koma yang memisahkan nilai dalam satu baris. 

Konten yang tepat dari file CSV tergantung pada mode pengklasifikasi dan jenis data pelatihan. Untuk detailnya, lihat bagian di [Mode multi-kelas](prep-classifier-data-multi-class.md) dan[Mode multi-label](prep-classifier-data-multi-label.md).

## File manifes yang diperbesar
<a name="prep-data-annotations"></a>

File augmented manifest adalah kumpulan data berlabel yang Anda buat menggunakan AI Ground SageMaker Truth. Ground Truth adalah layanan pelabelan data yang membantu Anda—atau tenaga kerja yang Anda pekerjakan—untuk membangun kumpulan data pelatihan untuk model pembelajaran mesin. 

Untuk informasi selengkapnya tentang Ground Truth dan output yang dihasilkannya, lihat [Use SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) di *Amazon SageMaker AI Developer Guide*.

File manifes yang diperbesar dalam format garis JSON. Dalam file-file ini, setiap baris adalah objek JSON lengkap yang berisi dokumen pelatihan dan label terkait. Konten yang tepat dari setiap baris tergantung pada mode pengklasifikasi. Untuk detailnya, lihat bagian di [Mode multi-kelas](prep-classifier-data-multi-class.md) dan[Mode multi-label](prep-classifier-data-multi-label.md).

Saat Anda memberikan data pelatihan ke Amazon Comprehend, Anda menentukan satu atau beberapa nama atribut label. Berapa banyak nama atribut yang Anda tentukan bergantung pada apakah file manifes tambahan Anda adalah output dari pekerjaan pelabelan tunggal atau pekerjaan pelabelan berantai.

Jika file Anda adalah output dari pekerjaan pelabelan tunggal, tentukan nama atribut label tunggal dari pekerjaan Ground Truth. 

Jika file Anda adalah output dari pekerjaan pelabelan berantai, tentukan nama atribut label untuk satu atau beberapa pekerjaan dalam rantai. Setiap nama atribut label memberikan anotasi dari pekerjaan individu. Anda dapat menentukan hingga 5 atribut ini untuk file manifes tambahan dari pekerjaan pelabelan berantai. 

Untuk informasi lebih lanjut tentang pekerjaan pelabelan berantai, dan untuk contoh output yang mereka hasilkan, lihat Pekerjaan [Pelabelan Berantai di Panduan Pengembang](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) Amazon SageMaker AI.

# Mode multi-kelas
<a name="prep-classifier-data-multi-class"></a>

Dalam mode multi-kelas, klasifikasi menetapkan satu kelas untuk setiap dokumen. Kelas individu saling eksklusif. Misalnya, Anda dapat mengklasifikasikan film sebagai komedi atau fiksi ilmiah, tetapi tidak keduanya. 

**catatan**  
Konsol Amazon Comprehend mengacu pada mode multi-kelas sebagai mode label tunggal.

**Topics**
+ [Model teks biasa](#prep-multi-class-plaintext)
+ [Model dokumen asli](#prep-multi-class-structured)

## Model teks biasa
<a name="prep-multi-class-plaintext"></a>

Untuk melatih model teks biasa, Anda dapat memberikan data pelatihan berlabel sebagai file CSV atau sebagai file manifes tambahan dari AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-class-plaintext-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV dua kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi contoh dokumen teks untuk kelas itu. Setiap baris harus diakhiri dengan\$1 n atau\$1 r\$1nkarakter.

Contoh berikut menunjukkan file CSV yang berisi tiga dokumen.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi kustom untuk mendeteksi apakah pesan email adalah spam:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### File manifes yang diperbesar
<a name="prep-multi-class-plaintext-manifest"></a>

Untuk informasi umum tentang penggunaan file manifes tambahan untuk pengklasifikasi pelatihan, lihat. [File manifes yang diperbesar](prep-class-data-format.md#prep-data-annotations)

Untuk dokumen teks biasa, setiap baris file augmented manifest adalah objek JSON lengkap yang berisi dokumen pelatihan, nama kelas tunggal, dan metadata lainnya dari Ground Truth. Contoh berikut adalah file manifes tambahan untuk melatih pengklasifikasi kustom untuk mengenali pesan email spam:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 Contoh berikut menunjukkan satu objek JSON dari file manifes ditambah, diformat untuk keterbacaan: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

Dalam contoh ini, `source` atribut menyediakan teks dokumen pelatihan, dan `MultiClassJob` atribut menetapkan indeks kelas dari daftar klasifikasi. `job-name`Atribut adalah nama yang Anda tentukan untuk pekerjaan pelabelan di Ground Truth. 

 Saat Anda memulai pekerjaan pelatihan pengklasifikasi di Amazon Comprehend, Anda menentukan nama pekerjaan pelabelan yang sama. 

## Model dokumen asli
<a name="prep-multi-class-structured"></a>

Model dokumen asli adalah model yang Anda latih dengan dokumen asli (seperti PDF, DOCX, dan gambar). Anda memberikan data pelatihan sebagai file CSV.

### File CSV
<a name="prep-multi-class-structured-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV tiga kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi nama file dokumen contoh untuk kelas ini. Kolom ketiga berisi nomor halaman. Nomor halaman adalah opsional jika dokumen contoh adalah gambar.

Contoh berikut menunjukkan file CSV yang mereferensikan tiga dokumen masukan. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi kustom untuk mendeteksi apakah pesan email adalah spam. Halaman 2 dari file PDF berisi contoh spam. 

```
SPAM,email-content-3.pdf,2
```

# Mode multi-label
<a name="prep-classifier-data-multi-label"></a>

Dalam mode multi-label, kelas individu mewakili kategori berbeda yang tidak saling eksklusif. Klasifikasi multi-label menetapkan satu atau lebih kelas untuk setiap dokumen. Misalnya, Anda dapat mengklasifikasikan satu film sebagai Dokumenter, dan film lainnya sebagai fiksi ilmiah, aksi, dan komedi. 

Untuk pelatihan, mode multi-label mendukung hingga 1 juta contoh yang berisi hingga 100 kelas unik.

**Topics**
+ [Model teks biasa](#prep-multi-label-plaintext)
+ [Model dokumen asli](#prep-multi-label-structured)

## Model teks biasa
<a name="prep-multi-label-plaintext"></a>

Untuk melatih model teks biasa, Anda dapat memberikan data pelatihan berlabel sebagai file CSV atau sebagai file manifes tambahan dari AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-label-plaintext-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV dua kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas, dan kolom kedua berisi contoh dokumen teks untuk kelas-kelas ini. Untuk memasukkan lebih dari satu kelas di kolom pertama, gunakan pembatas (seperti \$1) di antara setiap kelas.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

Pembatas default antara nama kelas adalah pipa (\$1). Namun, Anda dapat menggunakan karakter yang berbeda sebagai pembatas. Pembatas harus berbeda dari semua karakter dalam nama kelas Anda. Misalnya, jika kelas Anda adalah CLASS\$11, CLASS\$12, dan CLASS\$13, garis bawah (**\$1**) adalah bagian dari nama kelas. Jadi jangan gunakan garis bawah sebagai pembatas untuk memisahkan nama kelas.

### File manifes yang diperbesar
<a name="prep-multi-label-plaintext-manifest"></a>

Untuk informasi umum tentang penggunaan file manifes tambahan untuk pengklasifikasi pelatihan, lihat. [File manifes yang diperbesar](prep-class-data-format.md#prep-data-annotations)

Untuk dokumen teks biasa, setiap baris file manifes yang ditambah adalah objek JSON lengkap. Ini berisi dokumen pelatihan, nama kelas, dan metadata lainnya dari Ground Truth. Contoh berikut adalah file manifes tambahan untuk melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 Contoh berikut menunjukkan satu objek JSON dari file manifes ditambah, diformat untuk keterbacaan: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

Dalam contoh ini, `source` atribut menyediakan teks dokumen pelatihan, dan `MultiLabelJob` atribut menetapkan indeks beberapa kelas dari daftar klasifikasi. Nama pekerjaan dalam `MultiLabelJob` metadata adalah nama yang Anda tentukan untuk pekerjaan pelabelan di Ground Truth. 

## Model dokumen asli
<a name="prep-multi-label-structured"></a>

Model dokumen asli adalah model yang Anda latih dengan dokumen asli (seperti PDF, DOCX, dan file gambar). Anda memberikan data pelatihan berlabel sebagai file CSV.

### File CSV
<a name="prep-multi-label-structured-csv"></a>

Untuk informasi umum tentang penggunaan file CSV untuk pengklasifikasi pelatihan, lihat. [Berkas CSV](prep-class-data-format.md#prep-data-csv)

Berikan data pelatihan sebagai file CSV tiga kolom. Untuk setiap baris, kolom pertama berisi nilai label kelas. Kolom kedua berisi nama file dokumen contoh untuk kelas-kelas ini. Kolom ketiga berisi nomor halaman. Nomor halaman adalah opsional jika dokumen contoh adalah gambar.

Untuk memasukkan lebih dari satu kelas di kolom pertama, gunakan pembatas (seperti \$1) di antara setiap kelas.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

Contoh berikut menunjukkan satu baris file CSV yang melatih pengklasifikasi khusus untuk mendeteksi genre dalam abstrak film. Halaman 2 dari file PDF berisi contoh comedy/teen film.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

Pembatas default antara nama kelas adalah pipa (\$1). Namun, Anda dapat menggunakan karakter yang berbeda sebagai pembatas. Pembatas harus berbeda dari semua karakter dalam nama kelas Anda. Misalnya, jika kelas Anda adalah CLASS\$11, CLASS\$12, dan CLASS\$13, garis bawah (**\$1**) adalah bagian dari nama kelas. Jadi jangan gunakan garis bawah sebagai pembatas untuk memisahkan nama kelas.