

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 멀티레이블 모드
<a name="prep-classifier-data-multi-label"></a>

멀티레이블 모드에서 개별 클래스는 상호 배타적이지 않은 서로 다른 범주를 나타냅니다. 멀티레이블 분류는 각 문서에 하나 이상의 클래스를 지정합니다. 예를 들어 한 영화를 다큐멘터리로 분류하고 다른 영화를 공상 과학, 액션, 코미디로 분류할 수 있습니다.

학습의 경우 멀티레이블 모드는 최대 100개의 고유한 클래스를 포함하는 최대 100만 개의 예제를 지원합니다.

**Topics**
+ [일반 텍스트 모델](#prep-multi-label-plaintext)
+ [네이티브 문서 모델](#prep-multi-label-structured)

## 일반 텍스트 모델
<a name="prep-multi-label-plaintext"></a>

일반 텍스트 모델을 훈련하려면 레이블이 지정된 훈련 데이터를 CSV 파일 또는 SageMaker AI Ground Truth의 증강 매니페스트 파일로 제공할 수 있습니다.

### CSV 파일
<a name="prep-multi-label-plaintext-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 2열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있고 두 번째 열에는 이러한 클래스에 대한 예제 텍스트 문서가 들어 있습니다. 첫 번째 열에 클래스를 두 개 이상 입력하려면 각 클래스 사이에 구분 기호(예: \$1)를 사용합니다.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

다음 예제는 영화 요약에서 장르를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다.

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

클래스 이름 사이의 기본적인 구분 기호는 파이프(\$1) 입니다. 하지만 다른 문자를 구분 기호로 사용할 수도 있습니다. 구분 기호는 사용자의 클래스 이름의 모든 문자와 구별되어야 합니다. 예를 들어 클래스가 CLASS\$11, CLASS\$12, 및 CLASS\$13인 경우 밑줄(**\$1**)은 클래스 이름의 일부입니다. 따라서 클래스 이름을 구분할 때 밑줄을 구분 기호로 사용하지 마십시오.

### 증강 매니페스트 파일
<a name="prep-multi-label-plaintext-manifest"></a>

분류기 학습을 위한 증강 매니페스트 파일 사용에 대한 일반적인 내용은 [증강 매니페스트 파일](prep-class-data-format.md#prep-data-annotations)를 참조하세요.

일반 텍스트 문서의 경우 증강 매니페스트 파일의 각 라인은 완전한 JSON 객체입니다. 여기에는 Ground Truth의 학습 문서, 클래스 이름 및 기타 메타데이터가 포함됩니다. 다음 예제는 영화 요약에서 장르를 감지하도록 사용자 지정 분류기를 학습시키는 데 사용되는 증강 매니페스트 파일입니다.

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 다음 예제는 증강 매니페스트 파일의 JSON 객체 하나를 가독성에 맞게 포맷한 것을 보여줍니다.

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

이 예제에서 `source` 속성은 학습 문서의 텍스트를 제공하고 `MultiLabelJob` 속성은 분류 목록에 있는 여러 클래스의 색인을 할당합니다. `MultiLabelJob` 메타데이터의 작업 이름은 Ground Truth에서 레이블 지정 작업에 대해 정의한 이름입니다.

## 네이티브 문서 모델
<a name="prep-multi-label-structured"></a>

네이티브 문서 모델은 네이티브 문서(예: PDF, DOCX, 이미지 파일)를 사용하여 학습시키는 모델입니다. 레이블이 지정된 학습 데이터는 CSV 파일로 제공합니다.

### CSV 파일
<a name="prep-multi-label-structured-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 3열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 이러한 클래스의 예제 문서의 파일 이름이 들어 있습니다. 세 번째 열에는 페이지 번호가 들어 있습니다. 예제 문서가 이미지인 경우 페이지 번호는 선택 사항입니다.

첫 번째 열에 클래스를 두 개 이상 입력하려면 각 클래스 사이에 구분 기호(예: \$1)를 사용합니다.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

다음 예제는 영화 요약에서 장르를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다. PDF 파일의 2페이지에는 코미디/청소년 영화의 예시가 포함되어 있습니다.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

클래스 이름 사이의 기본적인 구분 기호는 파이프(\$1) 입니다. 하지만 다른 문자를 구분 기호로 사용할 수도 있습니다. 구분 기호는 사용자의 클래스 이름의 모든 문자와 구별되어야 합니다. 예를 들어 클래스가 CLASS\$11, CLASS\$12, 및 CLASS\$13인 경우 밑줄(**\$1**)은 클래스 이름의 일부입니다. 따라서 클래스 이름을 구분할 때 밑줄을 구분 기호로 사용하지 마십시오.