

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 사용자 지정 분류기 학습(콘솔)
<a name="create-custom-classifier-console"></a>

콘솔을 사용하여 사용자 지정 분류기를 만들고 학습시킨 다음 사용자 지정 분류기를 사용하여 문서를 분석할 수 있습니다.

사용자 지정 분류기를 학습시키려면 일련의 학습 문서가 필요합니다. 문서 분류기가 인식할 수 있도록 사용자가 원하는 범주로 이러한 문서에 레이블을 지정합니다. 학습 문서 준비에 대한 자세한 내용은 [분류기 학습 데이터 준비](prep-classifier-data.md)를 참조하세요.



**문서 분류기 모델 생성 및 학습하기**

1. 에 로그인 AWS Management Console 하고 [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/) Amazon Comprehend 콘솔을 엽니다.

1. 왼쪽 메뉴에서 **사용자 정의**을 선택한 다음 **사용자 정의 분류**를 선택합니다.

1. **새 모델 생성**을 선택합니다.

1. **모델 설정에서** 분류기의 모델 이름을 입력합니다. 이 이름은 귀하의 계정과 현재의 리전 내에서 고유해야 합니다.

   (선택) 버전 이름을 입력합니다. 이 이름은 귀하의 계정과 현재의 리전 내에서 고유해야 합니다.

1. 학습 문서의 언어를 선택합니다. 분류기가 지원하는 언어를 보려면 [학습 분류 모델](training-classifier-model.md)를 참조하세요.

1. (선택) Amazon Comprehend가 학습 작업을 처리하는 동안 스토리지 볼륨의 데이터를 암호화하려면 **분류기 암호화**를 선택합니다. 그런 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 KMS 키를 사용할지 선택합니다.
   + 현재 계정과 연결된 키를 사용하는 경우 **KMS 키 ID**의 키 ID를 선택합니다.
   + 다른 계정과 연결된 키를 사용하는 경우 **KMS 키 ARN**에 키 ID의 ARN을 입력합니다.
**참고**  
KMS 키와 관련 암호화의 생성 및 사용에 대한 자세한 내용은 [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)를 참조하세요.

1. **데이터 사양에서** 사용할 **학습 모델 유형을** 선택합니다.
   + **일반 텍스트 문서:** 일반 텍스트 모델을 만들려면 이 옵션을 선택합니다. 일반 텍스트 문서를 사용하여 모델을 학습시킵니다.
   + **네이티브 문서:** 네이티브 문서 모델을 만들려면 이 옵션을 선택합니다. 네이티브 문서(PDF, Word, 이미지)를 사용하여 모델을 학습시킵니다.

1. 학습 데이터의 **데이터 형식**을 선택합니다. 데이터 파일 형식에 대한 자세한 내용은 [분류기 학습 파일 형식](prep-class-data-format.md)를 참조하세요.
   + **CSV 파일:** 학습 데이터가 CSV 파일 형식을 사용하는 경우 이 옵션을 선택합니다.
   + **증강 매니페스트:** Ground Truth를 사용하여 학습 데이터용 증강 매니페스트 파일을 만든 경우 이 옵션을 선택합니다. 학습 모델 유형으로 **일반 텍스트 문서**를 선택한 경우 이 형식을 사용할 수 있습니다.

1. 사용할 **분류기 모드**를 선택합니다.
   + **단일 레이블 모드:** 문서에 할당할 범주가 상호 배타적이며 각 문서에 하나의 레이블을 할당하도록 분류기를 학습시키려는 경우 이 모드를 선택합니다. Amazon Comprehend API에서는 단일 레이블 모드를 멀티클래스 모드라고 합니다.
   + **멀티레이블 모드:** 문서에 여러 범주를 동시에 적용할 수 있고 각 문서에 하나 이상의 레이블을 할당하도록 분류기를 학습시키려는 경우 이 모드를 선택합니다.

1. **멀티레이블 모드**를 선택하면 **레이블의 구분 기호**를 선택할 수 있습니다. 학습 문서에 여러 클래스가 있는 경우 이 구분 기호를 사용하여 레이블을 구분할 수 있습니다. 기본 구분 기호는 파이프 문자입니다.

1. (선택) 데이터 형식으로 **증강 매니페스트를** 선택한 경우 증강 매니페스트 파일을 5개까지 입력할 수 있습니다. 각 증강 매니페스트 파일에는 학습 데이터세트 또는 테스트 데이터세트가 들어 있습니다. 최소 하나의 학습 데이터세트를 제공해야 합니다. 테스트 데이터세트는 선택 사항입니다. 다음 단계에 따라 증강 매니페스트 파일을 구성합니다.

   1. **학습 및 테스트 데이터세트**에서 **입력 위치** 패널을 펼칩니다.

   1. **데이터세트 유형**에서 **학습 데이터** 또는 **테스트 데이터**를 선택합니다.

   1. **SageMaker AI Ground Truth 증강 매니페스트 파일 S3 위치에** 매니페스트 파일이 포함된 Amazon S3 버킷의 위치를 입력하거나 ** S3 찾아보**기를 선택하여 탐색합니다. 학습 작업을 위한 액세스 권한에 사용하는 IAM 역할에는 S3 버킷에 대한 읽기 권한이 있어야 합니다.

   1. **속성 이름**에는 주석이 포함된 속성의 이름을 입력합니다. 파일에 여러 체인으로 연결된 레이블 작업의 주석이 포함되어 있으면 각 작업에 대한 속성을 추가하십시오.

   1. 다른 입력 위치를 추가하려면 **입력 위치 추가**를 선택하고 다음 위치를 구성합니다.

1. (선택) **CSV 파일**을 데이터 형식으로 선택한 경우 다음 단계를 사용하여 학습 데이터 세트와 선택적 테스트 데이터 세트를 구성합니다.

   1. **학습 데이터세트**에서 학습 데이터 CSV 파일이 들어 있는 Amazon S3 버킷의 위치를 입력하거나 **S3 찾아보기**를 선택하여 해당 버킷으로 이동합니다. 학습 작업을 위한 액세스 권한에 사용하는 IAM 역할에는 S3 버킷에 대한 읽기 권한이 있어야 합니다.

      (선택) 학습 모델 유형으로 **네이티브 문서**를 선택한 경우 학습 예제 파일이 들어 있는 Amazon S3 폴더의 URL도 제공해야 합니다.

   1. **테스트 데이터 세트**에서 Amazon Comprehend가 학습된 모델을 테스트할 수 있도록 추가 데이터를 제공할지 여부를 선택합니다.
      + **자동 분할**: 자동 분할은 테스트 데이터로 사용하기 위해 학습 데이터의 10%를 자동으로 선택하여 비축합니다.
      + (선택) **고객 제공**: Amazon S3에 있는 테스트 데이터 CSV 파일의 URL을 입력합니다. Amazon S3에서 해당 위치로 이동하여 **폴더 선택**을 선택할 수도 있습니다.

        (선택) 학습 모델 유형으로 **네이티브 문서**를 선택한 경우 테스트 파일이 포함된 Amazon S3 폴더의 URL도 제공해야 합니다.

1. (선택) **문서 읽기 모드**에서 기본 텍스트 추출 작업을 우선 지정할 수 있습니다. 이 옵션은 스캔한 문서의 텍스트 추출에 적용되므로 일반 텍스트 모델에는 필요하지 않습니다. 자세한 내용은 [텍스트 추출 옵션을 설정하는](idp-set-textract-options.md)을 참조하십시오.

1. (일반 텍스트 모델, 선택) **출력 데이터**에 혼동행렬과 같은 학습 출력 데이터를 저장할 Amazon S3 버킷의 위치를 입력합니다. 자세한 내용은 [혼동행렬](train-classifier-output.md#conf-matrix)를 참조하십시오.

   **(선택) 학습 작업의 출력 결과를 암호화하기로 선택한 경우 암호화를 선택합니다.** 그런 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 KMS 키를 사용할지 선택합니다.
   + 현재 계정과 연결된 키를 사용하는 경우 **KMS 키 ID**의 키 별칭을 선택하십시오.
   + 다른 계정과 연결된 키를 사용하는 경우 **KMS 키 ID** 아래에 키 별칭 또는 ID의 ARN을 입력합니다.

1. **IAM 역할의** 경우 **기존 IAM 역할 선택**을 선택한 다음 학습 문서가 포함된 S3 버킷에 대한 읽기 권한이 있는 기존 IAM 역할을 선택합니다. 역할에는 `comprehend.amazonaws.com`으로 시작하는 신뢰 정책이 있어야 유효합니다.

   이러한 권한을 가진 IAM 역할이 아직 없는 경우, **IAM 역할 생성**을 선택하여 역할을 생성하십시오. 이 역할을 부여할 액세스 권한을 선택한 다음 이름 접미사를 선택하여 사용자 계정의 IAM 역할과 이 역할을 구분합니다.
**참고**  
암호화된 입력 문서의 경우 사용되는 IAM 역할에도 `kms:Decrypt` 권한이 있어야 합니다. 자세한 내용은 [KMS 암호화를 사용하는 데 필요한 권한](security_iam_id-based-policy-examples.md#auth-kms-permissions)을 참조하십시오.

1. (선택) VPC에서 Amazon Comprehend로 리소스를 시작하려면 **VPC** 아래에 VPC ID를 입력하거나 드롭다운 목록에서 ID를 선택합니다.

   1. **서브넷**에서 서브넷을 선택합니다. 첫 번째 서브넷을 선택한 후 추가 서브넷을 선택할 수 있습니다.

   1. 보안 그룹을 지정한 경우, **보안 그룹**에서 사용할 보안 그룹을 선택합니다. 첫 번째 보안 그룹을 선택한 후 추가 보안 그룹을 선택할 수 있습니다.
**참고**  
분류 작업에 VPC를 사용하는 경우 생성 및 시작 작업에 사용되는 `DataAccessRole`은 입력 문서와 출력 버킷에 액세스하는 VPC에 대한 권한이 있어야 합니다.

1. (선택) 사용자 지정 분류기에 태그를 추가하려면 **태그**에 키-값 페어를 입력합니다. **태그 추가**를 선택합니다. 분류기를 만들기 전에 이 쌍을 제거하려면 **태그 제거**를 선택합니다. 자세한 내용은 [리소스에 태그 지정](tagging.md)을 참조하십시오.

1. **생성**을 선택합니다.

콘솔에 **분류기** 페이지가 표시됩니다. 새 분류기가 테이블에 나타나고 `Submitted`으로 상태가 표시됩니다. 분류기가 학습 문서를 처리하기 시작하면 상태가 `Training`으로 바뀝니다. 분류기를 사용할 준비가 되면 상태가 `Trained`또는 `Trained with warnings`으로 변경됩니다. 상태가 `TRAINED_WITH_WARNINGS`인 경우 [분류기 학습 출력](train-classifier-output.md)에서 건너뛴 파일 폴더를 검토하십시오.

Amazon Comprehend에서 생성 또는 학습 중에 오류가 발생한 경우 상태가 `In error`로 변경됩니다. 표에서 분류기 작업을 선택하여 오류 메시지를 포함하여 분류기에 대한 추가 정보를 얻을 수 있습니다.

![\[사용자 지정 분류기 목록.\]](http://docs.aws.amazon.com/ko_kr/comprehend/latest/dg/images/class-list.png)
