사용자 정의 인식기 학습 (콘솔) - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 정의 인식기 학습 (콘솔)

Amazon Comprehend 콘솔을 사용하여 사용자 정의 개체 인식기를 생성할 수 있습니다. 이 단원에서는 사용자 정의 개체 인식기 생성과 학습 방법을 보여줍니다.

주제

    사용자 정의 개체 인식기를 만들려면 먼저 모델을 학습시킬 데이터 세트를 제공해야 합니다. 이 데이터 세트를 이용하여 주석이 달린 문서 세트 또는 개체 목록 및 유형 레이블로 구성된 세트와 해당 개체가 포함된 문서 세트를 포함시킵니다. 자세한 내용은 사용자 지정 개체 인식 단원을 참조하세요.

    CSV 파일로 사용자 지정 개체 인식기를 훈련하려면
    1. 에 로그인 AWS Management Console 하고에서 Amazon Comprehend 콘솔을 엽니다. https://console.aws.amazon.com/comprehend/

    2. 왼쪽 메뉴에서 사용자 정의을 선택한 다음 사용자 정의 개체 인식을 선택합니다.

    3. 새 모델 생성을 선택합니다.

    4. 인식기에 이름을 지정합니다. 이 이름은 리전과 계정 내에서 고유한 이름이어야 합니다.

    5. 언어를 선택합니다.

    6. 사용자 정의 개체 유형에 인식기가 데이터 세트에서 찾을 수 있도록 하려는 사용자 정의 레이블을 입력합니다.

      개체 유형은 대문자여야 하며, 두 개 이상의 단어로 구성된 경우 밑줄로 단어를 분리해야 합니다.

    7. 유형 추가를 선택합니다.

    8. 추가 개체 유형을 추가하려면 해당 유형을 입력한 다음 유형 추가를 선택합니다. 추가한 개체 유형 중 하나를 제거하려면 유형 제거를 선택한 다음 목록에서 제거할 개체 유형을 선택합니다. 최대 25개의 개체 유형을 나열할 수 있습니다.

    9. 훈련 작업을 암호화하려면 인식기 암호화를 선택한 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 키를 사용할지 선택합니다.

      • 현재 계정과 연결된 키를 사용하는 경우 KMS 키 ID에서 키 ID를 선택합니다.

      • 다른 계정과 연결된 키를 사용하는 경우 KMS 키ARN에 키 IDARN에를 입력합니다.

      참고

      KMS 키 생성 및 사용과 관련 암호화에 대한 자세한 내용은 섹션을 참조하세요AWS Key Management Service.

    10. 데이터 사양에서 학습 문서 형식을 선택합니다.

      • CSV 파일 - 훈련 문서를 보완하는 CSV 파일입니다. CSV 파일에는 훈련된 모델이 감지할 사용자 지정 엔터티에 대한 정보가 포함되어 있습니다. 필요한 파일 형식은 주석 제공인지 아니면 개체 목록 제공인지에 따라 달라집니다.

      • 증강 매니페스트 - Amazon SageMaker Ground Truth에서 생성한 레이블이 지정된 데이터 세트입니다. 이 파일은 JSON 줄 형식입니다. 각 줄은 훈련 문서와 해당 레이블이 포함된 완전한 JSON 객체입니다. 각 레이블은 학습 문서에 이름이 지정된 개체를 주석에 답니다. 증강 매니페스트 파일은 5개까지 제공할 수 있습니다.

      사용 가능한 형식 및 예제에 대한 자세한 내용은 사용자 지정 개체 인식기 모델 학습를 참조하세요.

    11. 학습 유형에서 사용할 학습 유형을 선택합니다.

      • 주석 및 학습 문서 사용하기

      • 개체 목록 및 학습 문서 사용하기

      주석을 선택하는 경우 Amazon S3URL에 주석 파일의를 입력합니다. 또한 주석 파일이 있는 Amazon S3의 버킷 또는 폴더로 이동하여 Browse S3를 선택할 수도 있습니다.

      개체 목록을 선택하는 경우 Amazon S3에 개체 목록URL의를 입력합니다. 개체 목록이 있는 Amazon S3의 버킷 또는 폴더로 이동한 다음 Browse S3를 선택할 수도 있습니다.

    12. Amazon S3의 훈련 문서가 포함된 입력 데이터 세트URL의를 입력합니다. 학습 문서가 있는 Amazon S3의 버킷 또는 폴더로 이동하여 폴더 선택을 선택할 수도 있습니다.

    13. 테스트 데이터 세트에서 학습된 모델 성능 평가 방법을 선택합니다. 주석 및 개체 목록 학습 유형 모두에 대해 이 작업을 수행할 수 있습니다.

      • 자동 분할: 자동 분할은 제공된 학습 데이터의 10%를 테스트 데이터로 자동으로 사용할 있도록 자동으로 선택합니다.

      • (선택 사항) 고객 제공: 고객 제공을 선택하면 사용자가 정확히 어떤 테스트 데이터를 사용할지 지정할 수 있습니다.

    14. 고객이 제공한 테스트 데이터 세트를 선택한 경우 Amazon S3URL에 주석 파일의를 입력합니다. 주석 파일이 있는 Amazon S3의 버킷 또는 폴더로 이동한 다음 폴더 선택을 선택할 수 있습니다.

    15. IAM 역할 선택 섹션에서 기존 역할을 선택하거나 새 IAM 역할을 생성합니다.

      • 기존 IAM 역할 선택 - 입력 및 출력 Amazon S3 버킷에 액세스할 수 있는 권한이 있는 IAM 역할이 이미 있는 경우이 옵션을 선택합니다.

      • 새 IAM 역할 생성 - Amazon Comprehend가 입력 및 출력 버킷에 액세스할 수 있는 적절한 권한이 있는 새 IAM 역할을 생성하려면이 옵션을 선택합니다.

        참고

        입력 문서가 암호화된 경우 사용된 IAM 역할에 kms:Decrypt 권한이 있어야 합니다. 자세한 내용은 KMS 암호화를 사용하는 데 필요한 권한 단원을 참조하십시오.

    16. (선택 사항)에서 Amazon Comprehend로 리소스를 시작하려면 아래에 VPC ID를 VPC입력VPC하거나 드롭다운 목록에서 ID를 선택합니다.

      1. 서브넷에서 서브넷을 선택합니다. 첫 번째 서브넷을 선택한 후 추가 서브넷을 선택할 수 있습니다.

      2. 보안 그룹을 지정한 경우, 보안 그룹에서 사용할 보안 그룹을 선택합니다. 첫 번째 보안 그룹을 선택한 후 추가 보안 그룹을 선택할 수 있습니다.

      참고

      사용자 지정 엔터티 인식 작업과 VPC 함께를 사용하는 경우 생성 및 시작 작업에 DataAccessRole 사용되는 에는 입력 문서와 출력 버킷에 액세스할 수 VPC 있는에 대한 권한이 있어야 합니다.

    17. (선택 사항) 사용자 정의 개체 인식기에 태그를 추가하려면 태그 에 키-값 페어를 입력합니다. 태그 추가를 선택합니다. 인식기 생성 전에 이 페어를 제거하려면 태그 제거를 선택합니다.

    18. 학습을 선택합니다.

    그러면 새 인식기가 목록에 나타나고 그 상태가 표시됩니다. 처음에는 Submitted으로 표시됩니다. 그러면 Training 학습 문서를 처리 중인 분류기, Trained 사용 준비가 된 분류기, In error오류가 있는 분류기를 표시합니다. 작업을 클릭하면 오류 메시지를 포함하여 인식기에 대한 자세한 정보를 얻을 수 있습니다.

    일반 텍스트, PDF또는 단어 문서를 사용하여 사용자 지정 개체 인식기를 훈련하려면
    1. 에 로그인 AWS Management Console 하고 Amazon Comprehend 콘솔을 엽니다.

    2. 왼쪽 메뉴에서 사용자 정의을 선택한 다음 사용자 정의 개체 인식을 선택합니다.

    3. 인식기 학습을 선택합니다.

    4. 인식기에 이름을 지정합니다. 이 이름은 리전과 계정 내에서 고유한 이름이어야 합니다.

    5. 언어를 선택합니다. 참고: PDF 또는 Word 문서를 훈련하는 경우 영어가 지원되는 언어입니다.

    6. 사용자 정의 개체 유형에 인식기가 데이터 세트에서 찾을 수 있도록 하려는 사용자 정의 레이블을 입력합니다.

      개체 유형은 대문자여야 하며, 두 개 이상의 단어로 구성된 경우 밑줄로 단어를 분리해야 합니다.

    7. 유형 추가를 선택합니다.

    8. 추가 개체 유형을 추가하려면 해당 유형을 입력한 다음 유형 추가를 선택합니다. 추가한 개체 유형 중 하나를 제거하려면 유형 제거를 선택한 다음 목록에서 제거할 개체 유형을 선택합니다. 최대 25개의 개체 유형을 나열할 수 있습니다.

    9. 훈련 작업을 암호화하려면 인식기 암호화를 선택한 다음 현재 계정과 연결된 KMS 키를 사용할지 아니면 다른 계정의 키를 사용할지 선택합니다.

      • 현재 계정과 연결된 키를 사용하는 경우 KMS 키 ID에서 키 ID를 선택합니다.

      • 다른 계정과 연결된 키를 사용하는 경우 KMS 키ARN에 키 IDARN에를 입력합니다.

      참고

      KMS 키 생성 및 사용과 관련 암호화에 대한 자세한 내용은 섹션을 참조하세요AWS Key Management Service.

    10. 학습 데이터에서 증강 매니페스트를 데이터 형식으로 선택합니다.

      • 증강 매니페스트 - Amazon SageMaker Ground Truth에서 생성한 레이블이 지정된 데이터 세트입니다. 이 파일은 JSON 줄 형식입니다. 파일의 각 줄은 훈련 문서와 해당 레이블이 포함된 완전한 JSON 객체입니다. 각 레이블은 학습 문서에 이름이 지정된 개체를 주석에 답니다. 증강 매니페스트 파일은 5개까지 제공할 수 있습니다. 훈련 데이터에 PDF 문서를 사용하는 경우 증강 매니페스트를 선택해야 합니다. 증강 매니페스트 파일은 5개까지 제공할 수 있습니다. 각 파일에 학습 데이터로 사용할 속성을 최대 5개까지 지정할 수 있습니다.

      사용 가능한 형식 및 예제에 대한 자세한 내용은 사용자 지정 개체 인식기 모델 학습를 참조하세요.

    11. 학습 모델 유형을 선택합니다.

      일반 텍스트 문서를 선택한 경우 입력 위치 아래에 Amazon Truth 증강 매니페스트 파일의 Amazon S3URL를 입력합니다. SageMaker AIGround 또한 증강 매니페스트가 있는 Amazon S3의 버킷 또는 폴더로 이동하여 폴더 선택을 선택할 수도 있습니다.

    12. 속성 이름에 주석이 포함된 속성의 이름을 입력합니다. 파일에 여러 체인으로 연결된 레이블 작업의 주석이 포함되어 있으면 각 작업에 대한 속성을 추가하십시오. 이 경우 각 속성에는 레이블이 지정된 작업의 주석 세트가 포함됩니다. 참고: 각 파일에는 최대 5개의 속성 이름을 제공할 수 있습니다.

    13. 추가 선택.

    14. 입력 위치 아래에 PDF, Word 문서를 선택한 경우 Amazon AI Ground Truth 증강 매니페스트 파일의 Amazon S3URL를 입력합니다. SageMaker 또한 증강 매니페스트가 있는 Amazon S3의 버킷 또는 폴더로 이동하여 폴더 선택을 선택할 수도 있습니다.

    15. 주석 데이터 파일의 S3 접두사를 입력합니다. 다음은 레이블이 지정된 PDF 문서입니다.

    16. 소스 문서의 S3 접두사를 입력합니다. 다음은 레이블 지정 작업을 위해 Ground Truth에 제공한 원본 PDF 문서(데이터 객체)입니다.

    17. 주석이 포함된 속성 이름을 입력합니다. 참고: 각 파일에는 최대 5개의 속성 이름을 제공할 수 있습니다. 사용자가 파일에 지정하지 않은 속성은 모두 무시됩니다.

    18. IAM 역할 섹션에서 기존 역할을 선택하거나 새 IAM 역할을 생성합니다.

      • 기존 IAM 역할 선택 - 입력 및 출력 Amazon S3 버킷에 액세스할 수 있는 권한이 있는 IAM 역할이 이미 있는 경우이 옵션을 선택합니다.

      • 새 IAM 역할 생성 - Amazon Comprehend가 입력 및 출력 버킷에 액세스할 수 있는 적절한 권한이 있는 새 IAM 역할을 생성하려면이 옵션을 선택합니다.

        참고

        입력 문서가 암호화된 경우 사용된 IAM 역할에 kms:Decrypt 권한이 있어야 합니다. 자세한 내용은 KMS 암호화를 사용하는 데 필요한 권한 단원을 참조하십시오.

    19. (선택 사항)에서 Amazon Comprehend로 리소스를 시작하려면 아래에 VPC ID를 VPC입력VPC하거나 드롭다운 목록에서 ID를 선택합니다.

      1. 서브넷에서 서브넷을 선택합니다. 첫 번째 서브넷을 선택한 후 추가 서브넷을 선택할 수 있습니다.

      2. 보안 그룹을 지정한 경우, 보안 그룹에서 사용할 보안 그룹을 선택합니다. 첫 번째 보안 그룹을 선택한 후 추가 보안 그룹을 선택할 수 있습니다.

      참고

      사용자 지정 엔터티 인식 작업과 VPC 함께를 사용하는 경우 생성 및 시작 작업에 DataAccessRole 사용되는 에는 입력 문서와 출력 버킷에 액세스할 수 VPC 있는에 대한 권한이 있어야 합니다.

    20. (선택 사항) 사용자 정의 개체 인식기에 태그를 추가하려면 태그 에 키-값 페어를 입력합니다. 태그 추가를 선택합니다. 인식기 생성 전에 이 페어를 제거하려면 태그 제거를 선택합니다.

    21. 학습을 선택합니다.

    그러면 새 인식기가 목록에 나타나고 그 상태가 표시됩니다. 처음에는 Submitted으로 표시됩니다. 그러면 Training 학습 문서를 처리 중인 분류기, Trained 사용 준비가 된 분류기, In error오류가 있는 분류기를 표시합니다. 작업을 클릭하면 오류 메시지를 포함하여 인식기에 대한 자세한 정보를 얻을 수 있습니다.