기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
주석
주석은 사용자 지정 개체 유형을 학습 문서에서 해당 개체가 나타나는 위치와 연결하여 상황에 맞게 개체에 레이블을 지정합니다.
문서와 함께 주석을 제출하면 모델의 정확도를 높일 수 있습니다. 주석을 사용하면 단순히 찾고 있는 개체의 위치를 제공하는 데 그치지 않고 원하는 사용자 지정 개체에 더 정확한 컨텍스트를 제공할 수 있습니다.
예를 들어, 개체 유형이 Judge인 John Johnson이라는 이름을 검색하는 경우 주석을 달면 모델이 찾으려는 사람이 판사임을 알아내는 데 도움이 될 수 있습니다. 컨텍스트를 사용할 수 있는 경우, Amazon Comprehend는 John Johnson이라는 변호사 또는 증인을 찾지 않습니다. Amazon Comprehend는 주석을 제공하지 않고 자체 버전의 주석을 생성하지만 판사만 포함하는 데는 그다지 효과적이지 않습니다. 주석을 직접 작성하면 더 나은 결과를 얻고 사용자 지정 개체를 추출할 때 컨텍스트를 더 잘 활용할 수 있는 모델을 생성하는 데 도움이 될 수 있습니다.
최소 주석 수
모델을 학습시키는 데 필요한 최소 입력 문서 및 주석 수는 주석 유형에 따라 다릅니다.
- PDF 주석
-
이미지 파일, PDF 또는 Word 문서를 분석하기 위한 모델을 생성하려면 PDF 주석을 사용하여 인식기를 학습하십시오. PDF 주석의 경우 최소 250개의 입력 문서와 항목당 최소 100개의 주석을 제공하십시오.
테스트 데이터세트를 제공하는 경우 테스트 데이터에는 생성 요청에 지정된 각 개체 유형에 대한 주석이 하나 이상 포함되어야 합니다.
- 일반 텍스트 주석
-
텍스트 문서 분석을 위한 모델을 만들려면 일반 텍스트 주석을 사용하여 인식기를 학습시킬 수 있습니다.
일반 텍스트 주석의 경우 주석이 달린 입력 문서를 3개 이상 제공하고 항목당 주석을 25개 이상 제공하십시오. 총 50개 미만의 주석을 제공하는 경우, Amazon Comprehend는 모델을 테스트하기 위해 입력 문서의 10% 이상을 예약합니다(학습 요청에서 테스트 데이터 세트를 제공하지 않은 경우). 최소 문서 코퍼스 크기는 5KB라는 점을 잊지 마십시오.
입력에 학습 문서가 몇 개만 포함된 경우 학습 입력 데이터에 개체 중 하나를 언급하는 문서가 너무 적다는 오류가 발생할 수 있습니다. 개체가 언급된 추가 문서와 함께 작업을 다시 제출하십시오.
테스트 데이터세트를 제공하는 경우 테스트 데이터에는 생성 요청에 지정된 각 개체 유형에 대한 주석이 하나 이상 포함되어야 합니다.
작은 데이터세트로 모델을 벤치마킹하는 방법에 대한 예는 AWS 블로그 사이트에서 Amazon Comprehend가 사용자 지정 개체 인식에 대한 주석 한도 하한 발표
를 참조하십시오.
주석 모범 사례
주석을 사용할 때 최상의 결과를 얻으려면 다음을 포함하여 여러 가지 사항을 고려해야 합니다.
-
데이터에 주의를 기울여 주석을 달고 해당 항목에 대한 모든 멘션에 주석을 달았는지 확인하십시오. 주석이 정확하지 않으면 결과가 좋지 않을 수 있습니다.
-
입력 데이터에는 주석을 달려는 PDF의 복제본과 같은 중복된 내용이 포함되어서는 안 됩니다. 샘플이 중복되면 테스트 세트가 오염되어 학습 프로세스, 모델 지표 및 모델 동작에 부정적인 영향을 미칠 수 있습니다.
-
모든 문서에 주석을 달아야 하며, 주석이 없는 문서는 적법한 개체가 없기 때문이지 과실로 인한 것이 아님을 확인하십시오. 예를 들어, “J Doe는 14년 동안 엔지니어로 일했습니다”라는 문서가 있는 경우 “J Doe”와 “John Doe”에 대한 주석도 제공해야 합니다. 그렇게 하지 않으면 모델이 혼동을 하여 모델이 “J Doe”를 ENGINEER로 인식하지 못할 수 있습니다. 이는 동일한 문서 내에서, 또는 문서 간에도 일관되어야 합니다.
-
일반적으로 주석을 많이 달면 더 나은 결과를 얻을 수 있습니다.
-
최소한의 문서와 주석으로 모델을 학습시킬 수 있지만 데이터를 추가하면 일반적으로 모델이 향상됩니다. 모델의 정확도를 높이려면 주석이 달린 데이터의 양을 10% 늘리는 것이 좋습니다. 변경되지 않고 다른 모델 버전에서 테스트할 수 있는 테스트 데이터세트에 대해 추론을 실행할 수 있습니다. 그런 다음 후속 모델 버전의 지표를 비교할 수 있습니다.
-
실제 사용 사례와 최대한 유사한 문서를 제공하십시오. 패턴이 반복되는 합성 데이터는 피해야 합니다. 입력 데이터는 과적합을 방지하고 기본 모델이 실제 예제를 보다 잘 일반화할 수 있도록 최대한 다양해야 합니다.
-
문서는 단어 수 측면에서 다양해야 합니다. 예를 들어, 학습 데이터의 모든 문서가 짧으면 결과 모델이 긴 문서에서 개체를 예측하기 어려울 수 있습니다.
-
사용자 지정 개체를 실제로 감지할 때 사용할 것으로 예상되는 것과 동일한 데이터 분포(추론 시간)를 학습에 적용해 보십시오. 예를 들어, 추론 시 개체가 없는 문서를 보내려는 경우 이 문서도 교육 문서 세트에 포함되어야 합니다.
추가 제안 사항은 사용자 지정 개체 인식기 성능 개선을 참조하십시오.