사용자 지정 개체 인식 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 지정 개체 인식

사용자 지정 개체 인식은 사전 설정된 일반 개체 유형에 없는 특정 새 개체 유형을 식별할 수 있도록 지원하여 Amazon Comprehend의 기능을 확장합니다. 즉, 문서를 분석하여 제품 코드 또는 비즈니스별 개체와 같이 필요에 부합하는 개체를 추출할 수 있습니다.

정확한 사용자 지정 개체 인식기를 직접 구축하는 것은 복잡한 프로세스일 수 있습니다. 수동으로 주석을 달아놓은 대규모 학습 문서를 준비하고, 모델 학습에 적합한 알고리즘과 매개변수를 선택해야 하기 때문입니다. Amazon Comprehend는 자동 주석 및 사용자 지정 개체 인식 모델을 생성할 수 있는 모델 개발을 제공하여 이 복잡성을 줄이는 데 도움이 됩니다.

사용자 지정 개체 인식 모델을 만드는 것은 문자열 매칭이나 정규 표현식을 사용하여 문서에서 개체를 추출하는 것보다 더 효과적인 접근 방식입니다. 예를 들어, 문서에서 ENGINEER 이름을 추출할 때는 가능한 모든 이름을 열거하기가 어렵습니다. 또한 맥락이 없으면 ENGINEER 이름과 ANALYST 이름을 구분하기가 어렵습니다. 사용자 지정 개체 인식 모델은 해당 이름이 나타날 가능성이 있는 맥락을 학습할 수 있습니다. 또한 문자열 매칭은 오타가 있거나 새로운 이름 지정 규칙을 따르는 개체를 감지하지 못하지만, 사용자 지정 모델을 사용하면 가능합니다.

사용자 지정 모델을 생성할 수 있는 옵션은 두 가지가 있습니다.

  1. 주석 – 모델 학습에 사용할 주석이 달린 개체가 포함된 데이터 세트를 제공합니다.

  2. 개체 목록(일반 텍스트만 해당) – 모델 학습에 사용할 개체 목록 및 해당 유형 레이블(예: PRODUCT_CODES), 해당 개체가 포함된 주석이 없는 문서 세트를 제공합니다.

주석이 달린 PDF 파일을 사용하여 사용자 지정 개체 인식기를 만들면 사전 처리나 문서 병합 작업 없이 일반 텍스트, 이미지 파일(JPG, PNG, TIFF), PDF 파일, Word 문서 등 다양한 입력 파일 형식에 해당 인식기를 사용할 수 있습니다. Amazon Comprehend는 이미지 파일 또는 Word 문서에 대한 주석 달기를 지원하지 않습니다.

참고

주석이 달린 PDF 파일을 사용하는 사용자 지정 개체 인식기는 영어 문서만 지원합니다.

한 번에 최대 25개의 사용자 지정 개체에 대해 모델을 학습시킬 수 있습니다. 자세한 정보는 지침 및 할당량 페이지를 참조하십시오.

모델을 학습시킨 후에는 이 모델을 사용하여 실시간 개체 감지 및 개체 감지 작업을 수행할 수 있습니다.