

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 개체 인식기 학습 데이터 준비
<a name="prep-training-data-cer"></a>

성공적인 사용자 정의 개체 인식 모델을 학습하려면 모델 트레이너에게 고품질 입력 데이를 제공하는 것이 중요합니다. 좋은 데이터가 없으면 모델은 개체를 올바르게 식별하는 방법을 학습할 수 없습니다.

사용자 정의 개체 인식 모델 학습은 Amazon Comprehend에 데이터를 제공하는 두 가지 방법 중 하나를 선택할 수 있습니다.
+ **개체 목록** — Amazon Comprehend가 사용자 정의 개체를 식별하도록 학습할 수 있도록 특정 개체를 나열합니다. 참고: 개체 목록은 일반 텍스트 문서에만 사용할 수 있습니다.
+ **주석** — Amazon Comprehend가 개체와 해당 문맥 모두에 대해 학습할 수 있도록 여러 문서에서 개체의 위치를 제공합니다. 이미지 파일, PDF 또는 Word 문서를 분석하기 위한 모델을 만들려면 PDF 주석을 사용하여 인식기를 학습시켜야 합니다.

Amazon Comprehend는 두 경우 모두에 문서의 종류와 개체가 만들어 내는 문맥을 학습하고 문서를 분석할 때 새 개체 탐지를 일반화할 수 있는 인식기를 구축합니다.

사용자 정의 모델을 만들거나 새 버전을 학습시킬 때 테스트 데이터 세트를 제공할 수 있습니다. 테스트 데이터를 제공하지 않는 경우 Amazon Comprehend는 모델을 테스트하기 위해 입력 문서의 10%를 유보합니다. Amazon Comprehend는 나머지 문서를 사용하여 모델을 학습시킵니다.

주석 학습 세트를 위한 테스트 데이터 세트를 제공하는 경우, 테스트 데이터에는 생성 요청에서 지정한 각 항목 유형에 대한 주석이 하나 이상 포함되어야 합니다.

**Topics**
+ [주석을 사용해야 하는 경우와 개체 목록을 사용해야 하는 경우](#prep-training-data-comp)
+ [개체 목록(일반 텍스트만 해당)](cer-entity-list.md)
+ [Annotations](cer-annotation.md)

## 주석을 사용해야 하는 경우와 개체 목록을 사용해야 하는 경우
<a name="prep-training-data-comp"></a>

 주석을 만드는 것은 개체 목록을 만드는 것보다 더 많은 작업이 필요하지만 결과 모델은 훨씬 더 정확할 수 있습니다. 개체 목록을 사용하면 더 빠르고 작업 집약도가 줄어들지만 결과의 세분화와 정확도는 떨어집니다. 이는 주석이 Amazon Comprehend가 모델을 학습시킬 때 사용할 수 있는 더 많은 문맥을 제공하기 때문입니다. 이러한 문맥이 없으면 Amazon Comprehend에서 개체를 식별할 때 탐지 오류가 더 많이 발생합니다.

주석 사용에 따른 비용 증가와 워크로드를 피하는 것이 비즈니스적으로 더 합리적인 시나리오가 될 수도 있습니다. 예를 들어 John Johnson이라는 이름은 사용자의 검색에서 중요한 의미를 갖지만 정확히 사용자가 검색하는 그 사람인지 여부는 관련이 없습니다. 또는 개체 목록을 사용할 때 지표가 충분하여 사용자가 원하는 인식기 결과를 제공할 수도 있습니다. 이러한 경우에는 오히려 개체 목록을 사용하는 것이 더 효과적일 수 있습니다.

다음과 같은 경우에는 주석 모드를 사용합니다.
+ 이미지 파일, PDF 또는 Word 문서에 대해 추론을 실행하려는 경우 이 시나리오에서는 주석이 달린 PDF 파일을 사용하여 모델을 학습 시키고 이 모델을 사용하여 이미지 파일, PDF 및 Word 문서에 대한 추론 작업을 실행합니다.
+ 개체의 의미가 모호하고 상황에 따라 달라질 수 있는 경우 예를 들어 *Amazon*이라는 용어는 브라질의 강이나 온라인 소매업체인 Amazon.com을 가리킬 수 있습니다. *Amazon* 같은 사업체를 식별하는 사용자 정의 개체 인식기를 만들 때는 개체 목록 대신 주석을 사용해야 합니다. 이 방법을 사용하면 문맥을 사용하여 개체를 더 잘 찾을 수 있기 때문입니다.
+ 주석을 얻기 위한 프로세스를 설정하는 것이 편한 경우 (약간의 노력이 필요할 수 있음).

다음과 같은 경우에는 개체 목록을 사용하는 것이 좋습니다.
+ 이미 개체 목록이 있거나 개체의 전체 목록을 작성하는 것이 비교적 쉬운 경우. 개체 목록을 사용하는 경우, 목록이 완벽하거나 최소한 학습용으로 제공하는 문서에 나타날 수 있는 대부분의 유효한 개체가 포함되어 있어야 합니다.
+ 주석을 작성하는 것보다 비용이 적게 들기 때문에 처음 사용하는 경우에는 일반적으로 개체 목록을 사용하는 것이 좋습니다. 하지만 학습된 모델은 주석 사용 보다 정확하지 않을 수 있다는 점에 유의해야 합니다.