개체 인식기 학습 데이터 준비 - Amazon Comprehend

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

개체 인식기 학습 데이터 준비

성공적인 사용자 정의 개체 인식 모델을 학습하려면 모델 트레이너에게 고품질 입력 데이를 제공하는 것이 중요합니다. 좋은 데이터가 없으면 모델은 개체를 올바르게 식별하는 방법을 학습할 수 없습니다.

사용자 정의 개체 인식 모델 학습은 Amazon Comprehend에 데이터를 제공하는 두 가지 방법 중 하나를 선택할 수 있습니다.

  • 개체 목록 — Amazon Comprehend가 사용자 정의 개체를 식별하도록 학습할 수 있도록 특정 개체를 나열합니다. 참고: 개체 목록은 일반 텍스트 문서에만 사용할 수 있습니다.

  • 주석 — Amazon Comprehend가 개체와 해당 문맥 모두에 대해 학습할 수 있도록 여러 문서에서 개체의 위치를 제공합니다. 이미지 파일, PDF 또는 Word 문서를 분석하기 위한 모델을 만들려면 PDF 주석을 사용하여 인식기를 학습시켜야 합니다.

Amazon Comprehend는 두 경우 모두에 문서의 종류와 개체가 만들어 내는 문맥을 학습하고 문서를 분석할 때 새 개체 탐지를 일반화할 수 있는 인식기를 구축합니다.

사용자 정의 모델을 만들거나 새 버전을 학습시킬 때 테스트 데이터 세트를 제공할 수 있습니다. 테스트 데이터를 제공하지 않는 경우 Amazon Comprehend는 모델을 테스트하기 위해 입력 문서의 10%를 유보합니다. Amazon Comprehend는 나머지 문서를 사용하여 모델을 학습시킵니다.

주석 학습 세트를 위한 테스트 데이터 세트를 제공하는 경우, 테스트 데이터에는 생성 요청에서 지정한 각 항목 유형에 대한 주석이 하나 이상 포함되어야 합니다.

주석을 사용해야 하는 경우와 개체 목록을 사용해야 하는 경우

주석을 만드는 것은 개체 목록을 만드는 것보다 더 많은 작업이 필요하지만 결과 모델은 훨씬 더 정확할 수 있습니다. 개체 목록을 사용하면 더 빠르고 작업 집약도가 줄어들지만 결과의 세분화와 정확도는 떨어집니다. 이는 주석이 Amazon Comprehend가 모델을 학습시킬 때 사용할 수 있는 더 많은 문맥을 제공하기 때문입니다. 이러한 문맥이 없으면 Amazon Comprehend에서 개체를 식별할 때 탐지 오류가 더 많이 발생합니다.

주석 사용에 따른 비용 증가와 워크로드를 피하는 것이 비즈니스적으로 더 합리적인 시나리오가 될 수도 있습니다. 예를 들어 John Johnson이라는 이름은 사용자의 검색에서 중요한 의미를 갖지만 정확히 사용자가 검색하는 그 사람인지 여부는 관련이 없습니다. 또는 개체 목록을 사용할 때 지표가 충분하여 사용자가 원하는 인식기 결과를 제공할 수도 있습니다. 이러한 경우에는 오히려 개체 목록을 사용하는 것이 더 효과적일 수 있습니다.

다음과 같은 경우에는 주석 모드를 사용합니다.

  • 이미지 파일, PDF 또는 Word 문서에 대해 추론을 실행하려는 경우 이 시나리오에서는 주석이 달린 PDF 파일을 사용하여 모델을 학습 시키고 이 모델을 사용하여 이미지 파일, PDF 및 Word 문서에 대한 추론 작업을 실행합니다.

  • 개체의 의미가 모호하고 상황에 따라 달라질 수 있는 경우 예를 들어 Amazon이라는 용어는 브라질의 강이나 온라인 소매업체인 Amazon.com을 가리킬 수 있습니다. Amazon 같은 사업체를 식별하는 사용자 정의 개체 인식기를 만들 때는 개체 목록 대신 주석을 사용해야 합니다. 이 방법을 사용하면 문맥을 사용하여 개체를 더 잘 찾을 수 있기 때문입니다.

  • 주석을 얻기 위한 프로세스를 설정하는 것이 편한 경우 (약간의 노력이 필요할 수 있음).

다음과 같은 경우에는 개체 목록을 사용하는 것이 좋습니다.

  • 이미 개체 목록이 있거나 개체의 전체 목록을 작성하는 것이 비교적 쉬운 경우. 개체 목록을 사용하는 경우, 목록이 완벽하거나 최소한 학습용으로 제공하는 문서에 나타날 수 있는 대부분의 유효한 개체가 포함되어 있어야 합니다.

  • 주석을 작성하는 것보다 비용이 적게 들기 때문에 처음 사용하는 경우에는 일반적으로 개체 목록을 사용하는 것이 좋습니다. 하지만 학습된 모델은 주석 사용 보다 정확하지 않을 수 있다는 점에 유의해야 합니다.