주석 통합 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

주석 통합

주석은 단일 작업자의 레이블 지정 작업의 결과입니다. 주석 통합은 두 명 이상의 작업자가 단 주석을 데이터 객체에 대한 단일 레이블로 결합합니다. 데이터 세트의 각 객체에 할당된 레이블은 실제 레이블이 무엇인지에 대한 확률적 추정치입니다. 데이터 세트의 각 객체에는 일반적으로 주석이 여러 개 있지만 레이블은 하나만 있거나 세트로 있습니다.

데이터 세트의 각 객체에 주석을 달아야 하는 작업자 수를 결정합니다. 작업자가 더 많아지면 레이블의 정확도가 높아지지만 레이블 지정 비용도 함께 상승합니다. Ground Truth 요금에 대한 자세한 내용은 Amazon SageMaker Ground Truth 요금 섹션을 참조하세요.

Amazon SageMaker 콘솔을 사용하여 레이블 지정 작업을 생성하는 경우 객체에 주석을 달 수 있는 작업자 수의 기본값은 다음과 같습니다.

  • 텍스트 분류 - 작업자 3명

  • 이미지 분류 - 작업자 3명

  • 경계 상자 - 작업자 5명

  • 의미 체계 분할 - 작업자 3명

  • 이름이 지정된 엔터티 인식 - 작업자 3명

CreateLabelingJob 작업을 사용하는 경우 NumberOfHumanWorkersPerDataObject 파라미터를 사용하여 각 데이터 객체에 주석을 달 작업자의 수를 설정합니다. 콘솔 또는 CreateLabelingJob 작업을 사용하여 데이터 객체에 주석을 다는 기본 작업자 수를 재정의할 수 있습니다.

Ground Truth는 미리 정의된 각 레이블 지정 작업(경계 상자, 이미지 분류, 이름 엔터티 인식, 의미 체계 분할 및 텍스트 분류)에 대해 주석 통합 기능을 제공합니다. 기능은 다음과 같습니다.

  • 이미지 및 텍스트 분류를 위한 다중 클래스 주석 통합은 주석에 대한 기댓값 최대화 접근 방식의 변형을 사용합니다. 이 기능은 각 작업자에 대한 파라미터를 예측하고, 베이지안 추론을 사용하여 개별 작업자의 클래스 주석을 기반으로 실제 클래스를 예측합니다.

  • 경계 상자 주석은 여러 작업자의 경계 상자를 통합합니다. 이 기능은 상자의 자카드 지수(Jaccard index) 또는 IoU(intersection over union)를 기반으로 여러 작업자로부터 가장 유사한 상자를 검색하여 평균을 냅니다.

  • 의미 체계 분할 주석 통합은 단일 이미지의 각 픽셀을 멀티클래스 분류로 취급합니다. 이 기능은 이미지에 smoothing 함수를 적용하여 통합된 주변 픽셀로부터 더 많은 정보를 가져와 작업자의 픽셀 주석을 “투표”(vote)로 취급합니다.

  • 이름이 지정된 엔터티 인식은 Jaccard 유사성 기준으로 텍스트 선택을 클러스터링하고 모드를 기반으로 선택 경계를 계산하거나, 모드가 명확하지 않은 경우 중앙값을 계산합니다. 레이블은 클러스터에서 가장 주요하게 할당된 엔터티 레이블로 확인되며 임의 선택에 따라 연결을 해제합니다.

다른 알고리즘을 사용하여 주석을 통합할 수 있습니다. 자세한 내용은 주석 통합 함수 생성을 참조하세요.