레이블 지정 작업 연결 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

레이블 지정 작업 연결

Amazon SageMaker Ground Truth는 복제와 연결이라는 두 가지 방법으로 이전 작업의 데이터 세트를 재사용할 수 있습니다.

복제(Cloning)는 이전 레이블 지정 작업의 설정을 복사하고, 실행하도록 설정하기 전에 추가로 변경을 허용합니다.

연결(Chaining)은 이전 작업의 설정뿐 아니라 결과도 사용합니다. 이렇게 하면 미완료 작업을 계속하거나 완료된 작업에 레이블 또는 데이터 객체를 추가할 수 있습니다. 연결은 보다 복잡한 작업입니다.

데이터 처리를 위해:

  • 복제는 이전 작업의 입력 매니페스트와 수정(선택 사항)을 새 작업의 입력 매니페스트로 사용합니다.

  • 연결은 이전 작업의 출력 매니페스트를 새로운 작업의 입력 매니페스트로 사용합니다.

연결은 다음을 수행해야 할 때 유용합니다.

  • 수동으로 중지한 레이블 지정 작업을 계속합니다.

  • 문제를 해결한 후 작업 중간에 실패한 레이블 지정 작업을 계속 수행해야 할 때

  • 작업의 일부에 대해 수동으로 레이블을 지정한 후 자동 레이블 지정으로 전환해야 할 때 (또는 그 반대).

  • 완료된 작업에 데이터 객체를 추가하고 다시 작업을 시작합니다.

  • 완료된 작업에 다른 주석을 추가합니다. 예를 들어 주제로 라벨링된 문구 모음에 대해 라벨링을 다시 실행하여 주제가 암시하는 시청자를 기준으로 범주화할 수 있습니다.

Amazon SageMaker Ground Truth에서는 콘솔 또는 API를 사용하여 체인 레이블 지정 작업을 구성할 수 있습니다.

키 용어: 레이블 속성 이름

레이블 속성 이름(API의 LabelAttributeName)은 작업자가 데이터 객체에 할당한 레이블로 구성된 키-값 페어의 키로 사용되는 문자열입니다.

레이블 속성 이름에는 다음 규칙이 적용됩니다.

  • -metadata로 끝낼 수 없습니다.

  • sourcesource-ref는 예약된 이름이므로 사용할 수 없습니다.

  • 의미 체계 분할 레이블 지정 작업은 이름이 -ref로 끝나야 합니다. 다른 모든 레이블 지정 작업의 경우 이 작업을 -ref로 끝낼 수 없습니다. 콘솔을 사용하여 작업을 생성하는 경우 Amazon SageMaker Ground Truth는 시맨틱 -ref 분할 작업을 제외한 모든 레이블 속성 이름에 자동으로 추가됩니다.

  • 연결된 레이블 지정 작업에 대해, 원래 작업과 동일한 레이블 속성 이름을 사용하고 연결된 작업이 자동 레이블 지정을 사용하도록 구성하는 경우 항상 자동 레이블 지정 모드였던 것처럼 Ground Truth는 원래 작업의 모델을 사용합니다.

출력 매니페스트에서 레이블 속성 이름은 다음과 유사하게 나타납니다.

"source-ref": "<S3 URI>", "<label attribute name>": { "annotations": [{ "class_id": 0, "width": 99, "top": 87, "height": 62, "left": 175 }], "image_size": [{ "width": 344, "depth": 3, "height": 234 }] }, "<label attribute name>-metadata": { "job-name": "<job name>", "class-map": { "0": "<label attribute name>" }, "human-annotated": "yes", "objects": [{ "confidence": 0.09 }], "creation-date": "<timestamp>", "type": "groundtruth/object-detection" }

콘솔에서 작업을 생성하는 경우 사용자가 명시적으로 레이블 속성 이름 값을 설정하지 않으면 Ground Truth에서 작업 이름을 작업에 대한 레이블 속성 이름으로 사용합니다.

연결 작업 시작(콘솔)

기존 작업 목록에서 중지, 실패 또는 완료된 레이블 지정 작업을 선택합니다. 그러면 작업 메뉴가 활성화됩니다.

작업 메뉴에서 Chain(연결)을 선택합니다.

작업 개요 패널

Job overview(작업 개요) 패널에서 이 작업을 연결하는 원래 작업의 제목을 기준으로 새 작업 이름이 설정됩니다. 이 이름을 변경할 수 있습니다.

또한 레이블 지정 작업 이름과 다른 레이블 속성 이름을 지정할 수도 있습니다.

완료된 작업에서 연결하는 경우 레이블 속성 이름이 구성 중인 새 작업의 이름을 사용합니다. 이름을 변경하려면 확인란을 선택합니다.

중지 또는 실패한 작업에서 연결하는 경우 레이블 속성 이름이 원래 작업의 이름을 사용합니다. 이름 확인란이 선택되어 있으므로 간편하게 값을 확인하고 편집할 수 있습니다.

속성 레이블 이름 지정 고려 사항
  • 기본값은 Ground Truth가 선택한 레이블 속성 이름을 사용합니다. 해당 레이블 속성 이름에 데이터가 연결되지 않은 모든 데이터 객체가 라벨링됩니다.

  • 매니페스트에 존재하지 않는 레이블 속성 이름을 사용하면 작업이 데이터 세트의 모든 객체를 처리합니다.

이 경우 입력 데이터 세트 위치가 연결된 작업의 출력 매니페스트로 자동으로 선택됩니다. 입력 필드는 사용할 수 없으며, 따라서 변경할 수 없습니다.

레이블 지정 작업에 데이터 객체 추가

대체 매니페스트 파일을 지정할 수 없습니다. 수동으로 이전 작업의 출력 매니페스트를 편집하여 연결된 작업을 시작하기 전에 새 항목을 추가합니다. Amazon S3 URI는 Amazon S3 버킷에서 매니페스트를 저장하는 위치를 찾는데 유용합니다. 여기에서 매니페스트 파일을 다운로드하여 로컬 컴퓨터에서 편집한 후 새 버전을 업로드하여 대체합니다. 편집 도중 실수하지 않도록 주의하십시오. JSON 린터를 사용하여 JSON을 확인하는 것이 좋습니다. 많은 유명한 텍스트 편집기와 IDE에서 린터(linter) 플러그인을 제공합니다.

연결 작업 시작(API)

이 절차는 CreateLabelingJob에서 새 레이블 지정 작업을 설정하는 것과 거의 동일하지만, 두 가지 주요 차이가 있습니다.

  • 매니페스트 위치: 이전 작업의 원래 매니페스트를 사용하는 것이 아니라 DataSource에서 ManifestS3Uri 값이 이전 레이블 지정 작업의 출력 매니페스트의 Amazon S3 URI를 가리켜야 합니다.

  • 레이블 속성 이름: 여기서 올바른 LabelAttributeName 값을 설정하는 것이 중요합니다. 이는 레이블 지정 데이터의 값인 키-값 페어의 주요 부분입니다. 사용 사례는 다음과 같습니다.

    • 완료된 작업에 새로운 또는 특정 레이블을 추가 - 새 레이블 속성 이름을 지정합니다.

    • 이전 작업에서 레이블 지정되지 않은 항목을 레이블 지정 - 이전 작업의 레이블 속성 이름을 사용합니다.

부분적으로 레이블이 지정된 데이터 세트 사용

이미 부분적으로 레이블이 지정된 증강 매니페스트를 사용할 경우 연결의 이점을 일부 얻을 수 있습니다. Label attribute name(레이블 속성 이름) 확인란을 선택하고 매니페스트에서의 이름과 일치하도록 이름을 설정합니다.

API를 사용하는 경우 지침은 연결된 작업을 시작할 때와 동일합니다. 단, 매니페스트를 Amazon S3 버킷에 업로드한 후 이전 작업의 출력 매니페스트를 대신 사용해야 합니다.

매니페스트의 레이블 속성 이름 값이 앞에서 설명한 이름 고려 사항을 준수해야 합니다.