데이터 세트를 생성합니다. - Amazon Lookout for Vision

지원 종료 공지: 2025 AWS 년 10월 31일에는 Amazon Lookout for Vision에 대한 지원을 중단할 예정입니다. 2025년 10월 31일 이후에는 Lookout for Vision 콘솔 또는 Lookout for Vision 리소스에 더 이상 액세스할 수 없습니다. 자세한 내용은이 블로그 게시물을 참조하세요.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 세트를 생성합니다.

데이터세트에는 모델을 학습시키고 테스트하는 데 사용하는 이미지와 할당된 레이블이 포함됩니다. Amazon Lookout for Vision 콘솔 또는 CreateDataset 작업을 사용하여 프로젝트의 데이터 세트를 생성합니다. 생성하려는 모델 유형 (이미지 분류 또는 이미지 분할)에 따라 데이터 세트 이미지에 레이블을 지정해야 합니다.

데이터 세트용 이미지 준비

데이터 세트를 만들려면 이미지 컬렉션이 필요합니다. 이미지는 PNG 또는 JPEG 형식 파일이어야 합니다. 필요한 이미지의 수와 유형은 프로젝트에 단일 데이터 세트가 있는지 아니면 훈련 및 테스트 데이터 세트가 분리되어 있는지에 따라 달라집니다.

단일 데이터 세트

이미지 분류 모델을 만들려면 학습을 시작하기 위해 다음이 필요합니다.

  • 일반 물체의 이미지가 20개 이상 있어야 합니다.

  • 최소 10개 이상의 변칙 물체 이미지

이미지 분할 모델을 만들려면 학습을 시작하기 위해 다음이 필요합니다.

  • 각 이상 유형의 이미지가 20개 이상 있어야 합니다.

  • 각 변칙 이미지 (이상 유형이 있는 이미지)에는 한 가지 유형의 이상 항목만 있어야 합니다.

  • 일반 물체의 이미지가 20개 이상 있어야 합니다.

별도의 학습 및 테스트 데이터세트 프로젝트

이미지 분류 모델을 생성하려면 다음이 필요합니다.

  • 학습 데이터 세트에 있는 정상 물체의 이미지가 10개 이상 있어야 합니다.

  • 테스트 데이터 세트에 있는 정상 물체의 이미지가 10개 이상 있어야 합니다.

  • 테스트 데이터 세트에 있는 이상 물체의 이미지가 10개 이상 있어야 합니다.

이미지 분할 모델을 생성하려면 다음이 필요합니다.

  • 각 데이터 세트에는 각 이상 유형의 이미지가 10개 이상 필요합니다.

  • 각 변칙 이미지 (이상 유형이 있는 이미지)에는 한 가지 유형의 이상 항목만 포함되어야 합니다.

  • 각 데이터 세트에는 정상 개체의 이미지가 10개 이상 있어야 합니다.

더 높은 품질의 모델을 만들려면 최소 이미지 수보다 많은 이미지를 사용하세요. 분할 모델을 만드는 경우 여러 예외 유형이 있는 이미지를 포함하는 것이 좋지만, 이러한 이미지는 Lookout for Vision이 학습을 시작하는 데 필요한 최소 수에는 포함되지 않습니다.

이미지는 단일 유형의 객체여야 합니다. 또한 카메라 위치, 조명, 물체 포즈 등 이미지 캡처 조건이 일정해야 합니다.

훈련 데이터 세트와 테스트 데이터 세트의 모든 이미지는 크기가 같아야 합니다. 나중에 학습된 모델로 분석하는 이미지는 훈련 및 테스트 데이터 세트 이미지와 크기가 같아야 합니다. 자세한 내용은 이미지에서 이상 탐지 단원을 참조하십시오.

모든 훈련 영상과 테스트 영상은 고유한 영상이어야 하며, 가급적이면 고유한 객체를 포함하는 영상이어야 합니다. 일반 이미지는 분석 대상 물체의 일반적인 변화를 캡처해야 합니다. 변칙 이미지는 다양한 변칙 샘플을 캡처해야 합니다.

Amazon Lookout for Vision은 사용자가 사용할 수 있는 예시 이미지를 제공합니다. 자세한 내용은 이미지 분류 데이터 세트 단원을 참조하십시오.

이미지 제한에 대한 내용은 Amazon Lookout for Vision 할당량을 참조하십시오.

데이터 세트 생성

프로젝트용 데이터 세트를 만들 때 프로젝트의 초기 데이터 세트 구성을 선택합니다. 또한 Lookout for Vision에서 이미지를 가져오는 위치도 선택할 수 있습니다.

프로젝트의 데이터 세트 구성 선택

프로젝트에서 첫 번째 데이터 세트 생성 시 다음 데이터 세트 구성 중 하나를 선택합니다.

  • 단일 데이터 세트 — 단일 데이터 세트 프로젝트는 단일 데이터 세트를 사용하여 모델을 학습하고 테스트합니다. 단일 데이터 세트를 사용하면 Amazon Lookout for Vision에서 교육 및 테스트 이미지를 선택할 수 있으므로 교육이 간소화됩니다. Amazon Lookout for Vision은 교육 중에 데이터 세트를 내부적으로 교육 데이터 세트와 테스트 데이터 세트로 분할합니다. 이 분할 데이터 세트에 액세스할 수 없습니다. 대부분의 시나리오에서는 단일 데이터 세트 프로젝트를 사용하는 것이 좋습니다.

  • 학습 및 테스트 데이터 세트 분리 - 학습, 테스트, 성능 튜닝을 더 세밀하게 제어하려면 별도의 학습 및 테스트 데이터 세트를 포함하도록 프로젝트를 구성할 수 있습니다. 테스트에 사용되는 이미지를 제어하려는 경우 또는 사용하려는 이미지의 벤치마크 세트가 이미 있는 경우 별도의 테스트 데이터 세트를 사용하십시오.

기존 단일 데이터 세트 프로젝트에 테스트 데이터 세트를 추가할 수 있습니다. 그러면 단일 데이터 세트가 학습 데이터 세트가 됩니다. 학습 데이터 세트와 테스트 데이터 세트가 분리된 프로젝트에서 테스트 데이터 세트를 제거하면 프로젝트는 단일 데이터 세트 프로젝트가 됩니다. 자세한 내용은 데이터 세트 삭제 단원을 참조하십시오.

이미지 가져오기

데이터 세트를 만들 때 이미지를 가져올 위치를 선택합니다. 이미지를 가져오는 방법에 따라 이미지에 이미 레이블이 지정되어 있을 수 있습니다. 데이터세트를 만든 후 이미지에 레이블이 지정되지 않은 경우 이미지 레이블 지정을 참조하십시오.

다음 방법 중 하나로 데이터세트를 생성하고 이미지를 가져옵니다.

  • 로컬 컴퓨터에서 이미지 가져오기 이미지에는 레이블이 지정되지 않습니다. Lookout for Vision 콘솔을 사용하여 레이블을 추가합니다.

  • S3 버킷에서 이미지를 가져옵니다. Amazon Lookout for Vision은 폴더 이름을 사용하여 이미지에 레이블을 지정함으로써 이미지를 분류할 수 있습니다. 일반 이미지에 normal를 사용합니다. 변칙 이미지에 anomaly를 사용합니다. 분할 레이블은 자동으로 할당할 수 없습니다.

  • 레이블이 지정된 이미지가 포함된 Amazon SageMaker AI Ground Truth 매니페스트 파일을 가져옵니다. 자체 매니페스트 파일을 생성하고 가져올 수 있습니다. 이미지가 많은 경우 SageMaker AI Ground Truth 레이블 지정 서비스를 사용하는 것이 좋습니다. 그런 다음 Amazon SageMaker AI Ground Truth 작업에서 출력 매니페스트 파일을 가져옵니다. 필요에 따라 Lookout for Vision 콘솔을 사용하여 레이블을 추가하거나 변경할 수 있습니다.

를 사용하는 경우 Amazon SageMaker AI Ground Truth 매니페스트 파일로 데이터 세트를 AWS SDK생성합니다. 자세한 내용은 Amazon SageMaker AI Ground Truth 매니페스트 파일을 사용하여 데이터 세트 생성 단원을 참조하십시오.

데이터 세트를 생성한 후 이미지에 레이블이 지정되면 모델을 학습시킬 수 있습니다. 이미지에 레이블이 지정되지 않은 경우 만들려는 모델 유형에 따라 레이블을 추가하세요. 자세한 내용은 이미지 레이블 지정 단원을 참조하십시오.

기존 데이터 세트에 이미지를 더 추가할 수 있습니다. 자세한 내용은 데이터 세트에 이미지 추가 단원을 참조하십시오.