기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
사용자 지정 모델 작동 방식
Amazon SageMaker Canvas를 사용하여 가져온 데이터 세트에 사용자 지정 모델을 빌드합니다. 빌드한 모델을 사용하여 새 데이터를 예측합니다. SageMaker Canvas는 데이터 세트의 정보를 사용하여 최대 250개의 모델을 빌드하고 가장 적합한 모델을 선택합니다.
모델 구축을 시작하면 Canvas는 하나 이상의 모델 유형을 자동으로 추천합니다. 모델 유형은 다음 범주 중 하나에 속합니다.
-
수치 예측 - 머신 러닝에서는 이를 회귀라고 합니다. 수치 데이터에 대한 예측을 수행하려는 경우 수치 예측 모델 유형을 사용하세요. 예를 들어, 주택의 면적과 같은 특징을 기반으로 주택 가격을 예측하고자 할 수 있습니다.
-
범주형 예측 - 기계 학습에서는 이를 분류라고 합니다. 데이터를 그룹으로 분류하려면 범주형 예측 모델 유형을 사용하세요.
-
2개 범주 예측 - 데이터에 대해 두 개의 범주를 예측하려는 경우 2개 범주 예측 모델 유형(기계 학습에서는 바이너리 분류라고도 함)을 사용합니다. 예를 들어, 고객의 이탈 가능성이 있는지 여부를 판단하고자 할 수 있습니다.
-
3개 이상의 범주 예측 - 데이터에 대해 세 개 이상의 범주를 예측하려는 경우 3개 이상의 범주 예측 모델 유형(기계 학습에서는 다중 클래스 분류라고도 함)을 사용합니다. 예를 들어 이전 결제 등의 기능을 기반으로 고객의 대출 상태를 예측할 수 있습니다.
-
-
시계열 예측 - 일정 기간 동안 예측하려는 경우 시계열 예측을 사용합니다. 예를 들어 다음 분기에 판매할 품목 수를 예측할 수 있습니다. 시계열 예측에 대한 자세한 내용은 Amazon SageMaker Canvas의 시계열 예측을 참조하세요.
-
이미지 예측 - 이미지에 레이블을 할당하려는 경우 단일 레이블 이미지 예측 모델 유형(기계 학습에서는 단일 레이블 이미지 분류라고도 함)을 사용합니다. 예를 들어 제품 이미지의 여러 제조 결함 유형을 분류할 수 있습니다.
-
텍스트 예측 - 텍스트 구절에 레이블을 지정하려면 다중 범주 텍스트 예측 모델 유형(기계 학습에서는 다중 클래스 텍스트 분류라고도 함)을 사용합니다. 예를 들어, 제품에 대한 고객 리뷰 데이터 세트가 있고 고객이 해당 제품을 좋아했는지 싫어했는지 확인하려는 경우가 있습니다. 주어진 텍스트 구절이
Positive
,Negative
, 또는Neutral
인지 모델이 예측하도록 할 수 있습니다.
각 모델 유형에 지원되는 입력 데이터 유형의 테이블은 사용자 지정 모델을 참조하세요.
빌드하는 각 테이블 형식 데이터 모델(수치, 범주형, 시계열 예측 및 텍스트 예측 모델 포함)에 대해 대상 열을 선택합니다. 대상 열은 예측하려는 정보가 들어 있는 열입니다. 예를 들어 사용자의 구독 취소 여부를 예측하는 모델을 구축하는 경우 대상 열에는 사용자의 취소 상태에 대해 yes
또는 no
인 데이터 요소가 포함됩니다.
이미지 예측 모델의 경우 레이블이 지정된 이미지의 데이터 세트를 사용하여 모델을 구축합니다. 레이블이 지정되지 않은 이미지를 제공하는 경우 모델이 레이블을 예측합니다. 예를 들어 이미지가 고양이인지 개인지 예측하는 모델을 구축하는 경우 모델을 구축할 때 고양이 또는 개 라벨이 붙은 이미지를 제공해야 합니다. 그러면 모델은 레이블이 지정되지 않은 이미지를 받아들이고 이를 고양이 또는 개로 예측할 수 있습니다.
모델을 생성하면 발생하는 상황
모델을 빌드하려면 빠른 빌드 또는 표준 빌드를 선택할 수 있습니다. 빠른 빌드는 빌드 시간이 더 짧지만 표준 빌드는 일반적으로 정확도가 더 높습니다.
테이블 형식 및 시계열 예측 모델의 경우 Canvas는 다운샘플링을 사용하여 각각 5GB 또는 30GB보다 큰 데이터 세트의 크기를 줄입니다. Canvas는 계층화된 샘플링 방법을 사용하여 다운샘플링합니다. 아래 표에는 다운샘플의 크기가 모델 유형별로 나열되어 있습니다. 샘플링 프로세스를 제어하려면 Canvas의 Data Wrangler를 사용하여 선호하는 샘플링 기법을 사용하여 샘플링할 수 있습니다. 시계열 데이터의 경우 다시 샘플링하여 데이터 포인트를 집계할 수 있습니다. 샘플링에 대한 자세한 내용은 섹션을 참조하세요샘플링. 시계열 데이터 리샘플링에 대한 자세한 내용은 섹션을 참조하세요시계열 데이터 리샘플링.
50,000개 이상의 행이 있는 데이터 세트에서 빠른 빌드를 수행하도록 선택한 경우 Canvas는 더 짧은 모델 훈련 시간 동안 데이터를 50,000개 행까지 샘플링합니다.
다음 표에는 각 모델 및 빌드 유형의 평균 빌드 시간, 대규모 데이터 세트가 있는 모델을 빌드할 때 다운샘플 크기, 각 빌드 유형에 대해 보유해야 하는 최소 및 최대 데이터 포인트 수를 포함하여 모델 빌드 프로세스의 주요 특성이 요약되어 있습니다.
Limit | 수치형 및 범주형 예측 | 시계열 예측 | 이미지 예측 | 텍스트 예측 |
---|---|---|---|---|
빠른 빌드 시간 |
2~20분 |
2~20분 |
15~30분 |
15~30분 |
표준 빌드 시간 |
2~4시간 |
2~4시간 |
2~5시간 |
2~5시간 |
다운샘플 크기(S Canvas 다운샘플 이후 큰 데이터 세트의 축소된 크기) |
5GB |
30GB |
N/A |
N/A |
빠른 빌드의 최소 항목 수(행) |
2 범주: 500행 3 이상 범주, 숫자, 시계열: 해당 사항 없음 |
N/A |
해당 사항 없음 |
N/A |
표준 빌드의 최소 항목 수(행, 이미지 또는 문서) |
250 |
50 |
50 |
N/A |
빠른 빌드를 위한 최대 항목 수(행, 이미지 또는 문서) |
N/A |
N/A |
5000 |
7500 |
표준 빌드의 최대 항목 수(행, 이미지 또는 문서) |
N/A |
150,000 |
180,000 |
N/A |
최대 열 수 |
1,000 |
1,000 |
N/A |
N/A |
빠른 빌드를 실행하는 동안 로그아웃하면 다시 로그인할 때까지 빌드가 중단될 수 있습니다. 다시 로그인하면 Canvas가 빠른 빌드를 다시 시작합니다.
Canvas는 모델 유형에 따라 나머지 데이터 세트의 정보를 사용하여 값을 예측합니다.
-
범주형 예측의 경우 Canvas는 각 행을 대상 열에 나열된 범주 중 하나에 배치합니다.
-
수치 예측의 경우 Canvas는 데이터 세트의 정보를 사용하여 대상 열의 숫자 값을 예측합니다.
-
시계열 예측의 경우 Canvas는 과거 데이터를 사용하여 미래의 대상 열 값을 예측합니다.
-
이미지 예측의 경우 Canvas는 레이블이 지정된 이미지를 사용하여 레이블이 지정되지 않은 이미지의 레이블을 예측합니다.
-
텍스트 예측의 경우 Canvas는 레이블이 지정된 텍스트 데이터를 분석하여 레이블이 지정되지 않은 텍스트 구절의 레이블을 예측합니다.
모델을 구축하는 데 도움이 되는 추가 기능
모델을 빌드하기 전에 Canvas의 Data Wrangler를 사용하여 300개 이상의 내장 변환 및 연산자를 사용하여 데이터를 준비할 수 있습니다. Data Wrangler는 테이블 형식 및 이미지 데이터 세트 모두에 대한 변환을 지원합니다. 또한 Canvas 외부의 데이터 소스에 연결하고, 전체 데이터 세트에 변환을 적용하는 작업을 생성하고, Canvas 외부의 ML 워크플로에서 사용할 수 있도록 완전히 준비되고 정리된 데이터를 내보낼 수 있습니다. 자세한 내용은 데이터 준비 단원을 참조하십시오.
시각화 및 분석을 통해 데이터를 탐색하고 모델에 포함할 기능을 결정하려면 Data Wrangler의 내장 분석을 사용할 수 있습니다. 데이터 세트의 잠재적 문제를 강조하고 수정 방법에 대한 권장 사항을 제공하는 데이터 품질 및 인사이트 보고서에 액세스할 수도 있습니다. 자세한 내용은 탐색적 데이터 분석 수행(EDA) 단원을 참조하십시오.
Canvas는 Data Wrangler를 통해 제공되는 고급 데이터 준비 및 탐색 기능 외에도 사용할 수 있는 몇 가지 기본 기능을 제공합니다.
데이터를 필터링하고 기본 데이터 변환 세트에 액세스하려면 섹션을 참조하세요모델 구축을 위한 데이터 준비.
기능 탐색을 위한 간단한 시각화 및 분석에 액세스하려면 섹션을 참조하세요데이터 탐색 및 분석.
모델 미리 보기, 데이터 세트 검증, 모델 구축에 사용되는 무작위 샘플 크기 변경과 같은 추가 기능에 대한 자세한 내용은 모델 미리 보기을 참조하세요.
여러 열이 있는 테이블 형식 데이터 세트(예: 범주형, 수치형 또는 시계열 예측 모델 유형을 구축하기 위한 데이터 세트)의 경우 데이터 포인트가 누락된 행이 있을 수 있습니다. Canvas는 모델을 빌드하는 동안 누락된 값을 자동으로 추가합니다. Canvas는 데이터 세트의 값을 사용하여 누락된 값에 대한 수학적 근사치를 계산합니다. 모델 정확도를 극대화하려면 누락된 데이터를 찾을 수 있는 경우 추가하는 것이 좋습니다. 텍스트 예측 또는 이미지 예측 모델에는 누락된 데이터 기능이 지원되지 않는다는 점에 유의하세요.
시작하기
사용자 지정 모델 구축을 시작하려면 구축하려는 모델 유형의 절차를 확인하고 모델 빌드을 따르세요.