Amazon Redshift 기계 학습 사용 비용 - Amazon Redshift

Amazon Redshift 기계 학습 사용 비용

Amazon Redshift 기계 학습은 예측에 기존 클러스터 리소스를 사용하므로 추가 Amazon Redshift 요금을 피할 수 있습니다. 모델 생성 또는 사용에 대한 추가 Amazon Redshift 요금은 없습니다. Redshift 클러스터에서 로컬로 예측이 이루어지므로 클러스터 크기를 조정해야 하는 경우가 아니면 추가 비용을 지불할 필요가 없습니다. Amazon Redshift 기계 학습은 모델 훈련에 Amazon SageMaker를 사용하며, 이 경우 추가 관련 비용이 발생합니다.

Amazon Redshift 클러스터 내에서 실행되는 예측 함수에 대한 추가 요금은 없습니다. CREATE MODEL 문은 Amazon SageMaker를 사용하며 추가 비용이 발생합니다. 비용은 훈련 데이터의 셀 수에 따라 증가합니다. 셀 수는 레코드 수(훈련 쿼리 또는 테이블 시간)에 열 수를 곱한 값입니다. 예를 들어 CREATE MODEL 문의 SELECT 쿼리가 10,000개의 레코드와 5개의 열을 생성할 때 생성되는 셀의 수는 50,000개입니다.

경우에 따라 CREATE MODEL의 SELECT 쿼리에 의해 생성된 훈련 데이터가 제공한 MAX_CELLS 제한(제한을 제공하지 않은 경우 기본 100만 개)을 초과합니다. 이러한 경우 CREATE MODEL은 약 MAX_CELLS개(즉, 훈련 데이터 집합의 "열 수" 레코드)를 무작위로 선택합니다. 그런 다음 CREATE MODEL은 무작위로 선택된 튜플을 사용하여 훈련을 수행합니다. 무작위 샘플링은 감소된 훈련 데이터 집합에 편향이 없도록 합니다. 따라서 MAX_CELLS를 설정하여 훈련 비용을 제어할 수 있습니다.

CREATE MODEL 문을 사용할 때 MAX_CELLS 및 MAX_RUNTIME 옵션으로 비용, 시간 및 잠재적인 모델 정확도를 제어할 수 있습니다.

MAX_RUNTIME은 AUTO ON 또는 OFF 옵션이 사용될 때 SageMaker에서 훈련에 소요될 수 있는 최대 시간을 지정합니다. 데이터 집합의 크기에 따라 MAX_RUNTIME보다 훈련 작업이 빨리 완료되는 경우가 많습니다. 모델 훈련 후 Amazon Redshift는 백그라운드에서 추가 작업을 수행하여 모델을 컴파일하고 클러스터에 설치합니다. 따라서 CREATE MODEL을 완료하는 데 MAX_RUNTIME보다 더 오래 걸릴 수 있습니다. 그러나 MAX_RUNTIME은 SageMaker에서 모델 훈련에 사용되는 계산량과 시간을 제한합니다. SHOW MODEL을 사용하여 언제든지 모델 상태를 확인할 수 있습니다.

AUTO ON으로 CREATE MODEL을 실행하면 Amazon Redshift 기계 학습은 SageMaker Autopilot을 사용하여 다양한 모델 또는 후보를 지능적으로 자동 탐색하여 최적의 모델을 찾습니다. MAX_RUNTIME은 소요되는 시간과 계산 시간을 제한합니다. MAX_RUNTIME이 너무 낮게 설정되면 하나의 후보라도 탐색할 시간이 충분하지 않을 수 있습니다. ["Autopilot 후보에 모델이 없습니다.(Autopilot candidate has no models)"] 오류가 표시되면 MAX_RUNTIME 값을 늘리고 CREATE MODEL을 다시 실행합니다. 이 파라미터에 대한 자세한 내용은 Amazon SageMaker API ReferenceMaxAutoMLJobRuntimeInSeconds 섹션을 참조하세요.

AUTO OFF로 CREATE MODEL을 실행하면 MAX_RUNTIME은 SageMaker에서 훈련 작업이 실행되는 시간에 대한 제한에 해당합니다. 데이터 집합의 크기와 MODEL_TYPE XGBOOST의 num_rounds와 같이 사용된 기타 파라미터에 따라 훈련 작업이 더 빨리 완료되는 경우가 많습니다.

CREATE MODEL을 실행할 때 MAX_CELLS 값을 줄여서 비용을 제어하거나 훈련 시간을 줄일 수도 있습니다. 은 데이터베이스의 항목입니다. 각 행은 고정된 너비 또는 다양한 너비의 열 수만큼의 셀에 해당합니다. MAX_CELLS는 셀 수를 제한하므로 모델 훈련에 사용되는 훈련 예제의 수를 제한합니다. 기본적으로 MAX_CELLS는 셀 100만 개로 설정됩니다. MAX_CELLS를 줄이면 Amazon Redshift가 모델 훈련을 위해 내보내고 SageMaker로 보내는 CREATE MODEL의 SELECT 쿼리 결과에서 행 수가 줄어듭니다. 따라서 MAX_CELLS를 줄이면 AUTO ON 및 AUTO OFF로 모델을 훈련하는 데 사용되는 데이터 집합의 크기가 줄어듭니다. 이 방법으로 모델 훈련에 드는 비용과 시간을 줄일 수 있습니다. 특정 훈련 작업의 훈련 및 청구 시간에 대한 정보를 보려면 Amazon SageMaker에서 훈련 작업(Training jobs)을 선택합니다.

MAX_RUNTIME 및 MAX_CELLS를 늘리면 SageMaker가 더 많은 후보를 탐색할 수 있어 모델 품질이 향상되는 경우가 많습니다. 이러한 방식으로 SageMaker는 더 많은 시간을 들여 각 후보를 훈련하고 더 많은 데이터를 사용하여 더 나은 모델을 훈련할 수 있습니다. 데이터 집합을 더 빠르게 반복하거나 탐색하려면 MAX_RUNTIME과 MAX_CELLS를 줄입니다. 모델의 정확도를 높이려면 MAX_RUNTIME과 MAX_CELL을 늘립니다.

다양한 셀 번호와 관련된 비용 및 무료 평가판 세부 정보에 대한 자세한 내용은 Amazon Redshift 요금 섹션을 참조하세요.