Amazon SageMaker Canvas의 시계열 예측 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker Canvas의 시계열 예측

참고

시계열 예측 모델은 테이블 형식 데이터 세트에만 지원됩니다.

Amazon SageMaker Canvas를 사용하면 기계 학습 시계열 예측을 사용할 수 있습니다. 시계열 예측을 사용하면 시간에 따라 달라질 수 있는 예측을 수행할 수 있습니다.

다음 예제에 대해 시계열 예측을 만들 수 있습니다.

  • 향후 몇 개월 동안의 인벤토리 예측.

  • 향후 4개월 동안 판매된 품목 수.

  • 가격 인하가 연휴 기간 동안 판매에 미치는 영향.

  • 다음 12개월 동안의 품목 인벤토리.

  • 다음 몇 시간 동안 매장에 입장하는 고객 수

  • 제품 가격의 10% 인하가 일정 기간 동안 매출에 어떤 영향을 미치는지 예측합니다.

시계열 예측을 하려면 데이터 세트에 다음이 포함되어야 합니다.

  • datetime 유형의 값이 모두 포함된 타임스탬프 열.

  • 미래 값을 예측하는 데 사용하는 값이 있는 대상 열.

  • 데이터 세트의 각 항목에 대해 SKU 숫자와 같은 고유 식별자가 포함된 항목 ID 열입니다.

타임스탬프 열의 datetime값은 다음 형식 중 하나를 사용해야 합니다.

  • YYYY-MM-DD HH:MM:SS

  • YYYY-MM-DDTHH:MM:SSZ

  • YYYY-MM-DD

  • MM/DD/YY

  • MM/DD/YY HH:MM

  • MM/DD/YYYY

  • YYYY/MM/DD HH:MM:SS

  • YYYY/MM/DD

  • DD/MM/YYYY

  • DD/MM/YY

  • DD-MM-YY

  • DD-MM-YYYY

다음 간격으로 예측할 수 있습니다.

  • 1분

  • 5분

  • 15분

  • 30분

  • 1시간

  • 1일

  • 1주

  • 한 달

  • 1년

입력 데이터 세트의 미래 값

Canvas는 미래 값을 포함할 가능성이 있는 데이터 세트의 열을 자동으로 감지합니다. 이러한 값이 있는 경우 예측의 정확도를 높일 수 있습니다. Canvas는 이러한 특정 열을 Future values레이블로 표시합니다. Canvas는 이러한 열의 데이터와 예측하려는 대상 열 간의 관계를 추론하고 이 관계를 활용하여 더 정확한 예측을 생성합니다.

예를 들어 식료품점에서 판매하는 아이스크림의 양을 예측할 수 있습니다. 예측을 하려면 타임스탬프 열과 식료품점에서 판매한 아이스크림의 양을 나타내는 열이 있어야 합니다. 보다 정확한 예측을 위해 데이터 세트에는 가격, 주변 온도, 아이스크림 맛 또는 아이스크림의 고유 식별자도 포함될 수 있습니다.

날씨가 따뜻해지면 아이스크림 판매량이 증가할 수 있습니다. 아이스크림 가격이 내려가면 아이스크림이 더 많이 판매될 수 있습니다. 주변 온도 데이터가 있는 열과 가격 데이터가 포함된 열이 있으면 식료품점에서 판매하는 아이스크림의 단위 수를 예측하는 능력을 높일 수 있습니다.

미래 값을 제공하는 것은 선택 사항이지만 Canvas 애플리케이션에서 직접 가정 분석을 수행하여 미래 값의 변화가 예측을 어떻게 바꿀 수 있는지 보여주는 데 도움이 됩니다.

누락 값 처리

여러 가지 이유로 데이터가 누락되었을 수 있습니다. 누락된 데이터가 발생한 이유에 따라 Canvas에서 해당 데이터를 어떻게 산입해야 하는지가 결정될 수 있습니다. 예를 들어 조직에서는 판매가 발생한 시기만 추적하는 자동 시스템을 사용할 수 있습니다. 이러한 유형의 자동 시스템에서 제공되는 데이터 세트를 사용하는 경우 대상 열에 누락된 값이 있습니다.

중요

대상 열에 누락된 값이 있는 경우 해당 값이 없는 데이터 세트를 사용하는 것이 좋습니다. SageMaker 캔버스는 대상 열을 사용하여 미래 값을 예측합니다. 대상 열에 누락된 값이 있으면 예측의 정확도가 크게 떨어질 수 있습니다.

데이터 세트에 누락된 값이 있는 경우 Canvas는 대상 열을 0으로 채우고 다른 숫자 열을 열의 중앙값으로 채워 누락된 값을 자동으로 산입합니다.

그러나 데이터 세트의 대상 열과 기타 숫자 열에 대한 채우기 논리를 직접 선택할 수 있습니다. 대상 열의 채우기 지침 및 제한사항은 나머지 숫자 열과 다릅니다. 목표 열은 과거 기간의 끝까지 채워지는 반면, 숫자 열은 과거 기간과 미래 기간 모두에서 예측 대상 기간 끝까지 채워집니다. Canvas는 데이터에 미래 타임스탬프가 있는 레코드가 하나 이상 있고 해당 특정 열에 대한 값이 있는 경우에만 숫자 열의 미래 값을 채웁니다.

다음 채우기 논리 옵션 중 하나를 선택하여 데이터의 누락된 값을 산입할 수 있습니다.

  • zero - 0로 채웁니다.

  • NaN - NaN으로 채우거나 숫자가 아닌 것으로 채웁니다. 이 기능은 대상 열에서만 지원됩니다.

  • mean - 데이터 계열의 평균값으로 채웁니다.

  • median - 데이터 계열의 중간값으로 채웁니다.

  • min - 데이터 계열의 최소값으로 채웁니다.

  • max - 데이터 계열의 최대값으로 채웁니다.

채우기 논리를 선택할 때 모델이 논리를 해석하는 방법을 고려해야 합니다. 예를 들어 소매 시나리오에서 재고 품목의 판매량이 0을 기록하는 것은 품절 품목의 판매량이 0을 기록하는 것과 다릅니다.후자의 시나리오는 품절 품목에 대한 고객의 관심 부족을 의미하지는 않습니다. 이 경우 데이터 세트의 대상 열을 0로 채우면 모델이 예측에 편향되지 않으며 품절 품목에 대한 고객 관심이 부족하다고 추론될 수 있습니다. 반대로, NaN로 채우면 재고 품목 중 판매된 품목이 0건인 경우를 모델에서 무시할 수 있습니다.

예측 유형

다음 예측 유형 중 하나를 수행할 수 있습니다.

  • 단일 항목

  • 모든 항목

데이터 세트의 모든 항목에 대한 예측의 경우 SageMaker 캔버스는 데이터 세트의 각 항목에 대한 미래 값에 대한 예측을 반환합니다.

단일 항목 예측의 경우 항목을 지정하면 SageMaker Canvas가 미래 값에 대한 예측을 반환합니다. 예측에는 시간 경과에 따른 예측 값을 표시하는 선 그래프가 포함됩니다.