Canvas의 샘플 데이터 세트 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Canvas의 샘플 데이터 세트

SageMaker Canvas는 고유한 사용 사례를 해결하는 샘플 데이터 세트를 제공하므로 코드를 작성하지 않고도 모델을 빠르게 빌드, 훈련 및 검증할 수 있습니다. 이러한 데이터 세트와 연결된 사용 사례는 SageMaker Canvas의 기능을 강조하며, 이러한 데이터 세트를 활용하여 모델 구축을 시작할 수 있습니다. SageMaker Canvas 애플리케이션의 데이터 세트 페이지에서 샘플 데이터 세트를 찾을 수 있습니다.

다음 데이터 세트는 SageMaker Canvas가 기본적으로 제공하는 샘플입니다. 이 데이터 세트는 주택 가격, 대출 채무 불이행 및 당뇨병 환자의 재입원 예측, 판매 예측, 제조 단위의 예측 유지보수를 간소화하기 위한 기계 고장 예측, 운송 및 물류를 위한 공급망 예측 생성 등의 사용 사례를 다룹니다. 데이터 세트는 리전의 계정에 대해 가 SageMaker 생성하는 기본 Amazon S3 버킷의 sample_dataset 폴더에 저장됩니다.

  • canvas-sample-diabetic-readmission.csv: 이 데이터 세트에는 환자 및 병원 결과가 포함된 15개 이상의 기능을 포함한 과거 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 고위험 당뇨병 환자가 퇴원 후 30일 이내에 병원에 재입원할 가능성이 있는지, 30일 후 또는 전혀 재입원할 가능성이 있는지 예측할 수 있습니다. 재입원 열을 대상 열로 사용하고, 이 데이터 세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터 세트로 모델을 빌드하는 방법에 대한 자세한 내용은 SageMaker Canvas 워크숍 페이지를 참조하세요. 이 데이터 세트는 UCI Machine Learning 리포지토리 에서 가져왔습니다.

  • canvas-sample-housing.csv: 이 데이터 세트에는 지정된 주택 가격과 연결된 특성에 대한 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 주택 가격을 예측할 수 있습니다. median_house_value 열을 대상 열로 사용하고 이 데이터 세트에 숫자 예측 모델 유형을 사용합니다. 이 데이터 세트를 사용하여 모델을 구축하는 방법에 대한 자세한 내용은 SageMaker Canvas 워크숍 페이지를 참조하세요. 리StatLib 포지토리 에서 가져온 캘리포니아 하우징 데이터 세트입니다.

  • canvas-sample-loans.csv: 이 데이터 세트에는 현재 대출 상태 및 최신 결제 정보를 포함하여 2007년부터 2011년까지 발행된 모든 대출에 대한 전체 대출 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 고객의 대출금 상환 여부를 예측할 수 있습니다. loan_status 열을 대상 열로 사용하고, 이 데이터 세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터 세트로 모델을 빌드하는 방법에 대한 자세한 내용은 SageMaker Canvas 워크숍 페이지를 참조하세요. 이 데이터는 Kaggle 에서 얻은 LendingClub 데이터를 사용합니다.

  • canvas-sample-maintenance.csv: 이 데이터 세트에는 지정된 유지 관리 실패 유형과 연결된 특성에 대한 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 미래에 어떤 장애가 발생할지 예측할 수 있습니다. 실패 유형 열을 대상 열로 사용하고 이 데이터 세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터 세트로 모델을 빌드하는 방법에 대한 자세한 내용은 SageMaker Canvas 워크숍 페이지를 참조하세요. 이 데이터 세트는 UCI Machine Learning 리포지토리 에서 가져왔습니다.

  • canvas-sample-shipping-logs.csv: 이 데이터 세트에는 예상 배송 시간 우선 순위, 운송업체 및 오리진을 포함하여 배송된 모든 제품에 대한 전체 배송 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 배송 예상 도착 시간(일수)을 예측할 수 있습니다. ActualShippingDays 열을 대상 열로 사용하고 이 데이터 세트에 숫자 예측 모델 유형을 사용합니다. 이 데이터를 사용하여 모델을 빌드하는 방법에 대한 자세한 내용은 SageMaker Canvas 워크숍 페이지를 참조하세요. 이것은 Amazon에서 만든 합성 데이터 세트입니다.

  • canvas-sample-sales-forecasting.csv: 이 데이터 세트에는 소매점에 대한 과거 시계열 판매 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 특정 소매점의 매출을 예측할 수 있습니다. 판매 열을 대상 열로 사용하고 시계열 예측 모델 유형을 이 데이터 세트와 함께 사용합니다. 이 데이터 세트로 모델을 빌드하는 방법에 대한 자세한 내용은 SageMaker Canvas 워크숍 페이지를 참조하세요. 이것은 Amazon에서 만든 합성 데이터 세트입니다.