画布中的示例数据集 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

画布中的示例数据集

SageMaker Canvas 提供了解决独特用例的示例数据集,因此您无需编写任何代码即可快速开始构建、训练和验证模型。与这些数据集相关的用例突出显示了 SageMaker Canvas 的功能,您可以利用这些数据集开始构建模型。您可以在 C SageMaker anvas 应用程序的数据集页面中找到示例数据集。

以下数据集是 SageMaker Canvas 默认提供的示例。这些数据集涵盖的使用案例包括:预测房价、贷款违约和糖尿病患者再入院;预测销售额;预测机器故障以简化制造单位的预测性维护;以及为运输和物流生成供应链预测。数据集存储在为您在某个区域的账户 SageMaker 创建的默认 Amazon S3 存储桶中的sample_dataset文件夹中。

  • canvas-sample-diabetic-readmission.csv:此数据集包含历史数据,包括超过十五个包含患者和医院结果的特征。您可以使用此数据集来预测高危糖尿病患者是否有可能在出院后 30 天内、30 天后再次入院,或者根本不可能再次入院。使用 redadmitted 列作为目标列,并对此数据集使用 3+ 类别预测模型类型。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。该数据集是从 Machine Learn UCIing 存储库中获得的。

  • canvas-sample-housing.csv:此数据集包含与给定房价相关的特征数据。您可以使用此数据集来预测房价。使用 median_house_value 列作为目标列,并在此数据集中使用数值预测模型类型。要了解有关使用此数据集构建模型的更多信息,请参阅 SageMaker Canvas 研讨会页面。这是从StatLib 存储库中获得的加州住房数据集。

  • canvas-sample-loans.csv:此数据集包含 2007-2011 年期间发放的所有贷款的完整贷款数据,包括当前的贷款状态和最新的付款信息。您可以使用此数据集来预测客户是否会偿还贷款。使用 loan_status 列作为目标列,并对此数据集使用 3+ 类别预测模型类型。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。这些数据使用从 Kaggle 获得 LendingClub 的数据。

  • canvas-sample-maintenance.csv:此数据集包含与给定维护失败类型相关的特征的数据。您可以使用此数据集来预测将来会发生哪些故障。使用 Failure Type 列作为目标列,并对此数据集使用 3+ 类别预测模型类型。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。该数据集是从 Machine Learn UCIing 存储库中获得的。

  • canvas-sample-shipping-logs.csv:此数据集包含所有已交付产品的完整配送数据,包括预计配送优先顺序、承运人和起运地。您可以使用此数据集来预测货物的预计到达时间(以天数为单位)。使用该ActualShippingDays列作为目标列,并使用该数据集的数值预测模型类型。要详细了解如何使用这些数据构建模型,请参阅 SageMaker Canvas 研讨会页面。这是 Amazon 创建的合成数据集。

  • canvas-sample-sales-forecasting.csv:此数据集包含零售商店的历史时间序列销售数据。您可以使用此数据集来预测特定零售商店的销售额。使用销售列作为目标列,并将时间序列预测模型类型用于此数据集。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。这是 Amazon 创建的合成数据集。