View a markdown version of this page

步骤 2:创建训练数据源 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 2:创建训练数据源

在将 banking.csv 数据集上传到 Amazon Simple Storage Service (Amazon S3) 位置之后,您可以用它来创建训练数据源。数据源是 Amazon Machine Learning (Amazon ML) 对象,包含输入数据的位置以及有关输入数据的重要元数据。Amazon ML 将数据源用于 ML 模型训练和评估等操作。

要创建数据源,请提供以下信息:

  • 您数据的 Amazon S3 位置以及数据访问权限

  • 架构,其中包含数据中各属性的名称及其类型(数值、文本、分类或二进制)

  • 属性的名称,该属性包含您希望 Amazon ML 学习进行预测的答案,即目标属性

注意

数据源并不实际存储您的数据,只是引用它。避免移动或更改在 Amazon S3 中存储的文件。否则,Amazon ML 无法访问它们来创建 ML 模型、生成评估或生成预测。

创建训练数据源
  1. 打开 Amazon Machine Learning 控制台,网址为https://console.aws.amazon.com/machinelearning/

  2. 选择开始

    注意

    本教程假定您是首次使用 Amazon ML。如果您以前使用过 Amazon ML,则可以使用 Amazon ML 控制面板上的新建...下拉列表来创建新的数据源。

  3. Amazon Machine Learning 入门页面上,选择启动

  4. 输入数据页面上,对于您的数据位于何处?,确保选择了 S3

  5. 对于S3 位置,键入来自“步骤 1:准备数据”中的 banking.csv 文件的完整位置。例如:your-bucket/banking.csv。Amazon ML 会为您添加 s3:// 到存储桶名称前。

  6. 数据源名称 键入 Banking Data 1

  7. 选择验证

  8. S3 权限对话框中,选择

  9. 如果 Amazon ML 可以访问和读取 S3 位置中的数据文件,您将看到类似以下内容的页面。检查属性,然后选择继续

接下来,建立架构。架构是 Amazon ML 解释 ML 模型的输入数据时需要的信息,包括属性名、为属性分配的数据类型以及特殊属性的名称。有两种方法可以向 Amazon ML 提供架构:

  • 在上传您的 Amazon S3 数据时提供单独的架构文件。

  • 允许 Amazon ML 推断属性类型并为您创建架构。

在本教程中,我们将要求 Amazon ML 推断架构。

有关创建单独架构文件的信息,请参阅为 Amazon ML 创建数据架构

允许 Amazon ML 推断架构
  1. 架构页面上,Amazon ML 显示所推断的架构。检查 Amazon ML 为属性推断的数据类型。非常重要的一点是,向属性分配了正确的数据类型,以帮助 Amazon ML 正确提取数据并对属性实现正确的特征处理。

    • 只能有两种可能状态(例如 yes 或 no)的属性应标记为二进制

    • 用于表示类别的数字或字符串属性应标记为 Categorical

    • 对于数值数量的属性,如果其顺序有意义,则应标记为 Numeric

    • 对于字符串属性,如果您希望将其视为空格分隔单词的字符串,则应标记为 Text

  2. 在本教程中,Amazon ML 能正确识别所有属性的数据类型,因此选择继续

接下来,选择目标属性。

请记住,目标是 ML 模型必须学习预测的属性。属性 y 指示某个人过去是否订阅了营销活动:1(是)或 0(否)。

注意

仅当您使用数据源来训练和评估 ML 模型时,才选择目标属性。

选择 y 作为目标属性
  1. 在表的右下角中,选择单箭头以继续到表的下一页,其中显示了名为 y 的属性。

  2. 目标列中,选择 y

    Amazon ML 确认已选择 y 作为目标。

  3. 选择继续

  4. 行 ID 页面上,对您的数据是否包含标识符?,确保已选择默认设置

  5. 选择审核,然后选择继续

现在您有一个训练数据源,您已准备好创建模型