步骤 2:创建训练数据源 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

步骤 2:创建训练数据源

在将 banking.csv 数据集上传到 Amazon Simple Storage Service (Amazon S3) 位置之后,您可以用它来创建训练数据源。数据源是 Amazon Machine Learning (Amazon ML) 对象,包含输入数据的位置以及有关输入数据的重要元数据。Amazon ML 将数据源用于 ML 模型训练和评估等操作。

要创建数据源,请提供以下信息:

  • 您数据的 Amazon S3 位置以及数据访问权限

  • 架构,其中包含数据中各属性的名称及其类型(数值、文本、分类或二进制)

  • 属性的名称,该属性包含您希望 Amazon ML 学习进行预测的答案,即目标属性

注意

数据源并不实际存储您的数据,只是引用它。避免移动或更改在 Amazon S3 中存储的文件。否则,Amazon ML 无法访问它们来创建 ML 模型、生成评估或生成预测。

创建训练数据源
  1. 打开 Amazon Machine Learning 控制台,网址为 https://console.aws.amazon.com/machinelearning/

  2. 选择开始使用

    注意

    本教程假定您是首次使用 Amazon ML。如果您以前使用过 Amazon ML,则可以使用 Amazon ML 控制面板上的新建...下拉列表来创建新的数据源。

  3. Amazon Machine Learning 入门页面上,选择启动

    Amazon Machine Learning interface with "Launch" button highlighted for standard setup.
  4. 输入数据页面上,对于您的数据位于何处?,确保选择了 S3

    Radio button selection between S3 and Redshift options, with S3 selected.
  5. 对于S3 位置,键入来自“步骤 1:准备数据”中的 banking.csv 文件的完整位置。例如:your-bucket/banking.csv。Amazon ML 会为您添加 s3:// 到存储桶名称前。

  6. 数据源名称 键入 Banking Data 1

    S3 location input field and Datasource name field for entering banking data information.
  7. 选择验证

  8. S3 权限对话框中,选择

    Dialog box asking to grant Amazon Machine Learning read permission for S3 location.
  9. 如果 Amazon ML 可以访问和读取 S3 位置中的数据文件,您将看到类似以下内容的页面。检查属性,然后选择继续

    Validation success message with datasource details including name, location, and file information.

接下来,建立架构。架构是 Amazon ML 解释 ML 模型的输入数据时需要的信息,包括属性名、为属性分配的数据类型以及特殊属性的名称。有两种方法可以向 Amazon ML 提供架构:

  • 在上传您的 Amazon S3 数据时提供单独的架构文件。

  • 允许 Amazon ML 推断属性类型并为您创建架构。

在本教程中,我们将要求 Amazon ML 推断架构。

有关创建单独架构文件的信息,请参阅为 Amazon ML 创建数据架构

允许 Amazon ML 推断架构
  1. 架构页面上,Amazon ML 显示所推断的架构。检查 Amazon ML 为属性推断的数据类型。非常重要的一点是,向属性分配了正确的数据类型,以帮助 Amazon ML 正确提取数据并对属性实现正确的特征处理。

    • 只能有两种可能状态(例如 yes 或 no)的属性应标记为二进制

    • 用于表示类别的数字或字符串属性应标记为 Categorical

    • 对于数值数量的属性,如果其顺序有意义,则应标记为 Numeric

    • 对于字符串属性,如果您希望将其视为空格分隔单词的字符串,则应标记为 Text

    Data table showing fields like age, campaign, and contact with their data types and sample values.
  2. 在本教程中,Amazon ML 能正确识别所有属性的数据类型,因此选择继续

接下来,选择目标属性。

请记住,目标是 ML 模型必须学习预测的属性。属性 y 指示某个人过去是否订阅了营销活动:1(是)或 0(否)。

注意

仅当您使用数据源来训练和评估 ML 模型时,才选择目标属性。

选择 y 作为目标属性
  1. 在表的右下角中,选择单箭头以继续到表的下一页,其中显示了名为 y 的属性。

    Navigation buttons for a paginated table, with the last page arrow highlighted.
  2. 目标列中,选择 y

    Checkbox in Target column next to variable 'y' with Binary data type.

    Amazon ML 确认已选择 y 作为目标。

  3. 选择继续

  4. 行 ID 页面上,对您的数据是否包含标识符?,确保已选择默认设置

  5. 选择审核,然后选择继续

现在您有一个训练数据源,您已准备好创建模型