创建 ML 模型 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

创建 ML 模型

创建数据源之后,您就可以创建 ML 模型。如果您使用 Amazon Machine Learning 控制台创建模型,则可选择使用默认设置或者通过应用自定义选项自定义您的模型。

自定义选项包括:

  • 评估设置:您可以选择让 Amazon ML 预留部分输入数据来评估 ML 模型的预测质量。有关评估的信息,请参阅评估 ML 模型

  • 配方:配方会告诉 Amazon ML 哪些属性和属性转换可用于模型训练。有关 Amazon ML 配方的信息,请参阅使用数据配方进行功能转换

  • 训练参数:参数用于控制训练流程和生成的 ML 模型的特定属性。有关训练参数的更多信息,请参阅训练参数

要选择这些设置或为其指定值,请在使用“创建 ML 模型”向导时选择自定义选项。如果您希望 Amazon ML 应用默认设置,请选择默认

在您创建 ML 模型时,Amazon ML 会根据目标属性的属性类型来选择将使用的学习算法类型。(目标属性是包含“正确”答案的属性。) 如果您的目标属性是“二进制”,Amazon ML 会创建一个使用逻辑回归算法的二进制分类模型。如果您的目标属性是“分类”,Amazon ML 会创建一个使用多项逻辑回归算法的多类别模型。如果您的目标属性是“数字”,Amazon ML 会创建一个使用线性回归算法的回归模型。

先决条件

使用 Amazon ML 控制台创建 ML 模型之前,您需要创建两个数据源,一个用于训练模型,另一个用于评估模型。如果您尚未创建这两个数据源,请参阅教程中的步骤 2:创建训练数据源

使用默认选项创建 ML 模型

如果您希望 Amazon ML 应用默认设置,请选择默认选项:

  • 将输入数据拆分为使用第一个 70% 的数据进行训练,使用其余 30% 的数据进行评估

  • 根据在训练数据源(占 70% 的输入数据源)上收集的统计信息建议配方

  • 选择默认训练参数

选择默认选项
  1. 在 Amazon ML 控制台中,选择 Amazon Machine Learning,然后选择机器学习模型

  2. ML 模型摘要页面上选择创建新 ML 模型

  3. 输入数据页面上,确保已选择我已创建指向 S3 数据的数据源

  4. 在表中选择您的数据源,然后选择继续

  5. ML 模型设置页面上,为ML 模型名称键入您的 ML 模型名称。

  6. 对于训练和评估设置,请确保选择默认

  7. 对于 Name this evaluation,请键入评估名称,然后选择查看。Amazon ML 会跳过向导的其余步骤,转到查看页面。

  8. 检查您的数据,删除从不希望应用到模型和评估中的数据源复制的任何标签,然后选择完成

使用自定义选项创建 ML 模型

通过自定义您的 ML 模型,您可以:

  • 提供您自己的配方。有关如何提供您自己的配方的信息,请参阅配方格式参考

  • 选择训练参数。有关训练参数的更多信息,请参阅训练参数

  • 选择除 70/30 的默认比率之外的训练/评估拆分比率或提供另一个您已准备好进行评估的数据源。有关拆分策略的信息,请参阅拆分数据

您还可以选择其中任何设置的默认值。

如果您已经使用默认选项创建了模型并且希望改进模型的预测性能,请使用自定义选项创建包含一些自定义设置的新模型。例如,您可以将更多特征转换添加到配方中或增加训练参数的通过次数。

使用自定义选项创建模型
  1. 在 Amazon ML 控制台中,选择 Amazon Machine Learning,然后选择机器学习模型

  2. ML 模型摘要页面上选择创建新 ML 模型

  3. 如果您已经创建了数据源,请在输入数据页面上,选择我已创建指向我的 S3 数据的数据源。在表中选择您的数据源,然后选择继续

    如果您需要创建数据源,请选择我的数据在 S3 中,并且我需要创建数据源,然后选择继续。您将重定向到创建数据源向导。指定您的数据在 S3 还是 Redshift 中,然后选择验证。完成创建数据源的过程。

    创建了数据源之后,系统会将您重定向到创建 ML 模型向导的下一个步骤。

  4. ML 模型设置页面上,为ML 模型名称键入您的 ML 模型名称。

  5. 选择训练和评估设置中,选择自定义,然后选择继续

  6. 配方页面上,您可以 customize a recipe。如果您不想自定义配方,Amazon ML 会为您建议一个配方。选择继续

  7. 高级设置页面上,指定最大 ML 模型大小传递的最大数据量将训练数据的类型随机排序正则化类型正则化数量。如果您未指定这些参数,Amazon ML 会使用默认的训练参数。

    有关这些参数及其默认值的更多信息,请参阅训练参数

    选择继续

  8. 评估页面上,指定是否要立即评估 ML 模型。如果您不想立即评估 ML 模型,请选择审核

    如果您希望立即评估 ML 模型:

    1. 对于为此评估命名,键入评估的名称。

    2. 对于选择评估数据,选择您是否希望 Amazon ML 预留一部分输入数据进行评估,如果是,选择您希望如何拆分数据源,如果不是,请提供其他数据源进行评估。

    3. 选择审核

  9. 审核页面上,编辑您的选择,删除从不希望应用到模型和评估中的数据源复制的任何标签,然后选择完成

创建了模型之后,请参阅步骤 4:查看 ML 模型的预测性能和设置分数阈值