我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning。
创建 ML 模型
创建数据源之后,您就可以创建 ML 模型。如果您使用 Amazon Machine Learning 控制台创建模型,则可选择使用默认设置或者通过应用自定义选项自定义您的模型。
自定义选项包括:
-
评估设置:您可以选择让 Amazon ML 预留部分输入数据来评估 ML 模型的预测质量。有关评估的信息,请参阅评估 ML 模型。
-
配方:配方会告诉 Amazon ML 哪些属性和属性转换可用于模型训练。有关 Amazon ML 配方的信息,请参阅使用数据配方进行功能转换。
-
训练参数:参数用于控制训练流程和生成的 ML 模型的特定属性。有关训练参数的更多信息,请参阅训练参数。
要选择这些设置或为其指定值,请在使用“创建 ML 模型”向导时选择自定义选项。如果您希望 Amazon ML 应用默认设置,请选择默认。
在您创建 ML 模型时,Amazon ML 会根据目标属性的属性类型来选择将使用的学习算法类型。(目标属性是包含“正确”答案的属性。) 如果您的目标属性是“二进制”,Amazon ML 会创建一个使用逻辑回归算法的二进制分类模型。如果您的目标属性是“分类”,Amazon ML 会创建一个使用多项逻辑回归算法的多类别模型。如果您的目标属性是“数字”,Amazon ML 会创建一个使用线性回归算法的回归模型。
先决条件
使用 Amazon ML 控制台创建 ML 模型之前,您需要创建两个数据源,一个用于训练模型,另一个用于评估模型。如果您尚未创建这两个数据源,请参阅教程中的步骤 2:创建训练数据源。
使用默认选项创建 ML 模型
如果您希望 Amazon ML 应用默认设置,请选择默认选项:
-
将输入数据拆分为使用第一个 70% 的数据进行训练,使用其余 30% 的数据进行评估
-
根据在训练数据源(占 70% 的输入数据源)上收集的统计信息建议配方
-
选择默认训练参数
选择默认选项
-
在 Amazon ML 控制台中,选择 Amazon Machine Learning,然后选择机器学习模型。
-
在ML 模型摘要页面上选择创建新 ML 模型。
-
在输入数据页面上,确保已选择我已创建指向 S3 数据的数据源。
-
在表中选择您的数据源,然后选择继续。
-
在ML 模型设置页面上,为ML 模型名称键入您的 ML 模型名称。
-
对于训练和评估设置,请确保选择默认。
-
对于 Name this evaluation,请键入评估名称,然后选择查看。Amazon ML 会跳过向导的其余步骤,转到查看页面。
-
检查您的数据,删除从不希望应用到模型和评估中的数据源复制的任何标签,然后选择完成。
使用自定义选项创建 ML 模型
通过自定义您的 ML 模型,您可以:
您还可以选择其中任何设置的默认值。
如果您已经使用默认选项创建了模型并且希望改进模型的预测性能,请使用自定义选项创建包含一些自定义设置的新模型。例如,您可以将更多特征转换添加到配方中或增加训练参数的通过次数。
使用自定义选项创建模型
-
在 Amazon ML 控制台中,选择 Amazon Machine Learning,然后选择机器学习模型。
-
在ML 模型摘要页面上选择创建新 ML 模型。
-
如果您已经创建了数据源,请在输入数据页面上,选择我已创建指向我的 S3 数据的数据源。在表中选择您的数据源,然后选择继续。
如果您需要创建数据源,请选择我的数据在 S3 中,并且我需要创建数据源,然后选择继续。您将重定向到创建数据源向导。指定您的数据在 S3 还是 Redshift 中,然后选择验证。完成创建数据源的过程。
创建了数据源之后,系统会将您重定向到创建 ML 模型向导的下一个步骤。
-
在ML 模型设置页面上,为ML 模型名称键入您的 ML 模型名称。
-
在选择训练和评估设置中,选择自定义,然后选择继续。
-
在配方页面上,您可以 customize a recipe。如果您不想自定义配方,Amazon ML 会为您建议一个配方。选择继续。
-
在高级设置页面上,指定最大 ML 模型大小、传递的最大数据量、将训练数据的类型随机排序、正则化类型和正则化数量。如果您未指定这些参数,Amazon ML 会使用默认的训练参数。
有关这些参数及其默认值的更多信息,请参阅训练参数。
选择继续。
-
在评估页面上,指定是否要立即评估 ML 模型。如果您不想立即评估 ML 模型,请选择审核。
如果您希望立即评估 ML 模型:
-
对于为此评估命名,键入评估的名称。
-
对于选择评估数据,选择您是否希望 Amazon ML 预留一部分输入数据进行评估,如果是,选择您希望如何拆分数据源,如果不是,请提供其他数据源进行评估。
-
选择审核。
-
-
在审核页面上,编辑您的选择,删除从不希望应用到模型和评估中的数据源复制的任何标签,然后选择完成。
创建了模型之后,请参阅步骤 4:查看 ML 模型的预测性能和设置分数阈值。