本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
构建模型
以下几节介绍如何为每种主要类型的自定义模型构建模型。
-
要构建数值预测、2 类别预测或 3+ 类别预测模型,请参阅构建自定义的数值或分类预测模型。
-
要构建单标签图像预测模型,请参阅构建自定义图像预测模型。
-
要构建多元文本预测模型,请参阅构建自定义文本预测模型。
-
要构建时间序列预测模型,请参阅构建时间序列预测模型。
注意
如果您在构建后分析期间遇到错误,提示您增加 ml.m5.2xlarge
实例限额,请参阅申请增加限额。
构建自定义的数值或分类预测模型
数值和分类预测模型同时支持快速构建和标准构建。
要构建数值或分类预测模型,请按以下步骤操作:
-
打开 SageMaker 画布应用程序。
-
在左侧导航窗格中,选择我的模型。
-
选择新建模型。
-
在创建新模型对话框中,执行以下操作:
-
在模型名称字段中输入名称。
-
选择预测分析问题类型。
-
选择创建。
-
-
对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。
-
如果您已准备好开始构建模型,请选定选择数据集。
-
在构建选项卡的目标列下拉列表中,为模型选择要预测的目标。
-
对于模型类型,Canvas 会自动为您检测问题类型。如果要更改类型或配置高级模型设置,请选择配置模型。
配置模型对话框打开后,执行以下操作:
对于模型类型,选择要构建的模型类型。
-
选择模型类型后,还有其他高级设置。有关每项高级设置的更多信息,请参阅高级模型构建配置。要配置高级设置,请执行以下操作:
(可选)在目标指标下拉菜单中,选择您希望 Canvas 在构建模型时优化的指标。如果您没有选择指标,Canvas 会默认为您选择一个指标。有关可用指标的描述,请参阅指标参考。
对于训练方法,选择自动、合奏或超参数优化 (HPO) 模式。
在 “算法” 中,选择要包含的用于构建候选模型的算法。
对于数据拆分,请按百分比指定在训练集和验证集之间如何拆分数据。训练集用于构建模型,而验证集用于测试模型候选模型的准确性。
-
对于 Max 候选值和运行时间,请执行以下操作:
设置 Canv as 可以生成的最大候选模型值或 Canvas 可以生成的最大候选模型数量。请注意,最大候选值仅在HPO模式下可用。
为最大作业运行时间设置小时和分钟值,或者 Canvas 可以花在构建模型上花费的最大时间。在最长时间之后,Canvas 停止构建并选择最佳候选模型。
配置高级设置后,选择保存。
-
选择或取消选择数据中的列,以便在构建时包含或删除这些列。
注意
如果您在构建模型后使用模型进行批量预测,Canvas 会将删除的列添加到您的预测结果中。但是,Canvas 不会将删除的列添加到时间序列模型的批量预测中。
-
(可选)使用 Canvas 提供的可视化和分析工具将数据可视化,并确定您可能希望在模型中包含哪些特征。有关更多信息,请参阅探索和分析数据。
-
(可选)使用数据转换功能来清理、转换和准备用于构建模型的数据。有关更多信息,请参阅使用高级转换准备数据。您可以通过选择模型配方打开模型配方侧面板来查看和移除转换。
-
(可选)有关其他功能,如预览模型的准确性、验证数据集以及更改 Canvas 从数据集中抽取的随机样本的大小,请参阅预览模型。
-
查看数据并对数据集进行任何更改后,选择快速构建或标准构建,开始构建模型。以下屏幕截图显示了构建页面以及快速构建和标准构建选项。
模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。
构建自定义图像预测模型
单标签图像预测模型同时支持快速构建和标准构建。
要构建单标签图像预测模型,请按以下步骤操作:
-
打开 SageMaker 画布应用程序。
-
在左侧导航窗格中,选择我的模型。
-
选择新建模型。
-
在创建新模型对话框中,执行以下操作:
-
在模型名称字段中输入名称。
-
选择图像分析问题类型。
-
选择创建。
-
-
对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。
-
如果您已准备好开始构建模型,请选定选择数据集。
-
在构建选项卡上,您可以看到数据集中图像的标签分布。模型类型设置为单标签图像预测。
-
在此页面上,您可以预览图像并编辑数据集。如果您有任何未标注的图像,请选择编辑数据集和向未标注的图像分配标签。您还可以在编辑图像数据集时执行其他任务,例如重命名标签和向数据集添加图像。
-
查看数据并对数据集进行任何更改后,选择快速构建或标准构建,开始构建模型。以下屏幕截图显示了准备构建的图像预测模型的构建页面。
模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。
构建自定义文本预测模型
多元文本预测模型同时支持快速构建和标准构建。
要构建文本预测模型,请按以下步骤操作:
-
打开 SageMaker 画布应用程序。
-
在左侧导航窗格中,选择我的模型。
-
选择新建模型。
-
在创建新模型对话框中,执行以下操作:
-
在模型名称字段中输入名称。
-
选择文本分析问题类型。
-
选择创建。
-
-
对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。
-
如果您已准备好开始构建模型,请选定选择数据集。
-
在构建选项卡的目标列下拉列表中,为模型选择要预测的目标。目标列必须具有二进制或分类数据类型,并且目标列中的每个唯一标签必须至少有 25 个条目(或数据行)。
-
对于模型类型,确认模型类型自动设置为多元文本预测。
-
对于训练列,选择文本数据的源列。这应该是包含要分析的文本的列。
-
选择快速构建或标准构建,开始构建模型。以下屏幕截图显示了准备构建的文本预测模型的构建页面。
模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。
构建时间序列预测模型
时间序列预测模型同时支持快速构建和标准版本。
要构建时间序列预测模型,请按以下步骤操作:
-
打开 SageMaker 画布应用程序。
-
在左侧导航窗格中,选择我的模型。
-
选择新建模型。
-
在创建新模型对话框中,执行以下操作:
-
在模型名称字段中输入名称。
-
选择时间序列预测问题类型。
-
选择创建。
-
-
对于选择数据集,从数据集列表中选择您的数据集。如果您尚未导入数据,请选择导入以指导您完成导入数据工作流。
-
如果您已准备好开始构建模型,请选定选择数据集。
-
在构建选项卡的目标列下拉列表中,为模型选择要预测的目标。
在模型类型部分,选择配置模型。
-
将打开 “配置模型” 框。在时间序列配置部分,填写以下字段:
在项目 ID 列中,选择数据集中唯一标识每行的列。
(可选)在 “分组” 列中,选择要用于对预测值进行分组的一个或多个类别列。
对于时间戳列,选择带有时间戳的列(采用日期时间格式)。有关可接受的日期时间格式的更多信息,请参阅Amazon C SageMaker anvas 中的时间序列预测。
在 F orecast length 字段中,输入要预测值的时间段。Canvas 会自动检测数据中的时间单位。
(可选)打开 “使用假日时间表” 开关,从各个国家/地区选择假日时间表,并使用假日数据进行更准确的预测。
-
在 “配置模型” 框中,“高级” 部分还有其他设置。有关每项高级设置的更多信息,请参阅高级模型构建配置。要配置高级设置,请执行以下操作:
在目标指标下拉菜单中,选择您希望 Canvas 在构建模型时优化的指标。如果您没有选择指标,Canvas 会默认为您选择一个指标。有关可用指标的描述,请参阅指标参考。
-
如果您运行的是标准版本,则会看到 “算法” 部分。本节用于选择要用于构建模型的时间序列预测算法。您可以选择可用算法的子集,或者如果您不确定要尝试哪些算法,则可以选择所有算法。
当你运行标准版本时,Canvas 会生成一个将所有算法组合在一起的集成模型,以优化预测精度。
注意
如果你正在运行快速构建,Canvas 会使用单一的基于树的学习算法来训练你的模型,而且你不必选择任何算法。
对于 Forec ast 分位数,最多输入 5 个以逗号分隔的分位数值来指定预测的上限和下限。
配置高级设置后,选择保存。
-
选择或取消选择数据中的列,以便在构建时包含或删除这些列。
注意
如果您在构建模型后使用模型进行批量预测,Canvas 会将删除的列添加到您的预测结果中。但是,Canvas 不会将删除的列添加到时间序列模型的批量预测中。
-
(可选)使用 Canvas 提供的可视化和分析工具将数据可视化,并确定您可能希望在模型中包含哪些特征。有关更多信息,请参阅探索和分析数据。
-
(可选)使用数据转换功能来清理、转换和准备用于构建模型的数据。有关更多信息,请参阅使用高级转换准备数据。您可以通过选择模型配方打开模型配方侧面板来查看和移除转换。
-
(可选)有关其他功能,如预览模型的准确性、验证数据集以及更改 Canvas 从数据集中抽取的随机样本的大小,请参阅预览模型。
-
查看数据并对数据集进行任何更改后,选择快速构建或标准构建,开始构建模型。
模型开始构建后,您可以离开此页面。当模型在我的模型页面上显示为就绪时,即可进行分析和预测。