本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker 自动驾驶
重要
自 2023 年 11 月 30 日起,作为更新后的亚马逊 SageMaker Studio 体验的一部分,Autopilot 的用户界面将迁移到亚马逊 SageMaker Canvas。 SageMaker Canvas 为分析师和公民数据科学家提供了无需代码的功能,可以完成数据准备、特征工程、算法选择、训练和调整、推理等任务。用户可以利用内置的可视化和假设分析功能来探索数据和不同场景,并通过自动预测功能轻松生成模型。Canvas 支持各种使用场景,包括计算机视觉、需求预测、智能搜索和生成式人工智能。
Amazon SageMaker Studio Classic(之前的 Studio 使用体验)的用户可以继续使用 Studio Classic 中的自动驾驶用户界面。有编码经验的用户可以继续使用任何支持的 SDK 中的所有 API 参考进行技术实施。
如果您之前一直在 Studio Classic 中使用 Autopilot 并想迁移到 SageMaker Canvas,则可能需要向您的用户个人资料或 IAM 角色授予额外权限,这样您才能创建和使用 SageMaker Canvas 应用程序。有关更多信息,请参阅 (可选)从 Studio 经典版中的自动驾驶仪迁移到 SageMaker Canvas。
在迁移到 Amazon Canvas 之前,本指南中所有与 UI 相关的说明都与 Autopilot 的独立功能有关。 SageMaker 按照这些说明操作的用户应使用 Studio Classic。
Amazon A SageMaker utopilot 是一款功能集,它通过自动化构建和部署机器学习模型 (AutoML) 的过程,来简化和加速机器学习工作流程的各个阶段。以下页面解释了有关 Amazon A SageMaker utopilot 的关键信息。
Autopilot 执行以下关键任务,您可以像自动驾驶那样使用它,也可以在不同程度的人工指导下使用这些任务:
-
数据分析和预处理:Autopilot 可识别您的特定问题类型,处理缺失值,对数据进行标准化,选择特征,全面准备数据用于模型训练。
-
模型选择:Autopilot 探索了各种算法,并使用交叉验证重采样技术生成指标,以根据预定义的目标指标来评估算法的预测质量。
-
超参数优化:Autopilot 可自动搜索最佳超参数配置。
-
模型训练和评估:Autopilot 可自动执行对各种候选模型的训练和评估过程。它将数据拆分为训练集和验证集,使用训练数据对选定的候选模型进行训练,并根据验证集中未用于训练的数据来评估其性能。最后,它根据模型的性能对优化候选模型进行排名,并确定性能最佳的模型。
-
模型部署:Autopilot 确定了性能最佳的模型之后,它就会提供选项,通过生成模型构件和公开 API 的端点来自动部署模型。外部应用程序可以将数据发送到端点并接收相应的预测或推理。
Autopilot 支持在多达数百个的大型数据集上构建机器学习模型。 GBs
下图概述了由 Autopilot 管理的 AutoML 流程的任务。

根据您对机器学习过程和编码体验的接受程度,您可以通过不同的方式使用 Autopilot:
-
使用 Studio Classic 用户界面,用户可以选择无代码体验或一定程度的人工输入。
注意
只有根据表格数据创建的回归或分类等问题类型的实验才能通过 Studio Classic 用户界面使用。
-
使用 AutoML API,具有编码经验的用户可以使用可用 SDKs 来创建 AutoML 作业。这种方法提供了更大的灵活性和自定义选项,适用于所有问题类型。
Autopilot 目前支持以下问题类型:
注意
对于涉及表格数据的回归或分类问题,用户可以在两个选项之间进行选择:使用 Studio Classic 用户界面或 API 参考。
文本和映像分类、时间序列预测和大型语言模型微调等任务都可以通过 AutoML REST API 的第 2 版独家实现。如果您选择的语言是 Python,则可以直接引用 Amazon SageMaker Python 软件开发工具包的 A uto MLV2 对象
喜欢用户界面便利性的用户可以使用 Amazon SageMaker Canv as 访问预训练模型和生成式 AI 基础模型,或者创建针对特定文本、图像分类、预测需求或生成式 AI 量身定制的自定义模型。
-
回归、二元分类和多元分类,使用 CSV 或 Parquet 文件格式的表格数据,其中每列包含具有特定数据类型的特征,每行包含一个观察数据。接受的列数据类型包括由数字、分类、文本和由逗号分隔数字字符串组成时间序列。
-
要使用 SageMaker API 参考创建自动驾驶任务作为试点实验,请参阅使用 AutoML API 为表格数据创建回归或分类作业。
-
要使用 Studio Classic 用户界面创建 Autopilot 作业作为试点实验,请参阅 使用 Studio Classic 用户界面为表格数据创建回归或分类 Autopilot 实验。
-
如果您是管理员,希望在 Studio Classic 用户界面中预先配置 Autopilot 实验的默认基础设施、联网或安全参数,请参阅配置 Autopilot 实验的默认参数(面向管理员)。
-
-
文本分类,使用 CSV 或 Parquet 文件格式的数据,其中一列提供要分类的句子,而另一列应提供相应的类标签。请参阅 使用 API 创建文本分类 AutoML 作业。
-
映像分类,映像格式包括 PNG、JPEG 或两者的组合。请参阅 使用 AutoML API 创建映像分类作业。
-
时间序列预测,使用 CSV 或 Parquet 文件格式的时间序列数据。请参阅 使用 API 创建用于时间序列预测的 AutoML 作业。
-
微调大型语言模型 (LLMs),以便使用格式为 CSV 或 Parquet 文件创建 AutoML 作业,使用 API 微调文本生成模型格式的数据生成文本。请参阅。
此外,Autopilot 可自动生成显示每个特征重要性的报告,帮助用户了解模型如何进行预测。这有助于透明地了解影响预测的因素,可供风险与合规团队和外部监管机构使用。Autopilot 还提供模型性能报告,其中包括评估指标摘要、混淆矩阵、各种可视化内容,例如接收者操作特征曲线和查准率-查全率曲线等。每份报告的具体内容因 Autopilot 实验的问题类型而异。
Autopilot 实验中最佳候选模型的可解释性和性能报告可用于文本、映像和表格数据分类问题类型。
对于回归或分类之类的表格数据使用场景,Autopilot 生成笔记本,其中包含用于探索数据和寻找性能最佳模型的代码,以帮助进一步了解数据的处理方式以及如何选择、训练和调整候选模型。这些笔记本提供了一个交互式的探索性环境,可帮助您了解实验中各种输入的影响或权衡取舍。通过对 Autopilot 提供的数据探索和候选项定义笔记本进行自己的修改,您可以进一步实验更高性能的候选模型。
使用 Amazon SageMaker AI,您只需为实际用量付费。您需要根据自己的使用情况为 SageMaker AI 或其他 AWS 服务中的底层计算和存储资源付费。有关使用 SageMaker AI 的费用的更多信息,请参阅 A mazon A SageMaker I 定价