使用 Studio Classic 用户界面为表格数据创建回归或分类自动驾驶实验 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Studio Classic 用户界面为表格数据创建回归或分类自动驾驶实验

重要

自 2023 年 11 月 30 日起,作为更新后的亚马逊 SageMaker Studio 体验的一部分,Autopilot 的用户界面将迁移到亚马逊 SageMaker Canvas。 SageMaker Canvas 为分析师和公民数据科学家提供了无需代码的功能,可以完成数据准备、特征工程、算法选择、训练和调整、推理等任务。用户可以利用内置的可视化效果和假设分析来探索他们的数据和不同的场景,自动预测使他们能够轻松地生成模型。Canvas 支持各种用例,包括计算机视觉、需求预测、智能搜索和生成式 AI。

Amazon SageMaker Studio Classic(之前的 Studio 使用体验)的用户可以继续使用 Studio Classic 中的自动驾驶用户界面。具有编码经验的用户可以继续使用任何支持技术实现SDK的API参考文献

如果您之前一直在 Studio Classic 中使用 Autopilot,并且想要迁移到 SageMaker Canvas,则可能需要向您的用户个人资料或IAM角色授予其他权限,这样您才能创建和使用 SageMaker Canvas 应用程序。有关更多信息,请参阅 (可选)从 Studio 经典版中的自动驾驶仪迁移到 SageMaker Canvas

在迁移到 Amazon Canvas 之前,本指南中所有与 UI 相关的说明都与 Autopilot 的独立功能有关。 SageMaker 遵循这些说明的用户应使用 Studio Classic

您可以使用 Amazon SageMaker Studio Classic 用户界面针对表格数据的分类或回归问题创建自动驾驶实验。用户界面可帮助您指定实验名称、提供输入和输出数据的位置,以及指定要预测的目标数据。或者,您还可以指定要解决的问题类型(回归、分类、多类分类),选择建模策略(堆叠集合超参数优化),选择 Autopilot 作业用来训练数据的算法列表等等。

UI 包含描述、切换开关、下拉菜单、单选按钮等,可引导您浏览如何创建候选模型。实验运行后,您可以比较试验并深入研究每个模型的预处理步骤、算法和超参数范围的详细信息。或者,您可以下载他们的可解释性和绩效报告。使用提供的笔记本查看自动数据探索的结果或候选模型定义。

或者,你可以在 Autopilot 中使用 AutoPilot aut API om 使用 AutoML 为表格数据创建回归或分类作业 API l。

使用 Studio Classic 用户界面创建自动驾驶实验
  1. 登录 https://console.aws.amazon.com/sagemaker/,从左侧导航窗格中选择 Studio,选择您的域和用户个人资料,然后选择 Ope n Studio

  2. 在 Studio 中,选择左上角导航窗格中的 Studio Classic 图标。这将打开 Studio 经典版应用程序。

  3. 从你选择的空间或创建 Studio Classic 空间中运行或打开 Studio Classic 应用程序。 。在主页选项卡上,选择 AutoML 卡片。这将打开新的 AutoML 选项卡。

  4. 选择创建 AutoML 实验。这将打开新的创建实验选项卡。

  5. 实验和数据详细信息部分中,输入以下信息:

    1. 实验名称-当前账户必须是唯一的, AWS 区域 并且最多包含 63 个字母数字字符。可以包括连字符 (-),但不能包括空格。

    2. 输入数据 – 提供存储输入数据的 Amazon Simple Storage Service (Amazon S3) 存储桶的位置。此 S3 存储桶必须位于您当前的 AWS 区域中。URL必须采用 Amazon SageMaker 具有写入权限的s3://格式。该文件必须为CSV或 Parquet 格式,并且至少包含 500 行。选择浏览可滚动浏览可用路径,选择预览可查看输入数据的样本。

    3. 您的 S3 输入是清单文件吗? – 清单文件包括输入数据的元数据。元数据可指定数据在 Amazon S3 中的位置。它还指定了如何格式化数据以及训练模型时要使用数据集中的哪些属性。在 Pipe 模式下流式传输已标注数据时,您可以使用清单文件作为预处理的替代方法。

    4. 自动拆分数据? – Autopilot 可以将您的数据按照 80%-20% 的比例拆分,用于训练数据和验证数据。如果您偏好自定义拆分,则可以选择指定拆分比例。要为验证使用自定义数据集,请选择提供验证集

    5. 输出数据位置(S3 存储桶)– 存储输出数据的 S3 存储桶位置的名称。此存储桶URL的必须采用亚马逊 SageMaker 拥有写入权限的 Amazon S3 格式。S3 存储桶必须在当前 AWS 区域中。Autopilot 还可以在与输入数据相同的位置为您创建此内容。

  6. 选择下一步:目标和特征目标和特征选项卡打开。

  7. 目标和特征部分中:

    • 选择要设置为模型预测目标的列。

    • 或者,您可以在样本权重部分中传递样本权重列的名称,以请求在训练和评估期间对数据集行进行加权。有关可用目标指标的更多信息,请参阅 Autopilot 加权指标

      注意

      只有组合模式支持样本加权。

    • 您还可以选择要训练的特征并更改其数据类型。以下数据类型可用:TextNumericalCategoricalDatetimeSequenceAuto。所有特征均默认选定。

  8. 选择下一步:训练方法训练方法选项卡打开。

  9. 训练方法部分,选择您的训练选项:合奏超参数优化 (HPO) 或自,让 Autopilot 根据数据集大小自动选择训练方法。每种训练模式都会在数据集中运行一组预定义的算法来训练候选模型。默认情况下,Autopilot 会预先选择给定训练模式的所有可用算法。您可以使用所有算法进行 Autopilot 训练实验,也可以自行选择算法子集。

    有关训练模式和可用算法的更多信息,请参阅训练模式和算法页面中的 Autopilot 训练模式部分。

  10. 选择下一步:部署和高级设置,打开部署和高级设置选项卡。设置中包括自动显示端点名称、机器学习问题类型以及用于运行实验的其他选项。

    1. 部署设置 – Autopilot 可以为您自动创建端点并部署模型。

      要自动部署到自动生成的端点,或者要提供端点名称以进行自定义部署,请将自动部署?下的切换开关设置为。如果您要从 Amazon Data Wrangler 导入 SageMaker 数据,则无论是否使用 Data Wrangler 的转换,您都有其他选项可以自动部署最佳模型。

      注意

      如果您的 Data Wrangler 流程包含多行操作(例如 groupbyjoinconcatenate),则无法在使用这些转换时进行自动部署。有关更多信息,请参阅根据您的数据流自动训练模型

    2. 高级设置(可选) – Autopilot 提供了额外的控件来手动设置实验参数,例如定义问题类型、Autopilot 作业和试验时间限制、安全以及加密设置。

      注意

      Autopilot 支持设置默认值,以简化使用 Studio Classic 用户界面对自动驾驶实验的配置。管理员可以使用 Studio Classic 生命周期配置 (LCC) 在配置文件中设置基础架构、网络和安全值,并预先填充作业的AutoML高级设置

      要了解管理员如何自动对 Autopilot 实验进行自定义,请参阅配置 Autopilot 实验的默认参数(面向管理员)

      1. 机器学习问题类型 – Autopilot 可以从您的数据集中自动推断有监督学习问题的类型。如果您偏好手动选择,则可以使用选择机器学习问题类型下拉菜单。请注意,该项默认为自动。在某些情况下 SageMaker ,无法准确推断。出现这种情况时,您必须为作业提供值以使其成功。具体而言,您可以从以下类型中选择:

        • 二元分类 – 二元分类根据输入数据的属性,将输入数据分配到两个预定义的互斥类别之一,例如基于诊断测试结果的医学诊断,确定某人是否患有疾病。

        • 回归 – 回归在输入变量(也称为自变量或特征)与目标变量(也称为因变量)之间建立关系。这种关系是通过将输入变量映射到连续输出的数学函数或模型来捕获的。它通常适用的任务类型包括根据房间面积和浴室数量等特征预测房价,预测股票市场趋势或估算销售数字等。

        • 多元分类 – 多元分类根据输入数据的属性,将输入数据分配到几个类别之一,例如按照政治、金融或哲学等类别,预测与文本文档最相关的话题。

      2. 运行时间 – 您可以定义最大时间限制。达到时间限制后,超过时间限制的试验和作业将自动停止。

      3. 访问权限 — 您可以选择由 Amazon SageMaker Studio Classic 担任的角色来代表您获得临时访问权限 AWS 服务 (特别是 Amazon S3)。 SageMaker 如果没有明确定义角色,Studio Classic 会自动使用附加到您的用户配置文件中的默认 SageMaker 执行角色。

      4. 加密 — 为了增强静态数据的安全性并保护其免受未经授权的访问,您可以指定加密密钥来加密您的 Amazon S3 存储桶和 Studio Classic 域所连接的 Amazon Elastic Block Store (AmazonEBS) 卷中的数据。

      5. 安全 — 您可以选择运行 SageMaker 任务的虚拟私有云 (AmazonVPC)。确保亚马逊VPC可以访问您的输入和输出 Amazon S3 存储桶。

      6. 项目 — 指定要与此自动驾驶实验和模型输出关联的 SageMaker 项目名称。当您指定项目时,Autopilot 会将该项目标记为实验。这可以让您知道哪些模型输出与此项目相关联。

      7. 标签 – 标签是键/值对数组。使用标签对您的资源进行分类 AWS 服务,例如其用途、所有者或环境。

    3. 选择下一步:查看并创建,以便在创建 Autopilot 实验之前查看其摘要。

  11. 选择创建实验。创建实验将在中 SageMaker启动自动驾驶作业。Autopilot 提供实验状态、笔记本中数据探索过程和候选模型的相关信息、生成的模型及其报告的列表以及用于创建这些模型的作业配置文件。

    有关 Autopilot 作业生成的笔记本的信息,请参阅为管理 AutoML 任务而生成的自动驾驶笔记本。有关每个候选模型及其报告的详细信息,请参阅 与 Can SageMaker vas 用户共享自动驾驶模型

注意

为避免产生不必要的费用:如果您部署的模型不再需要,请删除该部署期间创建的端点和资源。有关按地区划分的实例定价信息,请访问 Amazon Pric SageMaker ing