本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在控制台中使用 A SageMaker mazon Feature Store
重要
允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义 IAM 策略还必须授予向这些资源添加标签的权限。之所以需要为资源添加标签的权限,是因为 Studio 和 Studio Classic 会自动为创建的任何资源添加标签。如果 IAM 策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供标记 A SageMaker I 资源的权限。
AWS 亚马逊 A SageMaker I 的托管策略授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。
您可以在控制台上使用 Amazon F SageMaker eature Store 创建、查看、更新和监控您的功能组。本指南中的监控包括查看特征组的管道执行情况和任务流水线。本指南说明了如何从管理控制台完成这些任务。
有关使用 Amazon 和的功能商店示例 SageMaker APIs 和资源 AWS SDK for Python (Boto3),请参阅亚马逊 SageMaker 精选商店资源。
从管理控制台创建特征组
创建特征组的过程分为四个步骤:
-
输入特征组信息。
-
输入特征定义。
-
输入所需的特征。
-
输入特征组标签。
考虑以下哪种方案适合您的使用情况:
-
创建在线存储和/或离线存储。有关在线存储和离线存储区别的更多信息,请参阅 Feature Store 概念。
-
使用默认密 AWS Key Management Service 钥或您自己的 KMS 密钥。默认密钥是 AWS KMS 密钥 (SSE-KMS)。您可以通过在离线商店 Amazon S3 存储桶上配置 Amazon S3 存储桶密钥的使用来降低 AWS KMS 请求成本。在为特征组使用存储桶之前,必须启用 Amazon S3 存储桶键。有关使用 Amazon S3 Bucket Keys 降低成本的更多信息,请参阅使用 Amazon S3 Bucket Keys 降低 SSE-KMS 成本。
您可以为在线和离线存储使用相同的密钥,也可以为每个存储使用唯一的密钥。有关的更多信息 AWS KMS,请参阅AWS Key Management Service。
-
如果创建离线存储:
-
决定是要创建 Amazon S3 存储桶,还是使用现有存储桶。使用现有数据集时,必须知道 Amazon S3 存储桶 URL 或 Amazon S3 存储桶名称和数据集目录名称(如适用)。
-
选择用于指定 IAM 角色的 Amazon 资源名称 (ARN)。有关如何查找角色和附加策略的更多信息,请参阅 向您的 IAM 角色添加策略。
-
决定是使用 AWS Glue (默认)还是 Apache Iceberg 表格格式。在大多数用例中,您使用 Apache Iceberg 表格格式。有关表格格式的更多信息,请参阅 将 Feature Store 与 SDK for Python (Boto3) 结合使用。
-
您可以使用管理控制台查看特征组的任务流水线。在管理控制台上使用特征存放区的说明因启用 亚马逊 SageMaker Studio 还是 亚马逊 SageMaker Studio 经典版 作为默认体验而异。
-
按照 启动亚马逊 SageMaker Studio 中的说明打开 Studio 管理控制台。
-
从左侧导航窗格中选择数据,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
选择创建特征组。
-
在特征组详细信息下,输入特征组名称。
-
(可选)输入特征组的描述。
-
在特征组存储配置下,从下拉列表中选择一个存储配置。有关存储配置的信息,请参阅 Feature Store 存储配置。
-
如果您选择启用在线存储:
-
如果只启用了在线存储,则可以从下拉列表中选择存储类型。有关在线存储存储类型的信息,请参阅 在线存储。
-
(可选)将开关切换到开启,并指定存活时间 (TTL)值和单位,从而应用存活时间 (TTL)。这将在创建特征组后 更新添加到特征组的所有记录的默认 TTL 持续时间。有关 TTL 的更多信息,请参阅 记录的生存时间 (TTL) 持续时间。
-
-
如果您选择启用离线存储:
-
在 Amazon S3 存储桶名称下,手动输入新的存储桶名称或现有存储桶 URL。
-
从表格格式下拉列表中,选择表格格式。在大多数用例中,你应该使用 Apache Iceberg 表格格式。有关表格格式的更多信息,请参阅 将 Feature Store 与 SDK for Python (Boto3) 结合使用。
-
在 IAM 角色 ARN 下,选择要附加到此特征组的 IAM 角色 ARN。有关如何查找角色和附加策略的更多信息,请参阅 向您的 IAM 角色添加策略。
-
如果您已选择启用脱机存储表格式和 AWS Glue (默认)表格格式,则可以在数据目录下选择以下两个选项之一:
-
AWS Glue Data Catalog使用默认值。
-
提供现有数据目录名称、表名称和数据库名称,以扩展现有 AWS Glue Data Catalog。
-
-
-
在在线存储加密密钥或离线存储加密密钥下拉列表中,选择以下选项之一:
-
使用 AWS 托管 AWS KMS key (默认)
-
输入 AWS KMS key ARN 并在离线商店加密密钥 AWS KMS ARN 下输入您的密钥 ARN。有关的更多信息 AWS KMS,请参阅AWS 密钥管理服务。
-
-
如果适用,您可以选择吞吐量模式,这将影响您的收费方式。在吞吐量模式下,从下拉列表中选择一种模式,并输入可用的读写能力。有关吞吐量模式的信息,如何时可使用该模式以及容量单位,请参阅 吞吐量模式。
-
指定所有必要信息后,继续按钮就会出现。选择继续。
-
在指定特征定义下,有两个选项可以为特征提供架构,一个是 JSON 编辑器,另一个是表格编辑器。
-
JSON 编辑器:在 JSON 标签中,输入或复制并粘贴 JSON 格式的功能定义。
-
表格编辑器:在表格选项卡中,为特征组中的每个功能输入功能名称并选择相应的数据类型。选择 + 添加特征定义可以包含更多特征。请注意,您不能从特征组中删除功能定义。不过,您可以在创建特征组后添加和更新功能定义。
一个特征组中必须至少有两个代表记录标识符和事件时间的功能:
-
记录功能类型可以是字符串、得分或积分。
-
事件时间功能类型必须是字符串或小数。但是,如果你选择了 Iceberg 表格格式,事件时间必须是字符串。
-
-
包含所有功能后,选择继续。
-
在选择所需功能下,必须指定记录标识符和事件时间功能。请分别在记录标识符功能名称和事件时间功能名称下拉列表中选择功能名称。
-
选择记录标识符和事件时间功能后,选择继续。
-
(可选)要为特征组添加标签,请选择添加新标记。然后分别在键和值下输入标签键和相应的值。
-
选择继续。
-
在查看特征组下,查看特征组信息。要编辑任何步骤,请选择该步骤对应的编辑按钮。这会跳转到相应的编辑步骤。要返回步骤 5,请选择继续,直到返回步骤 5。
-
完成特征组设置后,选择创建特征组。
如果在设置过程中出现问题,页面底部会弹出提示信息,提供解决问题的建议。您可以在有冲突的步骤中选择编辑,返回之前的步骤来解决问题。
成功创建特征组后,页面底部会弹出一条绿色信息。新特征组也会出现在特征组目录中。
从管理控制台查看特征组详情
在特征存放区成功创建特征组后,您可以查看特征组的详细信息。
您可以使用控制台或 Amazon Feat SageMaker ure Store API 来查看您的功能组详情。通过管理控制台使用特征存放区的说明取决于您是否已启用 亚马逊 SageMaker Studio 或 亚马逊 SageMaker Studio 经典版 作为默认体验。
-
按照 启动亚马逊 SageMaker Studio 中的说明打开 Studio 管理控制台。
-
在左侧导航窗格中选择数据,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看特征组,请选择我的账户。要查看共享特征组,请选择跨账户。
-
在特征组目录选项卡下,从列表中选择您的特征组名称。此时会打开特征组页面。
-
在特征选项卡上,您可以找到一个包含所有特征的列表。使用筛选条件来优化您的列表。选择一个特征以查看其详细信息。
-
在详情标签和信息子标签下,您可以查看特征组信息。这包括最新执行、离线存储设置、在线存储设置等。
-
在详情标签和标签子标签下,您可以查看特征组标签。选择添加新标签以添加新标签,或选择删除以删除标签。
-
在管道执行标签下,可以查看特征组的相关管道或管道执行。
-
在任务流水线选项卡下,可以查看特征组的任务流水线。
从管理控制台更新特征组
在特征存放区成功创建特征组后,您可以更新特征组。
您可以使用控制台或 Amazon Feat SageMaker ure Store API 来更新功能组。通过管理控制台使用特征存放区的说明取决于您是否已启用 亚马逊 SageMaker Studio 或 亚马逊 SageMaker Studio 经典版 作为默认体验。
-
按照 启动亚马逊 SageMaker Studio 中的说明打开 Studio 管理控制台。
-
在左侧导航窗格中选择数据,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看特征组,请选择我的账户。要查看共享特征组,请选择跨账户。
-
在特征组目录选项卡下,从列表中搜索并选择您的特征组名称。此时会打开特征组页面。
-
选择更新特征组。
-
(可选)如果适用,您可以更改吞吐量模式,这将影响您的收费方式。在吞吐量模式下,从下拉列表中选择一种模式,并输入可用的读写能力。有关吞吐量模式的信息,如何时可使用该模式以及容量单位,请参阅 吞吐量模式。
-
(可选)如果您的特征组使用在线存储,您可以更新默认的生存时间 (TTL)。如果尚未为该特征组启用 TTL,请将生存时间 (TTL) 下的开关按钮切换为开。您可以在生存时间持续时间下指定 TTL 值和单位。这将在特征组更新后 更新添加到特征组的所有记录的默认 TTL 持续时间。
-
(可选)您可以向特征组添加特征定义,但请注意,无法从特征组中删除特征定义。要添加功能定义,请选择 + 添加功能定义,然后在名称列指定新功能定义名称,并在功能类型列选择功能类型。
-
选择 Save changes(保存更改)。
-
要确认更改,请选择确认。
从管理控制台查看管道执行情况
您可以在管道执行下查看功能或特征组的最新管道执行信息。您还可以获得管道、执行、代码和其他有用执行信息的链接。
您可以使用管理控制台查看管道执行情况。通过管理控制台使用特征存放区的说明取决于您是否已启用 亚马逊 SageMaker Studio 或 亚马逊 SageMaker Studio 经典版 作为默认体验。
-
按照 启动亚马逊 SageMaker Studio 中的说明打开 Studio 管理控制台。
-
在左侧导航窗格中选择数据,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看特征组,请选择我的账户。要查看共享特征组,请选择跨账户。
-
选择特征组或功能,查看其管道执行情况。
-
选择管道执行选项卡。
-
从选择管道下拉列表中搜索管道。
-
您可以查看管道、执行和代码详情的链接。您还可以查看执行所有人、状态、日期和持续时间。
从管理控制台查看任务流水线
您可以查看特征组的世系。世系包括有关特征处理工作流的执行代码、使用的数据源以及将它们摄取到特征组或特征的方式的信息。
您可以使用管理控制台查看特征组的任务流水线。通过管理控制台使用特征存放区的说明取决于您是否已启用 亚马逊 SageMaker Studio 或 亚马逊 SageMaker Studio 经典版 作为默认体验。
-
按照 启动亚马逊 SageMaker Studio 中的说明打开 Studio 管理控制台。
-
从左侧导航窗格中选择数据,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看特征组,请选择我的账户。要查看共享特征组,请选择跨账户。
-
选择一个特征组或功能,查看其任务流水线详情。
-
选择世系选项卡。
-
选择要展开节点的特征组或管道节点。这包含有关特征组或管道的更多信息。
-
您可以使用屏幕左下角的按钮放大、缩小或重新居中世系图。
-
您可以选择并拖动屏幕在任务流水线图中移动。要以节点为焦点移动任务流水线图,可以按 Tab 或 Shift+Tab 在节点间切换。
-
如果适用,您可以向上游(左侧,较早的)或下游(右侧,最近的)导航。方法是选择一个节点,然后选择查询上游任务流水线或查询下游任务流水线。