编辑数据流采样配置 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

编辑数据流采样配置

将表格数据导入 Data Wrangler 数据流时,您可以选择对数据集进行采样,以加快数据探索和清理过程。在数据集样本上运行探索性变换通常比对整个数据集运行变换更快,当您准备好导出数据集并构建模型时,可以将变换应用于完整的数据集。

画布支持以下采样方法:

  • FirstK — Canvas 从您的数据集中选择前 K 个项目,其中 K 是您指定的数字。这种采样方法很简单,但是如果您的数据集不是随机排序的,则可能会引入偏差。

  • 随机 — Canvas 从数据集中随机选择项目,每个项目被选中的概率相等。这种采样方法有助于确保样本代表整个数据集。

  • 分@@ — Canv as 根据一个或多个属性(例如年龄和收入水平)将数据集分为组(或分层)。然后,从每组中随机选择一定数量的项目。该方法可确保样本中所有相关的子组都得到充分的表达。

您可以随时编辑采样配置,以更改用于数据探索的样本的大小。

要更改采样配置,请执行以下操作:

  1. 在数据流图中,选择您的数据源节点。

  2. 在底部导航栏上选择 “采样”。

  3. 将打开 “采样” 对话框。在采样方法下拉列表中,选择所需的采样方法。

  4. 在 “最大样本量” 中,输入要采样的行数。

  5. 单击更新以保存您的更改。

现在应该应用对采样配置的更改。