编辑数据流采样配置

当将表格数据导入 Data Wrangler 数据流时，您可以选择对数据集进行采样，以加快数据探索和清理过程。在数据集样本上运行探索性转换通常比在整个数据集上运行转换更快，当您准备好导出数据集和构建模型时，就可以将转换应用于整个数据集。

Canvas 支持以下采样方法：

FirstK：Canvas 从数据集中选择前 K 个项目，其中 K 是您指定的数字。这种采样方法很简单，但是如果数据集不是随机排序，就会产生偏差。
随机：Canvas 从数据集中随机选择项目，每个项目被选中的概率相等。这种采样方法有助于确保样本对整个数据集具有代表性。
分层：根据一个或多个属性（例如年龄和收入水平）将数据集划分为多个组（或分层）。然后，从每组中随机选择一定数量的项目。此方法可确保所有相关子组在样本中得到充分代表。

您可以随时编辑采样配置，更改用于数据分析的样本大小。

要更改采样配置，请执行以下操作：

现在应该可以应用对采样配置的更改了。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

数据流 UI 的工作原理

将步骤添加到数据流