更新数据集 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

更新数据集

将初始数据集导入 Amazon SageMaker Canvas 后,您可能还有其他数据要添加到数据集中。例如,您可能会在每周末获得想要添加到数据集中的库存数据。您可以更新现有数据集并在其中添加或删除文件,而不必多次导入数据。

注意

您只能更新通过本地上传或 Amazon S3 导入的数据集。

您可以手动或自动更新数据集。有关数据集自动更新的更多信息,请参阅配置数据集自动更新

每次更新数据集时,Canvas 都会为数据集创建一个新版本。您只能使用最新版本的数据集来构建模型或生成预测。有关查看数据集版本历史记录的更多信息,请参阅查看数据集详细信息

您还可以将数据集更新与自动批量预测结合使用,这样每当您更新数据集时,都会启动批量预测作业。有关更多信息,请参阅 C SageMaker anvas 中的批量预测

以下部分介绍如何对数据集进行手动更新。

手动更新数据集

要手动更新,请执行以下操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择数据集

  3. 从数据集列表中,选择要更新的数据集。

  4. 选择更新数据集下拉菜单,然后选择手动更新。您会进入导入数据工作流。

  5. 数据来源下拉菜单中,选择本地上传Amazon S3

  6. 该页面显示您的数据预览。在这里,您可以在数据集中添加或删除文件。如果要导入表格数据,则新文件的架构(列名和数据类型)必须与现有文件的架构相匹配。此外,新文件不得超过最大数据集大小或文件大小。有关这些限制的更多信息,请参阅导入数据集

    注意

    如果您添加与数据集中现有文件同名的文件,则新文件将覆盖该文件的旧版本。

  7. 如果您已准备好保存更改,请选择更新数据集

现在,您应该有了一个新版本的数据集。

数据集页面上,您可以选择版本历史记录选项卡,查看数据集的所有版本以及手动和自动更新的历史记录。