选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

手动定义元数据

聚焦模式
手动定义元数据 - AWS Glue

AWS Glue Data Catalog 是一个中央存储库,用于存储有关您的数据来源和数据集的元数据。虽然爬网程序可以自动爬取和填充支持的数据来源的元数据,但在某些情况下,您可能需要在 Data Catalog 中手动定义元数据:

  • 不支持的数据格式 – 如果您的数据来源不受爬网程序支持,则需要在 Data Catalog 中手动定义这些数据来源的元数据。

  • 自定义元数据要求 – AWS Glue 爬网程序 根据预定义的规则和约定推断元数据。如果您有 AWS Glue 爬网程序 推断元数据未涵盖的特定元数据要求,则可以手动定义元数据以满足您的需求

  • 数据治理和标准化 – 在某些情况下,出于数据治理、合规性或安全原因,您可能需要对元数据定义拥有更多控制。通过手动定义元数据,您可以确保元数据符合组织的标准和政策。

  • 用于未来数据摄取的占位符 – 如果您的数据来源无法立即使用或无法立即访问,则可以创建空架构表作为占位符。数据来源可用后,您可以使用实际数据填充表,同时保持预定义的结构。

要手动定义元数据,您可以使用 AWS Glue 控制台、Lake Formation 控制台、AWS Glue API 或 AWS Command Line Interface(AWS CLI)。您可以创建数据库、表和分区,并指定元数据属性,例如列名称、数据类型、描述和其他属性。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。