手动定义元数据
AWS Glue Data Catalog 是一个中央存储库,用于存储有关您的数据来源和数据集的元数据。虽然爬网程序可以自动爬取和填充支持的数据来源的元数据,但在某些情况下,您可能需要在 Data Catalog 中手动定义元数据:
不支持的数据格式 – 如果您的数据来源不受爬网程序支持,则需要在 Data Catalog 中手动定义这些数据来源的元数据。
自定义元数据要求 – AWS Glue 爬网程序 根据预定义的规则和约定推断元数据。如果您有 AWS Glue 爬网程序 推断元数据未涵盖的特定元数据要求,则可以手动定义元数据以满足您的需求
数据治理和标准化 – 在某些情况下,出于数据治理、合规性或安全原因,您可能需要对元数据定义拥有更多控制。通过手动定义元数据,您可以确保元数据符合组织的标准和政策。
-
用于未来数据摄取的占位符 – 如果您的数据来源无法立即使用或无法立即访问,则可以创建空架构表作为占位符。数据来源可用后,您可以使用实际数据填充表,同时保持预定义的结构。
要手动定义元数据,您可以使用 AWS Glue 控制台、Lake Formation 控制台、AWS Glue API 或 AWS Command Line Interface(AWS CLI)。您可以创建数据库、表和分区,并指定元数据属性,例如列名称、数据类型、描述和其他属性。