Cómo definir los metadatos manualmente
El Catálogo de datos de AWS Glue es un repositorio central que almacena los metadatos sobre los orígenes y conjuntos de datos. Si bien un rastreador puede rastrear y completar metadatos automáticamente para los orígenes de datos compatibles, hay determinadas situaciones en las que es posible que deba definir los metadatos manualmente en el Catálogo de datos:
Formatos de datos no compatibles: Si tiene orígenes de datos que no son compatibles con el rastreador, deberá definir los metadatos correspondientes a esos orígenes de datos en el catálogo de forma manual.
Requisitos de metadatos personalizados: El Rastreador de AWS Glue infiere los metadatos en función de reglas y convenciones predefinidas. Si tiene requisitos de metadatos específicos que no están cubiertos por los metadatos deducidos mediante el Rastreador de AWS Glue, puede definir los metadatos manualmente para adaptarlos a sus necesidades.
Gobernanza y estandarización de los datos: En algunos casos, es posible que quiera tener un mayor control sobre las definiciones de los metadatos por motivos de gobernanza, cumplimiento o seguridad de los datos. Al definir los metadatos manualmente, se asegura de que estos cumplan con las normas y políticas de su organización.
-
Marcador de posición para la futura ingesta de datos: Si tiene orígenes de datos que no están disponibles o accesibles de forma inmediata, puede crear tablas de esquemas vacías a modo de marcadores de posición. Una vez que los orígenes de datos estén disponibles, podrá completar las tablas con los datos reales y, al mismo tiempo, mantener la estructura predefinida.
Para definir los metadatos manualmente, puede usar la consola de AWS Glue, la consola de Lake Formation, la API de AWS Glue o la AWS Command Line Interface (AWS CLI). Puede crear bases de datos, tablas y particiones, y especificar las propiedades de los metadatos, como los nombres de las columnas, los tipos de datos, las descripciones y otros atributos.