Terminología y conceptos de Amazon DataZone
Amazon DataZone es un servicio de administración de datos que le permite catalogar, descubrir, compartir y controlar los datos almacenados en AWS en las instalaciones y en fuentes de terceros. Con Amazon DataZone, los administradores y administradores de datos que supervisan los activos de datos de una organización pueden administrar y controlar el acceso a los datos mediante controles detallados. Estos controles están diseñados para garantizar el acceso con el nivel adecuado de privilegios y contexto. Amazon DataZone facilita a los ingenieros, científicos de datos, administradores de productos, analistas y usuarios empresariales el acceso a los datos de toda la organización para que puedan descubrir, usar y colaborar para obtener información basada en datos.
Al empezar a utilizar Amazon DataZone, es importante que comprenda sus conceptos, terminología y componentes clave.
Temas
- Componentes de Amazon DataZone
- ¿Qué son los dominios de Amazon DataZone?
- ¿Qué son los proyectos y entornos de Amazon DataZone?
- ¿Qué son los esquemas de Amazon DataZone?
- ¿Qué son los flujos de trabajo de inventario y publicación de Amazon DataZone?
- ¿Qué son los flujos de trabajo de suscripción y gestión logística de Amazon DataZone?
- Los perfiles de usuario de Amazon DataZone
- Terminología de Amazon DataZone
Componentes de Amazon DataZone
Amazon DataZone incluye los siguientes cuatro componentes principales:
-
Catálogo de datos empresariales: puede utilizar este componente para catalogar los datos de su organización en función del contexto empresarial y, de este modo, permitir que todos los miembros de la organización encuentren y comprendan los datos rápidamente.
-
Publique y suscriba flujos de trabajo: puede utilizar estos flujos de trabajo automatizados para proteger los datos entre productores y consumidores de forma autogestionada y garantizar que todos los miembros de su organización tengan acceso a los datos correctos para el propósito correcto.
-
Proyectos y entornos
-
En Amazon DataZone, los proyectos son agrupaciones de personas, activos (datos) y herramientas basadas en casos de uso empresarial que se utilizan para simplificar el acceso a los análisis de AWS. Los proyectos proporcionan áreas en las que los miembros del proyecto pueden colaborar, intercambiar datos y compartir activos. Los proyectos están configurados de forma predeterminada para que solo aquellos que se agreguen explícitamente al proyecto puedan acceder a los datos y a las herramientas de análisis que contienen. Los proyectos administran la propiedad de los activos producidos de acuerdo con las políticas del proyecto para que los consumidores de datos puedan acceder a ellos.
-
En los proyectos de Amazon DataZone, los entornos son conjuntos de cero o más recursos configurados (por ejemplo, un bucket de Amazon S3, una base de datos AWS Glue o un grupo de trabajo de Amazon Athena) en los que puede operar un conjunto determinado de entidades principales de IAM (por ejemplo, usuarios con permisos de colaborador).
-
-
Portal de datos (fuera de la consola de administración de AWS): se trata de una aplicación web basada en un navegador a la que diferentes usuarios pueden ir a catalogar, descubrir, gobernar, compartir y analizar datos en régimen de autoservicio. El portal de datos autentica a los usuarios con las credenciales de IAM o con las credenciales existentes de su proveedor de identidad a través de AWS IAM Identity Center.
¿Qué son los dominios de Amazon DataZone?
Puede usar los dominios de Amazon DataZone para organizar activos, usuarios y sus proyectos. Al asociar cuentas de AWS adicionales a sus dominios de Amazon DataZone, puede agrupar sus orígenes de datos. A continuación, puede publicar los activos de estos orígenes de datos en el catálogo de su dominio, con formularios de metadatos y glosarios que mejoran la integridad y la calidad de los metadatos. También puede buscar y explorar estos activos para ver qué datos están publicados en el dominio. Además, puede unir proyectos para colaborar con otros usuarios, suscribirse a activos y utilizar entornos de proyecto para acceder a herramientas de análisis, como Amazon Athena y Amazon Redshift. Los dominios de Amazon DataZone le ofrecen la flexibilidad necesaria para reflejar las necesidades de datos y de análisis de su estructura organizativa, ya se trate de crear un único dominio de Amazon DataZone para su empresa o varios dominios de Amazon DataZone para distintas unidades de negocio.
¿Qué son los proyectos y entornos de Amazon DataZone?
Amazon DataZone permite a los equipos y a los usuarios de análisis colaborar en proyectos mediante la creación de agrupaciones de equipos, herramientas y datos basadas en casos de uso.
-
En Amazon DataZone, los proyectos le permiten a un grupo de usuarios colaborar en varios casos de uso empresarial que implican publicar, descubrir, suscribir y consumir datos en el catálogo de Amazon DataZone. Los miembros del proyecto consumen activos del catálogo de Amazon DataZone y producen nuevos activos mediante uno o más flujos de trabajo analíticos. Los proyectos respaldan las siguientes actividades dentro del portal de datos:
-
Los propietarios de los proyectos pueden añadir miembros con permisos de propietario, colaborador, consumidor, administrador y espectador
-
Los miembros del proyecto pueden ser usuarios de SSO, grupos de SSO y usuarios de IAM
-
Los miembros del proyecto pueden solicitar la suscripción a los activos del catálogo de datos
Las aprobaciones de suscripción se proporcionan a los proyectos
Crear o eliminar proyectos
Crear o eliminar perfiles de proyectos Crear o eliminar perfiles de entorno Crear o eliminar entornos Añadir o eliminar miembros a proyectos Búsqueda y detección Crear o eliminar formularios o glosarios de metadatos Crear ejecuciones de orígenes de datos y adquisiciones de datos Publicar datos Solicitar suscripciones Aprobar o rechazar solicitudes de suscripción Leer los datos suscritos desde Amazon Athena y Amazon Redshift Propietario La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio Sí Sí Sí Sí Sí Sí Sí Sí Colaborador La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No Sí Sí Sí Sí Sí Sí Sí Consumidor La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No
Sí
No
No
No
Sí
No
Sí
Visor La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No
Sí
No
No
No
No
No
Sí
Administrador La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No
Sí
Sí
Sí
Sí
No
Sí
Sí
-
-
En un proyecto de Amazon DataZone, los entornos son conjuntos de cero o más recursos configurados (por ejemplo, un Amazon S3, una base de datos AWS Glue o un grupo de trabajo de Amazon Athena), con un conjunto determinado de entidades principales de IAM que pueden operar sobre esos recursos. Los entornos se crean mediante perfiles de entorno, que son conjuntos de recursos y esquemas preconfigurados que proporcionan plantillas reutilizables para crear entornos. Los perfiles de entorno definen ajustes como la Cuenta de AWS o la región en la que se despliegan los entornos.
¿Qué son los esquemas de Amazon DataZone?
El esquema con el que se crea el entorno define qué herramientas y servicios de AWS (por ejemplo, AWS Glue o Amazon Redshift) pueden utilizar los miembros del proyecto al que pertenece el entorno cuando trabajan con los activos del catálogo de Amazon DataZone.
En la versión actual de Amazon DataZone, se admiten los siguientes esquemas predeterminados:
Nombre del esquema | Descripción | Recursos creados |
---|---|---|
Esquema de lago de datos |
Permite a los miembros del proyecto Amazon DataZone lanzar servicios para productores y consumidores del lago de datos dentro del entorno. Como consumidor, permite a los miembros del proyecto Amazon DataZone acceder a una copia de solo lectura de los activos administrados por Lake Formation directamente en Amazon Athena y en otros motores de consulta compatibles con Lake Formation. Como productor, permite a los miembros del proyecto de Amazon DataZone crear nuevas tablas administradas por LakeFormation con Amazon Athena y publicarlas en el catálogo de Amazon DataZone. |
Ofrece a los usuarios la posibilidad de crear y consultar tablas de Lake Formation con Amazon Athena. Grupo de trabajo de Amazon Athena, base de datos AWS Glue con permisos de solo lectura de Lake Formation, permisos de IAM de solo lectura y acceso a Amazon S3 administrado por el proyecto. Base de datos AWS Glue con permisos de creación y concesión de Lake Formation, permisos de IAM de lectura y escritura, ETL (extracción, transformación y carga) AWS Glue con etiquetado. |
Esquema de almacenamiento de datos |
Como consumidor, este esquema permite a los miembros del proyecto Amazon DataZone conectarse a sus propios clústeres de Amazon Redshift para consultar almacenamientos de datos remotos y crear y almacenar nuevos conjuntos de datos. Como productor, este esquema permite a los miembros del proyecto Amazon DataZone conectarse a sus propios clústeres de Amazon Redshift para consultar almacenamientos de datos remotos, crear nuevos conjuntos de datos y publicarlos en el catálogo de Amazon DataZone. |
Acceso al editor de consultas de Amazon Redshift, acceso de lectura a los orígenes de datos suscritos desde el catálogo de Amazon DataZone y capacidad para crear activos locales en el clúster configurado de Amazon Redshift. Acceso al editor de consultas de Amazon Redshift, acceso de lectura a los orígenes de datos suscritos desde el catálogo de Amazon DataZone y capacidad para crear y publicar activos desde el clúster configurado de Amazon Redshift. |
Esquema de Amazon SageMaker |
Este esquema ayuda a los productores y consumidores de datos a cambiarse sin problemas a Amazon SageMaker para colaborar en proyectos de machine learning (ML) y, al mismo tiempo, reforzar la gobernanza del acceso a los datos y a los activos de machine learning. Con la nueva integración incorporada entre Amazon DataZone y Amazon SageMaker, los consumidores y productores de datos pueden optimizar la gobernanza del machine learning en toda la configuración de la infraestructura, colaborar en iniciativas empresariales y gestionar fácilmente los datos y los activos de machine learning. |
Puede crear un dominio de Amazon SageMaker que pueda buscar, suscribir y publicar datos y activos de machine learning en Amazon DataZone. También puede suscribirse y publicar en las bases de datos de AWS Glue y Lake Formation en función de la configuración. |
¿Qué son los flujos de trabajo de inventario y publicación de Amazon DataZone?
Creación de activos de inventario para un proyecto
Si desea utilizar Amazon DataZone para catalogar sus datos, primero debe incluir sus datos (activos) como inventario de su proyecto en Amazon DataZone. Al crear el inventario para un proyecto, solo los miembros de ese proyecto podrán detectar los activos. Los activos del inventario del proyecto no están disponibles para todos los usuarios del dominio al navegar o realizar búsquedas, a menos que se publiquen de forma explícita. En la versión actual de Amazon DataZone, puede añadir activos al inventario del proyecto de las siguientes maneras:
-
Cree y ejecute orígenes de datos a través del portal de datos o mediante las API de Amazon DataZone. En la versión actual de Amazon DataZone, puede crear y ejecutar los orígenes de datos para AWS Glue y Amazon Redshift. Al crear y ejecutar orígenes de datos de AWS Glue o Amazon Redshift, crea activos en el inventario de un proyecto elegido e importa sus metadatos técnicos desde las tablas de bases de datos de origen o los almacenamientos de datos como inventario a Amazon DataZone.
-
Con las API, puede crear activos a partir de los tipos de activos del sistema disponible (AWS Glue, Amazon Redshift, objetos de Amazon S3) o a partir de sus tipos de activos personalizados.
-
Cree tipos de activos personalizados en el inventario de un proyecto mediante las API de Amazon DataZone. Los tipos de activos personalizados pueden incluir modelos de machine learning, paneles, tablas en las instalaciones, etc.
-
Cree activos a partir de estos tipos de activos personalizados mediante las API de Amazon DataZone.
-
-
Cree activos manualmente para objetos de S3 mediante el portal de datos Amazon DataZone.
Gestión de los activos del inventario del proyecto: tras crear el inventario de un proyecto, los propietarios de los datos pueden organizar sus activos de inventario con los metadatos empresariales necesarios añadiendo o actualizando los nombres de las empresas (activo y esquema), las descripciones (activo y esquema), el formato léame, los términos del glosario (activo y esquema) y los formularios de metadatos. Puede hacerlo a través del portal de datos o utilizando las API de Amazon DataZone. Cada edición que se haga a su activo crea una nueva versión del inventario.
Publicar los activos del inventario del proyecto en el catálogo de Amazon DataZone
El siguiente paso sobre el uso de Amazon DataZone para catalogar sus datos es hacer que los usuarios del dominio puedan detectar los activos de inventario de su proyecto. Esto se consigue publicando los activos del inventario del proyecto en el catálogo de Amazon DataZone. Solo se puede publicar en el catálogo la última versión del activo del inventario y solo está activa la última versión publicada en el catálogo de detección. Si un activo de inventario se actualiza después de publicarse en el catálogo de Amazon DataZone, debe volver a publicarlo de forma explícita para que la última versión esté en el catálogo de detección. En la versión actual de Amazon DataZone, puede publicar sus activos del inventario del proyecto en el catálogo de Amazon DataZone de las siguientes maneras:
-
Publique manualmente los activos de inventario de su proyecto en el catálogo de Amazon DataZone a través del portal de datos o mediante las API de Amazon DataZone.
-
Como parte de la creación o edición de orígenes de datos, active la configuración opcional Publicar sus activos de AWS Glue en el catálogo o Publicar sus activos de Amazon Redshift en el catálogo para utilizarla durante las ejecuciones programadas o automatizadas del origen de datos. Cuando esta configuración está habilitada, la ejecución de un origen de datos añade activos al inventario de su proyecto y, a continuación, también publica los activos del inventario en el catálogo de Amazon DataZone. Tenga en cuenta que si publica directamente, es posible que los activos no contengan metadatos empresariales y que todos los usuarios del dominio los puedan detectar directamente. Puede usar esta configuración en sus orígenes de datos a través del portal de datos o mediante las API de Amazon DataZone.
¿Qué son los flujos de trabajo de suscripción y gestión logística de Amazon DataZone?
Una vez que sus activos se publiquen en el catálogo de Amazon DataZone, los usuarios de su dominio podrán descubrirlos, solicitarlos y obtener acceso a ellos, y seguir utilizando Amazon DataZone para gestionar, compartir y analizar estos activos.
Los usuarios solicitan acceso a un activo suscribiéndose a ese activo en nombre de un proyecto. Una vez creada una solicitud de suscripción, los propietarios del activo reciben una notificación y pueden revisarla y decidir si desean aprobarla o rechazarla. Si el propietario de los datos aprueba la solicitud de suscripción, el proyecto que se suscribe tendrá acceso a ese activo.
Una vez aprobada la solicitud de suscripción, Amazon DataZone inicia un flujo de trabajo de gestión de suscripciones que añade automáticamente el activo a todos los entornos aplicables del proyecto creando las concesiones necesarias en AWS Lake Formation o Amazon Redshift. Esto permite a los miembros del proyecto que se suscribe consultar el activo mediante una de las herramientas de consulta (Amazon Athena o el editor de consultas de Amazon Redshift) en sus entornos.
Amazon DataZone puede activar esta lógica de gestión logística automatizada solo para los activos gestionados (esto incluye las tablas de AWS Glue y las tablas y vistas de Amazon Redshift). Para todos los demás tipos de activos (activos no gestionados), Amazon DataZone no puede activar automáticamente la gestión logística, sino que publica un evento en Amazon Eventbridge con todos los detalles necesarios en la carga útil del evento para que usted pueda crear las concesiones necesarias fuera de Amazon DataZone. Amazon DataZone también proporciona la updateSubscriptionStatus
API que le permite actualizar el estado de la suscripción una vez se ha gestionado fuera de Amazon DataZone, de modo que Amazon DataZone pueda notificar a los miembros del proyecto que pueden empezar a consumir el activo.
Los perfiles de usuario de Amazon DataZone
Los principales perfiles de usuario de Amazon DataZone son los siguientes:
-
Administradores de dominio propietarios de la configuración de Amazon DataZone como plataforma de análisis para su organización.
En el contexto de Amazon DataZone, los administradores de dominio instalan Amazon DataZone en cuentas AWS, crean dominios de Amazon DataZone y configuran asociaciones de cuentas AWS y asociaciones de proveedores de identidad con dominios de Amazon DataZone. Los administradores de dominio también utilizan otras consolas de servicio de AWS para configurar Amazon DataZone, como AWS Organization y Service Catalog.
-
Usuarios de datos que son los principales usuarios de Amazon DataZone (publicadores de activos y suscriptores) para sus tareas de análisis y machine learning.
Los usuarios de datos incluyen trabajadores de análisis de datos, científicos de datos y usuarios de sistemas que producen y consumen activos de datos. En el contexto de Amazon DataZone, los usuarios de datos crean proyectos y entornos y se unen a ellos, se suscriben y consumen activos de datos con herramientas de machine learning o de análisis preconfigurados y publican los activos de datos de salida en el catálogo de dominios de Amazon DataZone para compartirlos con otros.
-
Desarrolladores de sistemas que crean plantillas de infraestructura personalizadas e integran Amazon DataZone con catálogos internos o sistemas de producción.
En el contexto de Amazon DataZone, los desarrolladores de sistemas crean esquemas de entorno (plantillas de infraestructura) o canalizaciones de CI/CD de infraestructura como código en calidad de proveedor de entornos, canalizaciones de datos para promover los activos de datos en todos los entornos, sincronización de catálogos y adaptadores de gestión logística de concesión de suscripciones para integrarlos con los catálogos internos, o integraciones entre las API de Amazon DataZone y las interfaces de usuario interno o los sistemas de producción, si fuera necesario.
-
Agentes de gobernanza de datos responsables de las definiciones y los riesgos de las políticas de seguridad, privacidad y otras políticas de cumplimiento de la organización y que se aseguran de que el uso de Amazon DataZone en sus organizaciones cumple con estas definiciones.
Terminología de Amazon DataZone
- Dominio
-
Un dominio de Amazon DataZone es una entidad organizativa encargada de conectar activos, usuarios y sus proyectos. Los dominios de Amazon DataZone le ofrecen la flexibilidad necesaria para reflejar las necesidades de datos y de análisis de su estructura organizativa, ya se trate de crear un único dominio de Amazon DataZone para su empresa o varias zonas de datos; dominios para distintas unidades de negocio o equipos.
- Unidad de dominio
-
Las unidades de dominio le permiten organizar fácilmente sus activos y otras entidades de dominio en unidades de negocio y equipos específicos. Para configurar un intercambio de datos seguro y eficiente dentro de las unidades de negocio de su organización y entre ellas, puede crear unidades de dominio en Amazon DataZone y permitir que los usuarios seleccionados de cada unidad de negocio inicien sesión y compartan sus activos en el catálogo. Las unidades de dominio también se pueden usar para permitir que los propietarios de recursos, como los propietarios de cuentas de AWS, configuren permisos de autorización de Amazon DataZone en sus recursos. Las unidades de dominio proporcionan una autoridad delegada de los propietarios de las cuentas a los propietarios de las unidades de dominio y pueden configurar permisos de autorización en los perfiles de entorno (creados mediante configuraciones de esquemas), en nombre de los propietarios de las cuentas. Para obtener más información, consulte Unidades de dominio y políticas de autorización en Amazon DataZone.
- Política de autorización
-
Las políticas de autorización de Amazon DataZone son un conjunto de controles dentro de Amazon DataZone que se aplican a entidades como proyectos, esquemas, entornos, glosarios y formularios de metadatos. Estas políticas definen quién puede crear estas entidades y gestionar su ciclo de vida en el portal Amazon DataZone.
Dentro de una unidad de dominio de Amazon DataZone, usted puede asignar las siguientes políticas de autorización a sus usuarios y grupos para concederles permisos específicos:
-
Política de creación de unidades de dominio
-
Política de creación de proyectos
-
Política de miembro del proyecto
-
Política de toma de propiedad de la unidad de dominio
-
Política de toma de propiedad del proyecto
Para obtener más información, consulte Asignación de políticas de autorización a los usuarios y grupos dentro de una unidad de dominio de Amazon DataZone.
Dentro de una unidad de dominio de Amazon DataZone, puede asignar las siguientes políticas de autorización a sus proyectos para concederles permisos específicos:
-
Política de creación de glosarios
-
Política de creación de formularios de metadatos
-
Política de creación de tipos de activos personalizados
Para obtener más información, consulte Asignación de políticas de autorización a los proyectos dentro de una unidad de dominio de Amazon DataZone.
Dentro de una configuración de esquema específica, puede asignar las siguientes políticas de autorización a los propietarios de proyectos y unidades de dominio:
-
Cree perfiles de entorno con este esquema: esta política se puede asignar a los proyectos de Amazon DataZone y les autoriza a crear perfiles de entorno con este esquema.
-
Conceda permisos para crear perfiles de entorno con este esquema: esta política se puede asignar a propietarios de unidades de dominio y les autoriza a conceder permisos a proyectos para crear perfiles de entorno con este esquema.
Para obtener más información, consulte Asignación de políticas de autorización dentro de las configuraciones del esquema de Amazon DataZone.
-
- Cuenta asociada
-
La asociación de sus cuentas AWS con los dominios de Amazon DataZone le permite publicar datos de estas cuentas AWS en el catálogo de Amazon DataZone y crear proyectos de Amazon DataZone para trabajar con sus datos en varias cuentas de AWS. Las solicitudes de asociación de cuentas solo se pueden iniciar en cuentas AWS que posean un dominio de Amazon DataZone. Las solicitudes de asociación de cuentas solo las pueden aceptar los usuarios administrativos de las cuentas AWS invitadas. Una vez que una cuenta AWS esté asociada a un dominio de Amazon DataZone, puede registrar sus orígenes de datos, como el catálogo de AWS Glue y Amazon Redshift, de esta cuenta a este dominio. La asociación también permite que una cuenta AWS cree proyectos y entornos de Amazon DataZone.
Una Cuenta de AWS puede estar asociada a uno o varios dominios de Amazon DataZone.
- Origen de datos
-
En Amazon DataZone, puede utilizar los orígenes de datos para importar metadatos técnicos de los activos (datos) desde las bases de datos o almacenamientos de datos de origen a Amazon DataZone. En la versión actual de Amazon DataZone, puede crear y ejecutar los orígenes de datos para AWS Glue y Amazon Redshift. Al crear un origen de datos, usted establece una conexión entre Amazon DataZone y la fuente (AWS Glue Data Catalog o Amazon Redshift Warehouse), lo que le permite leer los metadatos técnicos, incluidos los nombres de las tablas, los nombres de las columnas y los tipos de datos. Al crear un origen de datos, también arranca la ejecución inicial del origen de datos que crea activos nuevos o actualiza los existentes en Amazon DataZone. Mientras crea un origen de datos o después de que el origen de datos se haya creado correctamente, también tendrá la opción de especificar un cronograma para la ejecución de su origen de datos.
- Ejecución del origen de datos
-
En Amazon DataZone, la ejecución de un origen de datos es una tarea que realiza Amazon DataZone para crear activos en los inventarios de los proyectos y también, opcionalmente, para publicar los activos del inventario del proyecto en el catálogo de Amazon DataZone. La ejecución del origen de datos puede ser automática (se inicia cuando se crea una fuente de datos por primera vez), programada o manual. Los criterios de selección de datos le permiten afinar los conjuntos de datos actuales y futuros que se incorporarán a los inventarios de los proyectos o al catálogo de Amazon DataZone, así como la frecuencia de las actualizaciones de los metadatos de esos activos de inventario o catálogo.
- Destinos de suscripción
-
Los destinos de suscripción en Amazon DataZone le permiten acceder a los datos a los que se ha suscrito en sus proyectos. Un destino de suscripción especifica la ubicación (por ejemplo, una base de datos o un esquema) y los permisos necesarios (por ejemplo, un rol de IAM) que Amazon DataZone puede utilizar para establecer una conexión con los datos de origen y crear las concesiones necesarias para que los miembros del proyecto de Amazon DataZone puedan empezar a consultar los datos a los que se suscribieron.
- Solicitud de suscripción
-
En Amazon DataZone, una solicitud de suscripción es un proceso que debe seguir un proyecto de Amazon DataZone para poder acceder a un activo específico. Las solicitudes de suscripción se pueden aprobar, rechazar, revocar o conceder.
- Activo
-
En Amazon DataZone, un activo es una entidad que presenta un único objeto de datos físico (por ejemplo, una tabla, un panel o un archivo) o un objeto de datos virtual (por ejemplo, una vista).
- Tipo de activo
-
Los tipos de activos definen cómo se representan los activos en el catálogo de Amazon DataZone. Un tipo de activo define el esquema para un tipo específico de activo. Cuando se crean los activos, se validan con el esquema definido por su tipo de activo (de forma predeterminada, la última versión). Cuando se actualiza un activo, Amazon DataZone crea una nueva versión del activo y permite a los usuarios de Amazon DataZone operar con todas las versiones del activo.
- Glosario empresarial
-
En Amazon DataZone, un glosario empresarial es un conjunto de términos empresariales que pueden estar relacionados con los activos. Un glosario empresarial ayuda a garantizar que se utilicen los mismos términos y definiciones en toda la organización a lo largo de sus diversas tareas de análisis de datos.
Los términos de un glosario empresarial se pueden añadir a los activos y columnas para clasificar o mejorar la identificación de esos atributos durante la búsqueda. El glosario se puede seleccionar como el tipo de valor de un campo en un formulario de metadatos que esté asociado a un activo. Cuando se selecciona un término concreto como valor para el campo del formulario de metadatos de un activo, los usuarios pueden buscar el término del glosario empresarial y encontrar los activos asociados.
- Tipo de formulario de metadatos
-
Un tipo de formulario de metadatos es una plantilla que define los metadatos que se recopilan y guardan cuando los activos se crean como inventario o se publican en un dominio de Amazon DataZone. Los tipos de formularios de metadatos se pueden asociar a un activo de datos. Los tipos de formularios de metadatos ayudan a los administradores de dominios a definir los formularios de metadatos necesarios para ese dominio, como la información de conformidad, la información reglamentaria o las clasificaciones. Permite a los administradores de dominios personalizar metadatos adicionales para sus activos. Amazon DataZone tiene tipos de formularios de metadatos del sistema, como asset-common-details-form-type, column-business-metadata-form-type, glue-table-form-type, glue-view-form-type, redshift-view-form-type, redshift-view-form-type, s3-object-collection-form-type, suscription-terms-form-type y sugestion-form-type.
- Formulario de metadatos
-
En Amazon DataZone, los formularios de metadatos definen los metadatos que se recopilan y guardan cuando los activos se crean como inventario o se publican en un dominio de Amazon DataZone. Un administrador de dominio crea las definiciones de los formularios de metadatos en el dominio del catálogo. La definición de un formulario de metadatos se compone de una o más definiciones de campo y admite tipos de datos con valores de campo booleanos, de fecha, decimales, enteros, de cadena y de glosario empresarial.
Un administrador de dominio aplica un formulario de metadatos a los activos de su dominio añadiendo el formulario de metadatos a su dominio. A continuación, los publicadores de activos proporcionan los valores de campo opcionales y obligatorios en el formulario de metadatos.
- Proyecto
-
En Amazon DataZone, los proyectos permiten a un grupo de usuarios colaborar en varios casos de uso empresarial que implican crear activos en inventarios de proyecto y, de esa manera, permitir que los descubran todos los miembros de proyecto y, a continuación, publicar, descubrir, suscribirse a y consumir activos en el catálogo de Amazon DataZone. Los miembros del proyecto consumen activos del catálogo de Amazon DataZone y producen nuevos activos mediante uno o más flujos de trabajo analíticos. Los miembros de un proyecto pueden ser propietarios, colaboradores, consumidores, administradores y espectadores.
Crear o eliminar proyectos
Crear o eliminar perfiles de proyectos Crear o eliminar perfiles de entorno Crear o eliminar entornos Añadir o eliminar miembros a proyectos Búsqueda y detección Crear o eliminar formularios o glosarios de metadatos Crear ejecuciones de orígenes de datos y adquisiciones de datos Publicar datos Solicitar suscripciones Aprobar o rechazar solicitudes de suscripción Leer los datos suscritos desde Amazon Athena y Amazon Redshift Propietario La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio Sí Sí Sí Sí Sí Sí Sí Sí Colaborador La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No Sí Sí Sí Sí Sí Sí Sí Consumidor La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No
Sí
No
No
No
Sí
No
Sí
Visor La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No
Sí
No
No
No
No
No
Sí
Administrador La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio La administración correrá a cargo de un miembro de la unidad de dominio No
Sí
Sí
Sí
Sí
No
Sí
Sí
Los propietarios de los proyectos pueden añadir o eliminar a otros usuarios como propietarios o colaboradores y pueden modificar o eliminar proyectos. Se pueden definir otras restricciones para los colaboradores mediante políticas. Cuando un usuario crea un proyecto, se convierte en el primer propietario de ese proyecto.
- Entorno
-
Un entorno es un conjunto de recursos configurados (por ejemplo, un bucket de Amazon S3, una base de datos AWS Glue o un grupo de trabajo de Amazon Athena), en los que puede operar un conjunto determinado de entidades principales de IAM (con permisos de colaborador asignados). Cada entorno también puede tener entidades principales como usuarios que estén autorizados a acceder a los recursos y a los datos mediante suscripción y gestión logística. Los entornos están diseñados para almacenar enlaces procesables en servicios de AWS, consolas e IDE externos. Los miembros del proyecto pueden acceder a servicios como la consola de Amazon Athena y más a través de enlaces profundos configurados dentro de un entorno. Se puede restringir aún más el uso y acceso de los usuarios de SSO y de IAM del proyecto a ciertos entornos específicos.
- Perfil del entorno
-
En Amazon DataZone, un perfil de entorno es una plantilla que puede usar para crear entornos. Los perfiles de entorno se crean mediante esquemas.
Con los perfiles de entorno, los administradores de dominio pueden encapsular los esquemas con parámetros preconfigurados y, a continuación, los trabajadores de datos pueden crear rápidamente los entornos nuevos que deseen seleccionando los perfiles de entorno existentes y especificando los nombres de los nuevos entornos. Esto permite a los trabajadores de datos administrar sus proyectos y entornos de manera eficiente y, al mismo tiempo, garantizar que cumplen con las políticas de gobernanza de datos aplicadas por los administradores de sus dominios.
- Esquema
-
El esquema con el que se crea el entorno define qué herramientas y servicios de AWS (por ejemplo, AWS Glue o Amazon Redshift) pueden utilizar los miembros del proyecto al que pertenece el entorno cuando trabajan con los activos del catálogo de Amazon DataZone.
En la versión actual de Amazon DataZone, se admiten los siguientes esquemas predeterminados:
-
Esquema de lago de datos
-
Esquema de almacenamiento de datos
-
Esquema de Amazon SageMaker
-
- Perfil de usuario
-
Un perfil de usuario representa a los usuarios de Amazon DataZone. Amazon DataZone admite roles de IAM e identidades de SSO para interactuar con la consola de administración de Amazon DataZone y el portal de datos con distintos fines. Los administradores de dominio utilizan los roles de IAM para realizar el trabajo administrativo inicial relacionado con el dominio en la consola de administración de Amazon DataZone, incluida la creación de nuevos dominios de Amazon DataZone, la configuración de los tipos de formularios de metadatos y la implementación de políticas. Los trabajadores de datos utilizan sus identidades corporativas de SSO a través de Identity Center para iniciar sesión en el portal de datos de Amazon DataZone y acceder a los proyectos en los que tienen membresías.
- Perfil de grupo
-
Los perfiles de grupo representan grupos de usuarios de Amazon DataZone. Los grupos pueden crearse manualmente o asignarse a grupos de clientes empresariales de Active Directory. En Amazon DataZone, los grupos tienen dos propósitos. En primer lugar, un grupo puede asignarse a un equipo de usuarios del organigrama y, por tanto, reducir el trabajo administrativo del propietario de un proyecto de Amazon DataZone cuando haya nuevos empleados que se unan o abandonen un equipo. En segundo lugar, los administradores corporativos utilizan los grupos de Active Directory para administrar y actualizar los estados de los usuarios, por lo que los administradores de dominios de Amazon DataZone pueden utilizar estas membresías de grupos para implementar las políticas de dominio de Amazon DataZone.
- Administrador de dominio
-
En Amazon DataZone, la entidad principal de IAM que crea un dominio de Amazon DataZone es el administrador de dominio predeterminado de ese dominio. Los administradores de dominio de Amazon DataZone realizan funciones clave para el dominio, como crear dominios, asignar otros administradores de dominio, añadir orígenes de datos y objetivos de suscripción, crear proyectos y entornos, y asignar propietarios de proyecto.
- Publicador
-
En Amazon DataZone, los publicadores publican activos en el catálogo de Amazon DataZone y pueden editar los metadatos de los activos que publican. Si se les concede esta autorización, los publicadores pueden aprobar o rechazar las solicitudes de suscripción a los activos que publicaron en el catálogo de Amazon DataZone.
- Suscriptor
-
En Amazon DataZone, un suscriptor es un proyecto de Amazon DataZone que desea buscar, acceder y consumir activos en el catálogo de Amazon DataZone.
- Propietario de la Cuenta de AWS
-
En Amazon DataZone, los propietarios de la Cuenta de AWS crean roles, políticas y permisos en sus Cuentas de AWS que permiten asociar estas Cuentas de AWS a los dominios de Amazon DataZone.