DataZone Terminología y conceptos de Amazon - Amazon DataZone

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

DataZone Terminología y conceptos de Amazon

Amazon DataZone es un servicio de administración de datos que te permite catalogar, descubrir, compartir y gestionar los datos almacenados en fuentes locales y de AWS terceros de forma más rápida y sencilla. Con Amazon DataZone, los administradores y administradores de datos que supervisan los activos de datos de una organización pueden gestionar y controlar el acceso a los datos mediante controles detallados. Estos controles están diseñados para garantizar el acceso con el nivel adecuado de privilegios y contexto. Amazon DataZone facilita a los ingenieros, científicos de datos, gerentes de producto, analistas y usuarios empresariales el acceso a los datos de toda la organización para que puedan descubrir, usar y colaborar para obtener información basada en datos.

Al empezar con Amazon DataZone, es importante que comprenda sus conceptos, terminología y componentes clave.

DataZone Componentes de Amazon

Amazon DataZone incluye los cuatro componentes principales siguientes:

  • Catálogo de datos empresariales: puede utilizar este componente para catalogar los datos de su organización en función del contexto empresarial y, de este modo, permitir que todos los miembros de la organización encuentren y comprendan los datos rápidamente.

  • Publique y suscriba flujos de trabajo: puede utilizar estos flujos de trabajo automatizados para proteger los datos entre productores y consumidores de forma autónoma y garantizar que todos los miembros de su organización tengan acceso a los datos correctos para el propósito correcto.

  • Proyectos y entornos

    • En Amazon, DataZone los proyectos son agrupaciones de personas, activos (datos) y herramientas basadas en casos de uso empresarial que se utilizan para simplificar el acceso a los análisis. AWS Los proyectos proporcionan áreas en las que los miembros del proyecto pueden colaborar, intercambiar datos y compartir activos. De forma predeterminada, los proyectos están configurados para que solo aquellos que se agreguen explícitamente al proyecto puedan acceder a los datos y las herramientas de análisis que contienen. Los proyectos gestionan la propiedad de los activos producidos de acuerdo con las políticas del proyecto a los que pueden acceder los consumidores de datos.

    • En DataZone los proyectos de Amazon, los entornos son conjuntos de cero o más recursos configurados (por ejemplo, un bucket de Amazon S3, una AWS Glue base de datos o un grupo de trabajo de Amazon Athena) en IAM los que puede operar un conjunto determinado de entidades principales (por ejemplo, usuarios con permisos de colaborador).

  • Portal de datos (externo a la consola de AWS administración): se trata de una aplicación web basada en un navegador en la que distintos usuarios pueden catalogar, descubrir, gestionar, compartir y analizar los datos de forma autónoma. El portal de datos autentica a los usuarios con IAM credenciales o credenciales existentes de su proveedor de identidad mediante. AWS IAM Identity Center

¿Qué son los DataZone dominios de Amazon?

Puedes usar DataZone los dominios de Amazon para organizar tus activos, usuarios y sus proyectos. Al asociar AWS cuentas adicionales a tus DataZone dominios de Amazon, puedes agrupar tus fuentes de datos. A continuación, puede publicar activos de estas fuentes de datos en el catálogo de su dominio, con formularios de metadatos y glosarios que mejoran la integridad y la calidad de los metadatos. También puedes buscar y explorar estos recursos para ver qué datos están publicados en el dominio. Además, puede unirse a proyectos para colaborar con otros usuarios, suscribirse a activos y utilizar entornos de proyectos para acceder a herramientas de análisis, como Amazon Athena y Amazon Redshift. DataZone Los dominios de Amazon le ofrecen la flexibilidad necesaria para reflejar las necesidades de datos y análisis de su estructura organizativa, ya sea que se trate de crear un único DataZone dominio de Amazon para su empresa o varios DataZone dominios de Amazon para diferentes unidades de negocio.

¿Qué son los DataZone proyectos y entornos de Amazon?

Amazon DataZone permite a los equipos y a los usuarios de análisis colaborar en proyectos mediante la creación de agrupaciones de equipos, herramientas y datos basadas en casos de uso.

  • En Amazon DataZone, los proyectos permiten a un grupo de usuarios colaborar en varios casos de uso empresarial que implican publicar, descubrir, suscribirse y consumir datos del DataZone catálogo de Amazon. Los miembros del proyecto consumen activos del DataZone catálogo de Amazon y producen nuevos activos mediante uno o más flujos de trabajo analíticos. Los proyectos respaldan las siguientes actividades dentro del portal de datos:

    • Los propietarios de los proyectos pueden añadir miembros con permisos de propietario, colaborador, consumidor, administrador y espectador

    • Los miembros del proyecto pueden ser SSO usuarios, SSO grupos y IAM usuarios

    • Los miembros del proyecto pueden solicitar la suscripción a los activos del catálogo de datos

      Las aprobaciones de suscripción se proporcionan a los proyectos

    Crear o eliminar proyectos

    Crear o eliminar perfiles de proyectos Crear o eliminar perfiles de entorno Crear o eliminar entornos Añadir/eliminar miembros a los proyectos Búsqueda y descubrimiento Create/delete metadata forms/glossaries Cree fuentes de datos, ejecute e ingiera datos Publica datos Solicita suscripciones Apruebe o rechace las solicitudes de suscripción Lea los datos suscritos de Amazon Athena y Amazon Redshift
    Propietario Los administrará un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio
    Colaborador Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio No
    Consumidor Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio

    No

    No

    No

    No

    No

    Visor Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio

    No

    No

    No

    No

    No

    No

    Administrador Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio

    No

    No

  • En un DataZone proyecto de Amazon, los entornos son conjuntos de cero o más recursos configurados (por ejemplo, Amazon S3, una AWS Glue base de datos o un grupo de trabajo de Amazon Athena), con un conjunto determinado de IAM directores que pueden operar con esos recursos. Los entornos se crean mediante perfiles de entorno, que son conjuntos de recursos y planos preconfigurados que proporcionan plantillas reutilizables para crear entornos. Los perfiles de entorno definen ajustes como la región Cuenta de AWS o la región en la que se implementan los entornos.

¿Qué son los DataZone planos de Amazon?

El plano con el que se crea el entorno define qué AWS herramientas y servicios (por ejemplo, AWS Glue Amazon Redshift) pueden utilizar los miembros del proyecto al que pertenece el entorno cuando trabajan con los activos del catálogo de Amazon DataZone .

En la versión actual de Amazon DataZone, se admiten los siguientes blueprints predeterminados:

Nombre del plano Descripción Recursos creados
Plano de Data Lake

Permite a los miembros del DataZone proyecto Amazon lanzar servicios para productores y consumidores de Data Lake en el entorno.

Como consumidor, permite a los miembros del DataZone proyecto de Amazon acceder a una copia de «solo lectura» de los activos gestionados por Lake Formation directamente en Amazon Athena y en otros motores de consulta compatibles con Lake Formation.

Como productor, permite a los miembros DataZone del proyecto de Amazon crear nuevas tablas LakeFormation gestionadas con Amazon Athena y publicarlas en el catálogo de Amazon DataZone.

Ofrece a los usuarios la posibilidad de crear y consultar tablas de Lake Formation con Amazon Athena. Grupo de trabajo de Amazon Athena, AWS Glue base de datos con permisos de «solo lectura» de Lake Formation, permisos de «IAMsolo lectura» y acceso a Amazon S3 gestionado por el proyecto. AWS Glue base de datos con permisos de «crear» y «conceder» a Lake Formation, IAM permisos de «lectura» y «escritura» AWS Glue ETL (extracción, transformación y carga) con etiquetado.
Plano de almacén de datos

Como consumidores, este plan permite a los miembros DataZone del proyecto de Amazon conectarse a sus propios clústeres de Amazon Redshift para consultar almacenes de datos remotos y crear y almacenar nuevos conjuntos de datos.

Como productores, este plan permite a los miembros DataZone del proyecto de Amazon conectarse a sus propios clústeres de Amazon Redshift para consultar almacenes de datos remotos, crear nuevos conjuntos de datos y publicarlos en el catálogo de Amazon. DataZone

Acceso al editor de consultas de Amazon Redshift, acceso de «lectura» a las fuentes de datos suscritas desde el DataZone catálogo de Amazon y capacidad de crear activos locales en el clúster de Amazon Redshift configurado. Acceso al editor de consultas de Amazon Redshift, acceso de «lectura» a las fuentes de datos suscritas desde el DataZone catálogo de Amazon, posibilidad de crear y publicar activos desde el clúster de Amazon Redshift configurado.
Plano de Amazon SageMaker

Este plan ayuda a los productores y consumidores de datos a cambiarse sin problemas SageMaker a Amazon para colaborar en proyectos de aprendizaje automático (ML) y, al mismo tiempo, reforzar la gobernanza del acceso a los datos y los activos de aprendizaje automático. Con la nueva integración integrada entre Amazon DataZone y Amazon SageMaker, los consumidores y productores de datos pueden optimizar la gobernanza del aprendizaje automático en toda la configuración de la infraestructura, colaborar en iniciativas empresariales y gestionar fácilmente los datos y los activos de aprendizaje automático.

Puedes crear un SageMaker dominio de Amazon que pueda buscar, suscribirse y publicar datos y activos de aprendizaje automático en Amazon DataZone. También puede suscribirse y publicar en las bases de datos de AWS Glue y en la formación de lagos según esté configurado.

¿Qué son los flujos de trabajo de DataZone inventario y publicación de Amazon?

Creación de activos de inventario de proyectos

Para poder utilizar Amazon DataZone para catalogar tus datos, primero debes incluir tus datos (activos) como inventario de tu proyecto en Amazon DataZone. Al crear un inventario para un proyecto, solo los miembros de ese proyecto pueden descubrir los activos. Los activos del inventario del proyecto no están disponibles para todos los usuarios del dominio al realizar búsquedas o búsquedas, a menos que se publiquen de forma explícita. En la versión actual de Amazon DataZone, puedes añadir activos al inventario del proyecto de las siguientes maneras:

  • Cree y ejecute fuentes de datos a través del portal de datos o mediante Amazon DataZone APIs. En la versión actual de Amazon DataZone, puede crear y ejecutar fuentes de datos para AWS Glue y Amazon Redshift. Al crear y ejecutar fuentes de datos de AWS Glue o Amazon Redshift, crea activos en el inventario de un proyecto elegido e importa sus metadatos técnicos de las tablas de bases de datos de origen o los almacenes de datos como inventario a Amazon. DataZone

  • Con élAPIs, puede crear activos a partir de los tipos de activos del sistema disponibles (AWS Glue, Amazon Redshift, objetos de Amazon S3) o a partir de sus tipos de activos personalizados.

    • Crea tipos de activos personalizados en el inventario de un proyecto mediante Amazon DataZone APIs. Los tipos de activos personalizados pueden incluir modelos de aprendizaje automático, paneles, tablas locales, etc.

    • Crea activos a partir de estos tipos de activos personalizados con Amazon DataZone APIs.

  • Cree activos manualmente para objetos de S3 mediante el portal de DataZone datos de Amazon.

Gestión de los activos del inventario del proyecto: tras crear el inventario de un proyecto, los propietarios de los datos pueden organizar sus activos de inventario con los metadatos empresariales necesarios añadiendo o actualizando los nombres de las empresas (activo y esquema), las descripciones (activos y esquemas), el formato léame, los términos del glosario (activos y esquemas) y los formularios de metadatos. Puede hacerlo a través del portal de datos o utilizando Amazon DataZone APIs. Cada edición de tu activo crea una nueva versión de inventario.

Publicar los activos del inventario del proyecto en el DataZone catálogo de Amazon

El siguiente paso para usar Amazon DataZone para catalogar tus datos es hacer que los usuarios del dominio puedan descubrir los activos de inventario de tu proyecto. Puedes hacerlo publicando los activos del inventario en el DataZone catálogo de Amazon. Solo se puede publicar en el catálogo la última versión del activo de inventario y solo la última versión publicada está activa en el catálogo de descubrimiento. Si un activo de inventario se actualiza después de publicarse en el DataZone catálogo de Amazon, debes volver a publicarlo de forma explícita para que la última versión esté en el catálogo de descubrimiento. En la versión actual de Amazon DataZone, puedes publicar los activos de inventario de tus proyectos en el DataZone catálogo de Amazon de las siguientes maneras:

  • Publica manualmente los activos del inventario de tu proyecto en el DataZone catálogo de Amazon, ya sea a través del portal de datos o a través de Amazon DataZone APIs.

  • Como parte de la creación o edición de fuentes de datos, active la configuración opcional Publicar sus activos de AWS Glue en el catálogo o Publicar sus activos de Amazon Redshift en el catálogo para utilizarla durante las ejecuciones programadas o automatizadas de la fuente de datos. Cuando esta configuración está habilitada, la ejecución de una fuente de datos añade activos al inventario de tu proyecto y, a continuación, también publica los activos del inventario en el DataZone catálogo de Amazon. Ten en cuenta que si publicas directamente, es posible que los activos no contengan metadatos empresariales y que todos los usuarios del dominio los puedan encontrar directamente. Puedes usar esta configuración en tus fuentes de datos a través del portal de datos o a través de Amazon DataZone APIs.

¿Qué son los flujos de trabajo DataZone de suscripción y gestión logística de Amazon?

Una vez que tus activos se publiquen en el DataZone catálogo de Amazon, los usuarios de tu dominio podrán descubrirlos, solicitarlos y acceder a ellos, y seguir utilizando Amazon DataZone para gestionarlos, compartirlos y analizarlos.

Los usuarios solicitan acceso a un activo suscribiéndose a ese activo en nombre de un proyecto. Una vez creada una solicitud de suscripción, los propietarios del activo reciben una notificación y pueden revisarla y decidir si desean aprobarla o rechazarla. Si el propietario de los datos aprueba la solicitud de suscripción, el proyecto suscriptor tiene acceso a ese activo.

Una vez aprobada una solicitud de suscripción, Amazon DataZone inicia un flujo de trabajo de gestión de suscripciones que añade automáticamente el activo a todos los entornos aplicables del proyecto mediante la creación de las subvenciones necesarias en AWS Lake Formation o Amazon Redshift. Esto permite a los miembros del proyecto suscritos consultar el activo mediante una de las herramientas de consulta (Amazon Athena o el editor de consultas Amazon Redshift) de sus entornos.

Amazon DataZone puede activar esta lógica de gestión logística automatizada solo para los activos gestionados (esto incluye las tablas AWS Glue y las tablas y vistas de Amazon Redshift). Para todos los demás tipos de activos (activos no gestionados), Amazon no DataZone puede activar automáticamente la gestión logística, sino que publica un evento en Amazon Eventbridge con todos los detalles necesarios en la carga útil del evento para que puedas crear las subvenciones necesarias fuera de Amazon. DataZone Amazon DataZone también proporciona una updateSubscriptionStatus API que te permite actualizar el estado de la suscripción una vez que se haya gestionado fuera de Amazon, de DataZone modo que Amazon DataZone pueda notificar a los miembros del proyecto que pueden empezar a consumir el activo.

Las personas usuarias de Amazon DataZone

Los siguientes son los principales DataZone usuarios de Amazon:

  • Administradores de dominio propietarios de la configuración de Amazon DataZone como plataforma de análisis de su organización.

    En el contexto de Amazon DataZone, los administradores de dominios instalan Amazon DataZone en AWS las cuentas, crean DataZone dominios de Amazon y configuran las asociaciones de AWS cuentas y las asociaciones de proveedores de identidad con los DataZone dominios de Amazon. Los administradores de dominio también utilizan otras consolas de AWS servicio, como AWS Organization y Service Catalog, para configurar Amazon DataZone.

  • Usuarios de datos que son los principales usuarios de Amazon DataZone (editores de activos y suscriptores) para sus tareas de análisis y aprendizaje automático.

    Los usuarios de datos incluyen trabajadores de análisis de datos, científicos de datos y usuarios de sistemas que producen y consumen activos de datos. En el contexto de Amazon DataZone, los usuarios de datos crean proyectos y entornos y se unen a ellos, se suscriben y consumen activos de datos con herramientas de análisis o aprendizaje automático preconfiguradas y publican los activos de datos de salida en el catálogo de DataZone dominios de Amazon para compartirlos con otros.

  • Desarrolladores de sistemas que crean plantillas de infraestructura personalizadas e integran Amazon DataZone con catálogos internos o sistemas de producción.

    En el contexto de Amazon DataZone, los desarrolladores de sistemas crean planos de entorno (plantillas de infraestructura) o canalizaciones de Infrastructure-As-Code CI/CD como proveedores de entornos, canalizaciones de datos para promover los activos de datos en todos los entornos, sincronización de catálogos y adaptadores de gestión de subvenciones de suscripciones para integrarlos con los catálogos internos o integraciones entre Amazon DataZone APIs y las interfaces de usuario internas o los sistemas de producción, si es necesario.

  • Funcionarios de gobierno de datos que son dueños de las definiciones y los riesgos de las políticas de seguridad, privacidad y otras políticas de cumplimiento de la organización y que se aseguran de que el uso de Amazon DataZone en sus organizaciones cumpla con estas definiciones.

DataZone Terminología de Amazon

Dominio

Un DataZone dominio de Amazon es la entidad organizadora que conecta tus activos, usuarios y sus proyectos. Con DataZone los dominios de Amazon, tiene la flexibilidad de reflejar las necesidades de datos y análisis de su estructura organizativa, ya sea que se trate de crear un único DataZone dominio de Amazon para su empresa o varias zonas de datos; dominios para diferentes unidades de negocio o equipos.

Unidad de dominio

Las unidades de dominio le permiten organizar fácilmente sus activos y otras entidades de dominio en unidades de negocio y equipos específicos. Para configurar un intercambio de datos seguro y eficiente dentro y entre las unidades de negocio de su organización, puede crear unidades de dominio en Amazon DataZone y permitir que los usuarios seleccionados de cada unidad de negocio inicien sesión y compartan sus activos en el catálogo. Las unidades de dominio también se pueden utilizar para permitir a los propietarios de los recursos, como los propietarios de AWS cuentas, configurar los permisos de DataZone autorización de Amazon en sus recursos. Las unidades de dominio proporcionan una autoridad delegada de los propietarios de las cuentas a los propietarios de las unidades de dominio y pueden configurar permisos de autorización en los perfiles de entorno (creados mediante configuraciones de planos), en nombre de los propietarios de las cuentas. Para obtener más información, consulte Unidades de dominio y políticas de autorización en Amazon DataZone.

Política de autorización

Las políticas de DataZone autorización de Amazon son un conjunto de controles dentro de Amazon que DataZone se aplican a entidades como proyectos, planos, entornos, glosarios y formularios de metadatos. Estas políticas definen quién puede crear estas entidades y gestionar su ciclo de vida en el DataZone portal de Amazon.

Dentro de una unidad de DataZone dominio de Amazon, puedes asignar las siguientes políticas de autorización a tus usuarios y grupos para concederles permisos específicos:

  • Política de creación de unidades de dominio

  • Política de creación de proyectos

  • Política de membresía del proyecto

  • Política de asunción de propiedad de unidades de dominio

  • Política de asunción de propiedad del proyecto

Para obtener más información, consulte Asigne políticas de autorización a los usuarios y grupos de una unidad de DataZone dominio de Amazon.

Dentro de una unidad de DataZone dominio de Amazon, puedes asignar las siguientes políticas de autorización a tus proyectos para concederles permisos específicos:

  • Política de creación de glosarios

  • Política de creación de formularios de metadatos

  • Política de creación de tipos de activos personalizados

Para obtener más información, consulte Asigne políticas de autorización a proyectos dentro de una unidad de DataZone dominio de Amazon.

Dentro de una configuración de esquema específica, puede asignar las siguientes políticas de autorización a los propietarios de proyectos y unidades de dominio:

  • Cree perfiles de entorno con este blueprint: esta política se puede asignar a los DataZone proyectos de Amazon y les autoriza a crear perfiles de entorno con este blueprint.

  • Conceda permisos para crear perfiles de entorno mediante este esquema: esta política se puede asignar a los propietarios de las unidades de dominio y les autoriza a conceder permisos a los proyectos para crear perfiles de entorno mediante este esquema.

Para obtener más información, consulte Asigne políticas de autorización dentro de las configuraciones del DataZone blueprint de Amazon.

Cuenta asociada

Al asociar tus AWS cuentas a DataZone los dominios de Amazon, podrás publicar datos de estas AWS cuentas en el DataZone catálogo de Amazon y crear DataZone proyectos de Amazon para trabajar con tus datos en varias AWS cuentas. Las solicitudes de asociación de cuentas solo se pueden iniciar en AWS cuentas que posean un DataZone dominio de Amazon. Las solicitudes de asociación de cuentas solo las pueden aceptar los usuarios administrativos de las AWS cuentas invitadas. Una vez que una AWS cuenta esté asociada a un DataZone dominio de Amazon, podrás registrar tus fuentes de datos, como el catálogo de AWS Glue y Amazon Redshift de esta cuenta, en este dominio. Al estar asociada, una AWS cuenta también puede crear DataZone proyectos y entornos de Amazon.

Se Cuenta de AWS puede asociar a uno o más DataZone dominios de Amazon.

Origen de datos

En Amazon DataZone, puede utilizar las fuentes de datos para importar metadatos técnicos de los activos (datos) de las bases de datos o almacenes de datos de origen a Amazon DataZone. En la versión actual de Amazon DataZone, puede crear y ejecutar fuentes de datos para AWS Glue y Amazon Redshift. Al crear una fuente de datos, establece una conexión entre Amazon DataZone y la fuente (AWS Glue Data Catalog o Amazon Redshift Warehouse) que le permite leer los metadatos técnicos, incluidos los nombres de las tablas, los nombres de las columnas y los tipos de datos. Al crear una fuente de datos, también se inicia la ejecución inicial de la fuente de datos que crea activos nuevos o actualiza los existentes en Amazon DataZone. Al crear una fuente de datos o después de que la fuente de datos se haya creado correctamente, también tiene la opción de especificar un cronograma para la ejecución de la fuente de datos.

Fuente de datos: ejecutar

En Amazon DataZone, la ejecución de una fuente de datos es una tarea que Amazon DataZone realiza para crear activos en los inventarios de los proyectos y también, opcionalmente, para publicar los activos del inventario del proyecto en el DataZone catálogo de Amazon. La ejecución de las fuentes de datos puede ser automática (se inicia cuando se crea inicialmente una fuente de datos), programada o manual. Los criterios de selección de datos te permiten ajustar los conjuntos de datos actuales y futuros que se incorporarán a los inventarios de los proyectos o al DataZone catálogo de Amazon, así como la frecuencia de las actualizaciones de los metadatos de esos activos de inventario o catálogo.

Objetivo de suscripción

En Amazon DataZone, los objetivos de suscripción te permiten acceder a los datos a los que te has suscrito en tus proyectos. Un destino de suscripción especifica la ubicación (por ejemplo, una base de datos o un esquema) y los permisos necesarios (por ejemplo, un IAM rol) que Amazon DataZone puede usar para establecer una conexión con los datos de origen y crear las concesiones necesarias para que los miembros del DataZone proyecto de Amazon puedan empezar a consultar los datos a los que se han suscrito.

Solicitud de suscripción

En Amazon DataZone, una solicitud de suscripción es un proceso que debe seguir un DataZone proyecto de Amazon para poder acceder a un activo específico. Las solicitudes de suscripción se pueden aprobar, rechazar, revocar o conceder.

activo

En Amazon DataZone, un activo es una entidad que presenta un único objeto de datos físico (por ejemplo, una tabla, un panel o un archivo) o un objeto de datos virtual (por ejemplo, una vista).

Asset type (Tipo de activo)

Los tipos de activos definen cómo se representan los activos en el DataZone catálogo de Amazon. Un tipo de activo define el esquema de un tipo de activo específico. Cuando se crean los activos, se validan con el esquema definido por su tipo de activo (de forma predeterminada, la última versión). Cuando se produce una actualización de activos, Amazon DataZone crea una nueva versión de activos y permite a DataZone los usuarios de Amazon operar con todas las versiones de activos.

Glosario empresarial

En Amazon DataZone, un glosario empresarial es un conjunto de términos empresariales que pueden estar asociados a los activos. Un glosario empresarial ayuda a garantizar que se utilicen los mismos términos y definiciones en toda la organización en sus distintas tareas de análisis de datos.

Los términos de un glosario empresarial se pueden añadir a los activos y columnas para clasificar o mejorar la identificación de esos atributos durante la búsqueda. El glosario se puede seleccionar como el tipo de valor de un campo en un formulario de metadatos que esté asociado a un activo. Cuando se selecciona un término concreto como valor para el campo del formulario de metadatos de un activo, los usuarios pueden buscar el término del glosario empresarial y encontrar los activos asociados.

Tipo de formulario de metadatos

Un tipo de formulario de metadatos es una plantilla que define los metadatos que se recopilan y guardan cuando los activos se crean como inventario o se publican en un DataZone dominio de Amazon. Los tipos de formularios de metadatos se pueden asociar a un activo de datos. Los tipos de formularios de metadatos ayudan a los administradores de dominios a definir los formularios de metadatos necesarios para ese dominio, como la información de conformidad, la información reglamentaria o las clasificaciones. Permite a los administradores de dominios personalizar metadatos adicionales para sus activos. Amazon DataZone tiene tipos de formularios de metadatos del sistema como asset-common-details-form -type, column-business-metadata-form -type glue-table-form-type, glue-view-form-type,, redshift-table-form-type redshift-view-form-type, s3- object-collection-form-type subscription-terms-form-type, y. suggestion-form-type

Formulario de metadatos

En Amazon DataZone, los formularios de metadatos definen los metadatos que se recopilan y guardan cuando los activos se crean como inventario o se publican en un DataZone dominio de Amazon. Un administrador de dominios crea las definiciones de los formularios de metadatos en el dominio del catálogo. La definición de un formulario de metadatos se compone de una o más definiciones de campo y admite los tipos de datos booleanos, de fecha, decimales, enteros, de cadena y de valores de campo del glosario empresarial.

Un administrador de dominio aplica un formulario de metadatos a los activos de su dominio añadiendo el formulario de metadatos a su dominio. A continuación, los editores de activos proporcionan los valores de campo opcionales y obligatorios en el formulario de metadatos.

Proyecto

En Amazon DataZone, los proyectos permiten a un grupo de usuarios colaborar en varios casos de uso empresarial que implican la creación de activos en los inventarios de los proyectos y, por lo tanto, hacer que todos los miembros del proyecto puedan descubrirlos y, a continuación, publicar, descubrir, suscribirse y consumir los activos del catálogo de Amazon. DataZone Los miembros del proyecto consumen activos del DataZone catálogo de Amazon y producen nuevos activos mediante uno o más flujos de trabajo analíticos. Los miembros del proyecto pueden ser propietarios, colaboradores, consumidores, administradores y espectadores.

Crear o eliminar proyectos

Crear o eliminar perfiles de proyectos Crear o eliminar perfiles de entorno Crear o eliminar entornos Añadir/eliminar miembros a los proyectos Búsqueda y descubrimiento Create/delete metadata forms/glossaries Cree fuentes de datos, ejecute e ingiera datos Publica datos Solicita suscripciones Apruebe o rechace las solicitudes de suscripción Lea los datos suscritos de Amazon Athena y Amazon Redshift
Propietario Los administrará un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio
Colaborador Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio No
Consumidor Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio

No

No

No

No

No

Visor Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio

No

No

No

No

No

No

Administrador Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio Será administrado por un miembro de la unidad de dominio

No

No

Los propietarios de los proyectos pueden añadir o eliminar a otros usuarios como propietarios o colaboradores y pueden modificar o eliminar proyectos. Se pueden definir otras restricciones para los colaboradores mediante políticas. Cuando un usuario crea un proyecto, se convierte en el primer propietario de ese proyecto.

Entorno

Un entorno es un conjunto de recursos configurados (por ejemplo, un bucket de Amazon S3, una AWS Glue base de datos o un grupo de trabajo de Amazon Athena), con un conjunto determinado de IAM directores (con permisos de colaborador asignados) que pueden operar con esos recursos. Cada entorno también puede tener usuarios principales que estén autorizados a acceder a los recursos y a los datos mediante la suscripción y la gestión logística. Los entornos están diseñados para almacenar enlaces procesables a AWS servicios, dispositivos externos IDEs y consolas. Los miembros del proyecto pueden acceder a servicios como la consola Amazon Athena y más a través de enlaces profundos configurados dentro de un entorno. SSOse puede reducir aún más el alcance de IAM los usuarios y usuarios del proyecto para utilizar entornos específicos o acceder a ellos.

Perfil del entorno

En Amazon DataZone, un perfil de entorno es una plantilla que se puede utilizar para crear entornos. Los perfiles de entorno se crean mediante planos.

Con los perfiles de entorno, los administradores de dominio pueden incluir los planos con parámetros preconfigurados y, a continuación, los trabajadores de datos pueden crear rápidamente cualquier número de entornos nuevos seleccionando los perfiles de entorno existentes y especificando los nombres de los nuevos entornos. Esto permite a los trabajadores de datos administrar sus proyectos y entornos de manera eficiente y, al mismo tiempo, garantizar que cumplen con las políticas de gobierno de datos aplicadas por los administradores de sus dominios.

Esquema

El plano con el que se crea el entorno define qué AWS herramientas y servicios (por ejemplo, AWS Glue Amazon Redshift) pueden utilizar los miembros del proyecto al que pertenece el entorno cuando trabajan con los activos del catálogo de Amazon DataZone .

En la versión actual de Amazon, se admiten DataZone los siguientes blueprints predeterminados:

  • Plano de lago de datos

  • Plano de almacén de datos

  • Plano de Amazon SageMaker

Perfil de usuario

Un perfil de usuario representa a DataZone los usuarios de Amazon. Amazon DataZone admite IAM funciones e SSO identidades para interactuar con la consola de DataZone administración de Amazon y el portal de datos para diferentes propósitos. Los administradores de dominios utilizan IAM funciones para realizar el trabajo administrativo inicial relacionado con el dominio en Amazon DataZone Management Console, incluida la creación de nuevos DataZone dominios de Amazon, la configuración de los tipos de formularios de metadatos y la implementación de políticas. Los trabajadores de datos utilizan sus identidades SSO corporativas a través del Centro de Identidad para iniciar sesión en el Amazon DataZone Data Portal y acceder a los proyectos en los que tienen membresías.

Perfil del grupo

Los perfiles de grupo representan grupos de DataZone usuarios de Amazon. Los grupos pueden crearse manualmente o asignarse a grupos de clientes empresariales de Active Directory. En Amazon DataZone, los grupos tienen dos propósitos. En primer lugar, un grupo puede asignarse a un equipo de usuarios del organigrama y, por lo tanto, reducir el trabajo administrativo del propietario de un DataZone proyecto de Amazon cuando hay nuevos empleados que se unen o abandonan un equipo. En segundo lugar, los administradores corporativos utilizan los grupos de Active Directory para gestionar y actualizar los estados de los usuarios, por lo que los administradores de DataZone dominios de Amazon pueden utilizar estas pertenencias a grupos para implementar las políticas de DataZone dominio de Amazon.

Administrador de dominios

En Amazon DataZone, el IAM principal que crea un DataZone dominio de Amazon es el administrador de dominio predeterminado de ese dominio. Los administradores de dominios de Amazon DataZone realizan funciones clave para el dominio, como la creación de dominios, la asignación de otros administradores de dominio, la adición de fuentes de datos y destinos de suscripción, la creación de proyectos y entornos y la asignación de propietarios de proyectos.

Publicador

En Amazon DataZone, los editores publican activos en el DataZone catálogo de Amazon y pueden editar los metadatos de los activos que publican. Si se les concede esta autorización, los editores pueden aprobar o rechazar las solicitudes de suscripción a los contenidos que publicaron en el DataZone catálogo de Amazon.

Suscriptor

En Amazon DataZone, un suscriptor es un DataZone proyecto de Amazon que quiere encontrar activos del DataZone catálogo de Amazon, acceder a ellos y consumirlos.

Cuenta de AWS owner

En Amazon DataZone, Cuenta de AWS los propietarios crean funciones, políticas y permisos en sus dominios Cuentas de AWS que permiten asociarlos Cuentas de AWS a los DataZone dominios de Amazon.