Actualización de los permisos de datos AWS Glue al modelo AWS Lake Formation - AWS Lake Formation

Actualización de los permisos de datos AWS Glue al modelo AWS Lake Formation

Los permisos AWS Lake Formation permiten un control de acceso específico para los datos de su lago de datos. Puede utilizar el modelo de permisos de Lake Formation para administrar sus objetos AWS Glue Data Catalog y ubicaciones de datos existentes en Amazon Simple Storage Service (Amazon S3).

El modelo de permisos de Lake Formation utiliza permisos básicos de AWS Identity and Access Management (IAM) para el acceso al servicio de API. Lake Formation usa la funcionalidad Filtrado de datos y seguridad de celda en Lake Formation para restringir el acceso a las tablas en los niveles de columna, fila y celda para los usuarios y sus aplicaciones. En términos comparativos, el modelo AWS Glue concede el acceso a los datos mediante políticas de IAM basadas en identidad y recursos.

Para hacer el cambio, siga los pasos de esta guía.

Para obtener más información, consulte Descripción general de los permisos de Lake Formation .

Acerca de los permisos predeterminados

Para mantener la compatibilidad con AWS Glue, de forma predeterminada, AWS Lake Formation concede el permiso Super al grupo IAMAllowedPrincipals en todos los recursos existentes del Catálogo de datos AWS Glue, y concede el permiso Super en los nuevos recursos del Catálogo de datos si está activada la configuración de Utilizar solo control de acceso de IAM. Esto hace que el acceso a los recursos del Catálogo de datos y a las ubicaciones de Amazon S3 esté controlado únicamente por las políticas de AWS Identity and Access Management (IAM). El grupo IAMAllowedPrincipals incluye a todos los Usuarios y roles de IAM a los que sus políticas de IAM permiten acceder a los objetos de su Catálogo de datos. El permiso Super permite a una entidad principal efectuar todas las operaciones compatibles con Lake Formation en la base de datos o tabla sobre la que se concede.

Puede empezar a utilizar Lake Formation para administrar el acceso a sus datos registrando las ubicaciones de los recursos existentes del Catálogo de datos en Lake Formation o utilizando el modo de acceso híbrido. Cuando registre la ubicación de Amazon S3 en modo de acceso híbrido, puede habilitar los permisos de Lake Formation optando por entidades principales para las bases de datos y las tablas bajo esa ubicación.

Para facilitar la transición de los permisos del lago de datos de un modelo IAM y Amazon S3 a los permisos de Lake Formation, le recomendamos que utilice el modo de acceso híbrido para el Catálogo de datos. Con el modo de acceso híbrido, dispone de una vía incremental en la que puede habilitar los permisos de Lake Formation para un conjunto específico de usuarios sin interrumpir a otros usuarios o cargas de trabajo existentes.

Para obtener más información, consulte Modo de acceso híbrido.

Inhabilite la configuración predeterminada del Catálogo de datos para mover todos los usuarios existentes de una tabla a Lake Formation en un solo paso.

Para empezar a utilizar los permisos de Lake Formation con sus bases de datos y tablas existentes del Catálogo de datos AWS Glue, debe hacer lo siguiente:

  1. Determine los permisos IAM existentes de sus usuarios para cada base de datos y tabla.

  2. Reproduzca estos permisos en Lake Formation.

  3. Para cada ubicación de Amazon S3 que contenga datos:

    1. Revoque el permiso Super del grupo IAMAllowedPrincipals en cada recurso del Catálogo de datos que haga referencia a esa ubicación.

    2. Registre la ubicación en Lake Formation.

  4. Elimine las políticas de IAM de control de acceso preciso existentes.

importante

Para añadir nuevos usuarios mientras está en el proceso de transición de su Catálogo de datos, debe configurar permisos AWS Glue granulares en IAM como antes. También debe replicar esos permisos en Lake Formation como se describe en esta sección. Si los nuevos usuarios disponen de las políticas de IAM básicas descritas en esta guía, pueden enumerar las bases de datos o tablas que tengan concedido el permiso Super a IAMAllowedPrincipals. También pueden ver los metadatos de esos recursos.

Siga los pasos de esta sección para actualizar al modelo de permisos Lake Formation.

Paso 1: Enumerar los permisos existentes de usuarios y roles

Para empezar a utilizar los permisos AWS Lake Formation con sus bases de datos y tablas AWS Glue existentes, primero debe determinar los permisos existentes de sus usuarios.

importante

Antes de empezar, asegúrese de haber completado las tareas de Introducción a Lake Formation.

Uso de la operación de la API

Utilice la operación de la API ListPoliciesGrantingServiceAccess de AWS Identity and Access Management (IAM) para determinar las políticas de IAM vinculadas a cada entidad principal (usuario o rol). A partir de las políticas que aparecen en los resultados, puede determinar los permisos IAM que se conceden a la entidad principal. Debe invocar la API para cada entidad principal por separado.

El siguiente ejemplo de AWS CLI devuelve las políticas adjuntas al usuario glue_user1.

aws iam list-policies-granting-service-access --arn arn:aws:iam::111122223333:user/glue_user1 --service-namespaces glue

El comando devuelve resultados similares al siguiente:

{ "PoliciesGrantingServiceAccess": [ { "ServiceNamespace": "glue", "Policies": [ { "PolicyType": "INLINE", "PolicyName": "GlueUserBasic", "EntityName": "glue_user1", "EntityType": "USER" }, { "PolicyType": "MANAGED", "PolicyArn": "arn:aws:iam::aws:policy/AmazonAthenaFullAccess", "PolicyName": "AmazonAthenaFullAccess" } ] } ], "IsTruncated": false }

Uso de la AWS Management Console

También puede ver esta información en la consola de AWS Identity and Access Management (IAM), en la pestaña Access Advisor de la página de Resumen del usuario o rol:

  1. Abra la consola de IAM en https://console.aws.amazon.com/iam/.

  2. En el panel de navegación, seleccione Users (Usuarios) o Roles.

  3. Elija un nombre de la lista para abrir su página Resumen y elija la pestaña Access Advisor.

  4. Inspeccione cada una de las políticas para determinar la combinación de bases de datos, tablas y acciones para las que cada usuario tiene permisos.

    Recuerde inspeccionar los roles además de los usuarios durante este proceso porque sus trabajos de tratamiento de datos podrían estar asumiendo roles para acceder a los datos.

Uso de AWS CloudTrail

Otra forma de determinar los permisos existentes es buscar en AWS CloudTrail las llamadas a la API AWS Glue en las que el campo additionaleventdata de los registros contenga una entrada insufficientLakeFormationPermissions. Esta entrada enumera la base de datos y la tabla sobre las que el usuario necesita permisos de Lake Formation para llevar a cabo la misma acción.

Se trata de registros de acceso a datos, por lo que no se garantiza que generen una lista completa de los usuarios y sus permisos. Recomendamos elegir un intervalo de tiempo amplio para capturar la mayoría de los patrones de acceso a los datos de sus usuarios, por ejemplo, varias semanas o meses.

Para obtener más información, consulte Visualizadción de eventos con el historial de eventos de CloudTrail en la Guía del usuario de AWS CloudTrail.

A continuación, puede configurar los permisos de Lake Formation para que coincidan con los AWS Glue permisos. Consulte Paso 2: Configurar permisos equivalentes de Lake Formation.

Paso 2: Configurar permisos equivalentes de Lake Formation

Utilizando la información recopilada en AWS Glue, conceda permisos AWS Lake Formation para que coincidan con los permisos Paso 1: Enumerar los permisos existentes de usuarios y roles. Utilice cualquiera de los siguientes métodos para las concesiones:

Para obtener más información, consulte Descripción general de los permisos de Lake Formation .

Después de configurar los permisos de Lake Formation, continúe con Paso 3: Conceder a los usuarios permisos de IAM para usar Lake Formation.

Paso 3: Conceder a los usuarios permisos de IAM para usar Lake Formation

Para usar el modelo de permisos AWS Lake Formation, las entidades principales deben tener permisos de AWS Identity and Access Management (IAM) sobre las API de Lake Formation.

Cree la siguiente política en IAM y vincúlela a cada usuario que necesite acceder a su lago de datos. Llame a la política LakeFormationDataAccess.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "LakeFormationDataAccess", "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": "*" } ] }

A continuación, actualice los permisos de Lake Formation una ubicación de datos cada vez. Consulte Paso 4: Cambiar sus almacenes de datos al modelo de permisos de Lake Formation.

Paso 4: Cambiar sus almacenes de datos al modelo de permisos de Lake Formation

Actualice los permisos de Lake Formation una ubicación de datos cada vez. Para ello, repita toda esta sección hasta registrar todas las rutas de Amazon Simple Storage Service (Amazon S3) a las que hace referencia el Catálogo de datos.

Verificar los permisos de Lake Formation

Antes de registrar una ubicación, complete una etapa de verificación para asegurarse de que las entidades principales correctas tienen los permisos de Lake Formation necesarios y de que no se conceden permisos de Lake Formation a entidades principales que no deberían tenerlos. Mediante la operación de la API GetEffectivePermissionsForPath de Lake Formation, identifique los recursos del Catálogo de datos que hacen referencia a la ubicación de Amazon S3, junto con las entidades principales que tienen permisos sobre dichos recursos.

El siguiente ejemplo de AWS CLI devuelve las bases de datos y las tablas del Catálogo de datos que hacen referencia al bucket de Amazon S3 products.

aws lakeformation get-effective-permissions-for-path --resource-arn arn:aws:s3:::products --profile datalake_admin

Observe la opción profile. Se recomienda ejecutar el comando como administrador de un lago de datos.

Lo siguiente es un extracto de los resultados obtenidos.

{ "PermissionsWithGrantOption": [ "SELECT" ], "Resource": { "TableWithColumns": { "Name": "inventory_product", "ColumnWildcard": {}, "DatabaseName": "inventory" } }, "Permissions": [ "SELECT" ], "Principal": { "DataLakePrincipalIdentifier": "arn:aws:iam::111122223333:user/datalake_user1", "DataLakePrincipalType": "IAM_USER" } },...
importante

Si su Catálogo de datos AWS Glue está cifrado, GetEffectivePermissionsForPath devuelve solo las bases de datos y tablas que se crearon o modificaron después de la disponibilidad general de Lake Formation.

Proteja los recursos del Catálogo de datos existentes

A continuación, revoque el permiso Super de cada tabla IAMAllowedPrincipals y base de datos que haya identificado para la ubicación.

aviso

Si cuenta con una automatización que crea bases de datos y tablas en el Catálogo de datos, los pasos siguientes podrían provocar un error en los trabajos de automatización y extracción, transformación y carga (ETL) posteriores. Continúe solo después de haber modificado sus procesos existentes o de haber concedido permisos explícitos de Lake Formation a las entidades principales requeridas. Para obtener información sobre los permisos de Lake Formation, consulte Referencia de permisos de Lake Formation.

Para revocar Super de IAMAllowedPrincipals sobre una tabla
  1. Abra la consola de AWS Lake Formation en https://console.aws.amazon.com/lakeformation/. Inicie sesión como administrador del lago de datos.

  2. En el panel de navegación, elija Tablas.

  3. En la página Tablas, seleccione el botón que hay junto a la tabla que desee.

  4. En el menú Acciones, seleccione Restaurar.

  5. En el cuadro de diálogo Revocar permisos, en la lista Usuarios y roles de IAM, desplácese hacia abajo hasta el encabezado Grupo y seleccione IAMAllowedPrincipals.

  6. En Permisos de tabla, asegúrese de que la opción Super esté seleccionada y, a continuación, elija Revocar.

Para revocar Super desde IAMAllowedPrincipals sobre una base de datos
  1. Abra la consola de AWS Lake Formation en https://console.aws.amazon.com/lakeformation/. Inicie sesión como administrador del lago de datos.

  2. En el panel de navegación, seleccione Databases (Bases de datos).

  3. En la página Bases de datos, seleccione el botón que hay junto a la base de datos que desee.

  4. En el menú Actions, seleccione Editar.

  5. En la página Editar base de datos, desactive Utilizar solo el control de acceso IAM para las nuevas tablas de esta base de datos y, a continuación, seleccione Guardar.

  6. De vuelta en la página Bases de datos, asegúrese de que la base de datos sigue seleccionada y, a continuación, en el menú Acciones, elija Revocar.

  7. En el cuadro de diálogo Revocar permisos, en la lista Usuarios y roles de IAM, desplácese hacia abajo hasta el encabezado Grupo y seleccione IAMAllowedPrincipals.

  8. En Permisos de base de datos, asegúrese de que la opción Super está seleccionada y, a continuación, elija Revocar.

Active los permisos de Lake Formation para su ubicación de Amazon S3

A continuación, registre la ubicación de Amazon S3 con Lake Formation. Para ello, puede utilizar el proceso descrito en Añadir una ubicación de Amazon S3 a su lago de datos. O bien, utilice la operación de la API RegisterResource, descrita en API de expedición de credenciales.

nota

Si se registra una ubicación principal, no es necesario registrar las ubicaciones secundarias.

Tras finalizar estos pasos y comprobar que sus usuarios pueden acceder a sus datos, habrá actualizado con éxito los permisos de Lake Formation. Continúe en el paso siguiente, Paso 5: Proteger los nuevos recursos del Catálogo de datos.

Paso 5: Proteger los nuevos recursos del Catálogo de datos

A continuación, proteja todos los nuevos recursos del Catálogo de datos cambiando la configuración predeterminada del Catálogo de datos. Desactive las opciones para utilizar solo el control de acceso AWS Identity and Access Management de (IAM) para las nuevas bases de datos y tablas.

aviso

Si cuenta con una automatización que crea bases de datos y tablas en el Catálogo de datos, los pasos siguientes podrían provocar un error en los trabajos de automatización y extracción, transformación y carga (ETL) posteriores. Continúe solo después de haber modificado sus procesos existentes o de haber concedido permisos explícitos de Lake Formation a las entidades principales requeridas. Para obtener información sobre los permisos de Lake Formation, consulte Referencia de permisos de Lake Formation.

Para cambiar la configuración predeterminada del Catálogo de datos
  1. Abra la consola de AWS Lake Formation en https://console.aws.amazon.com/lakeformation/. Inicie sesión como usuario administrativo de IAM (el usuario Administrator u otro usuario con la política administrada AdministratorAccess de AWS).

  2. En el panel de navegación, seleccione Configuración.

  3. En la página Configuración del Catálogo de datos, desactive ambas casillas de verificación y, a continuación, seleccione Guardar.

El siguiente paso es conceder a los usuarios acceso a bases de datos o tablas adicionales en el futuro. Consulte Paso 6: Proporcionar a los usuarios una nueva política de IAM para el futuro acceso al lago de datos.

Paso 6: Proporcionar a los usuarios una nueva política de IAM para el futuro acceso al lago de datos

Para conceder a sus usuarios acceso a bases de datos o tablas adicionales del Catálogo de datos en el futuro, debe darles la política insertada básica AWS Identity and Access Management (IAM) que se indica a continuación. Llame a la política GlueFullReadAccess.

importante

Si adjunta esta política a un usuario antes de revocar Super desde IAMAllowedPrincipals en cada base de datos y tabla de su Catálogo de datos, ese usuario podrá ver todos los metadatos de cualquier recurso sobre el que se conceda Super a IAMAllowedPrincipals.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "GlueFullReadAccess", "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess", "glue:GetTable", "glue:GetTables", "glue:SearchTables", "glue:GetDatabase", "glue:GetDatabases", "glue:GetPartitions" ], "Resource": "*" } ] }
nota

Las políticas integradas designadas en este paso y en los anteriores contienen permisos IAM mínimos. Para conocer las políticas sugeridas para los administradores del lago de datos, los analistas de datos y otros personajes, consulte Personas de Lake Formation y referencia de permisos IAM.

A continuación, proceda a Paso 7: Limpiar las políticas de IAM existentes.

Paso 7: Limpiar las políticas de IAM existentes

Después de configurar los permisos de AWS Lake Formation y de crear y adjuntar las políticas básicas de control de acceso de AWS Identity and Access Management (IAM), complete el siguiente paso final:

Al hacerlo, se asegura de que esas entidades principales ya no tengan acceso directo a los datos de Amazon Simple Storage Service (Amazon S3). A continuación, puede administrar el acceso al lago de datos para esas entidades principales totalmente a través de Lake Formation.