Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Recopilación de datos de orígenes personalizados
Amazon Security Lake puede recopilar registros y eventos de orígenes de terceros personalizados. Para cada origen personalizado, Security Lake gestiona lo siguiente:
-
Proporciona un prefijo único para el origen de su bucket de Amazon S3.
-
Crea un rol en AWS Identity and Access Management (IAM) que permite a una fuente personalizada escribir datos en el lago de datos. El límite de permisos de este rol lo establece una política AWS administrada llamada AmazonSecurityLakePermissionsBoundary.
-
Crea una AWS Lake Formation tabla para organizar los objetos que la fuente escribe en Security Lake.
-
Configura un AWS Glue rastreador para particionar los datos de origen. El rastreador rellena el campo AWS Glue Data Catalog con la tabla. También descubre automáticamente nuevos datos de origen y extrae las definiciones de los esquemas.
Para agregar un origen personalizado a Security Lake, debe cumplir con los siguientes requisitos:
-
Destino: la fuente personalizada debe poder escribir datos en Security Lake como un conjunto de objetos S3 con el prefijo asignado al origen. En el caso de las fuentes que contienen varias categorías de datos, debe entregar cada clase de evento única de Open Cybersecurity Schema Framework (OCSF)
como una fuente independiente. Security Lake crea una IAM función que permite a la fuente personalizada escribir en la ubicación especificada del bucket de S3. nota
Utilice la herramienta de OCSF validación
para comprobar si la fuente personalizada es compatible con OCSF Schema 1.1
. Formato: cada objeto de S3 que se recopile del origen personalizado debe tener el formato de un archivo de Apache Parquet.
Esquema: se debe aplicar la misma clase de OCSF evento a cada registro de un objeto con formato Parquet.
Prácticas recomendadas de ingestión de orígenes personalizados
Para facilitar el procesamiento y las consultas de datos de forma eficiente, recomendamos seguir estas prácticas recomendadas al añadir un origen personalizado a Security Lake:
- Particiones
-
Los objetos deben dividirse por ubicación de origen, Región de AWS y fecha. Cuenta de AWS
-
La ruta de datos de la partición tiene el siguiente formato
.bucket-name
/ext/custom-source-name
/region=region
/accountId=accountID
/eventDay=YYYYMMDD
Un ejemplo de partición es
aws-security-data-lake-
.us-west-2-lake-uid
/ext/custom-source-name
/region=us-west-2
/accountId=123456789012
/eventDay=20230428
/ -
Si ha añadido una versión de origen a una fuente personalizada, la ruta de datos de la partición se formatea como
bucket-name
/ext/custom-source-name
/custom-source-version
/region=us-west-2
/accountId=123456789012
/eventDay=20230428
/Un ejemplo de partición que incluye la versión fuente es
aws-security-data-lake-
.us-west-2-lake-uid
/ext/custom-source-name
/custom-source-version
/region=us-west-2
/accountId=123456789012
/eventDay=20230428
/
La siguiente lista describe los parámetros utilizados en la partición.
-
bucket-name
: nombre del bucket de Amazon S3 en el que Security Lake almacena los datos de origen personalizados. -
source-location
: prefijo para el origen personalizado de su bucket de S3. Security Lake almacena todos los objetos de S3 de un origen determinado con este prefijo, que es exclusivo de ese origen. -
source-version
— Versión fuente de la fuente personalizada. -
region
— Región de AWS en la que se escriben los datos. -
accountId
— Cuenta de AWS ID al que pertenecen los registros de la partición de origen. -
eventDay
: fecha en la que ocurrió el evento, formateada como una cadena de ocho caracteres (YYYYMMDD
).
-
- Tamaño y velocidad del objeto
-
Los archivos enviados a Security Lake deben enviarse en incrementos de entre 5 minutos y un día de evento. Los clientes pueden enviar archivos con una frecuencia superior a 5 minutos si los archivos tienen un tamaño superior a 256 MB. El requisito de objeto y tamaño es optimizar Security Lake para el rendimiento de las consultas. El incumplimiento de los requisitos de fuente personalizados puede afectar al rendimiento de Security Lake.
- Ajustes de Parquet
-
Security Lake es compatible con las versiones 1.x y 2.x de Parquet. El tamaño de la página de datos debe limitarse a 1 MB (sin comprimir). El tamaño del grupo de filas no debe ser superior a 256 MB (comprimido). Para la compresión dentro del objeto Parquet, se prefiere el estándar.
- Ordenar
-
Dentro de cada objeto con formato Parquet, los registros deben ordenarse por tiempo para reducir el costo de la consulta de datos.
Requisitos previos para añadir un origen personalizado
Al agregar una fuente personalizada, Security Lake crea una IAM función que permite a la fuente escribir datos en la ubicación correcta del lago de datos. El nombre del rol sigue el formatoAmazonSecurityLake-Provider-{name of the custom source}-{region}
, region
es decir, el formato Región de AWS en el que se agrega la fuente personalizada. Security Lake adjunta una política al rol que permite el acceso al lago de datos. Si ha cifrado el lago de datos con una AWS KMS clave administrada por el cliente, Security Lake también adjunta una política kms:Decrypt
y kms:GenerateDataKey
permisos al rol. El límite de permisos de este rol lo establece una política AWS administrada llamada AmazonSecurityLakePermissionsBoundary.
Temas
Verificar permisos
Antes de añadir un origen personalizado, verifique que tenga los permisos para realizar las siguientes acciones.
Para verificar sus permisos, utilice IAM esta opción para revisar las IAM políticas asociadas a su IAM identidad. A continuación, debe comparar la información de estas políticas con la siguiente lista de acciones que debe poder añadir como un origen personalizado.
-
glue:CreateCrawler
-
glue:CreateDatabase
-
glue:CreateTable
-
glue:StopCrawlerSchedule
-
iam:GetRole
-
iam:PutRolePolicy
-
iam:DeleteRolePolicy
-
iam:PassRole
-
lakeformation:RegisterResource
-
lakeformation:GrantPermissions
-
s3:ListBucket
-
s3:PutObject
Estas acciones le permiten recopilar registros y eventos de una fuente personalizada, enviarlos a la AWS Glue base de datos y tabla correctas y almacenarlos en Amazon S3.
Si utiliza una AWS KMS clave para cifrar su lago de datos en el servidor, también necesitará permiso para kms:CreateGrant
kms:DescribeKey
, y. kms:GenerateDataKey
importante
Si planea usar la consola de Security Lake para agregar una fuente personalizada, puede omitir el siguiente paso y continuar con. Adición de un origen personalizado La consola de Security Lake ofrece un proceso simplificado para empezar y crea todos los IAM roles necesarios o utiliza los roles existentes en su nombre.
Si planea usar Security Lake API o AWS CLI agregar una fuente personalizada, continúe con el siguiente paso: crear un IAM rol que permita el acceso de escritura a la ubicación del bucket de Security Lake.
Cree un IAM rol que permita el acceso de escritura a la ubicación del depósito de Security Lake (APIy AWS CLI solo paso)
Si utiliza Security Lake API o va AWS CLI a añadir una fuente personalizada, añada esta IAM función para conceder AWS Glue permiso para rastrear los datos de origen personalizados e identificar las particiones de los datos. Estas particiones son necesarias para organizar los datos y crear y actualizar tablas en el catálogo de datos.
Tras crear este IAM rol, necesitará el nombre de recurso de Amazon (ARN) del rol para añadir una fuente personalizada.
Debe adjuntar la política arn:aws:iam::aws:policy/service-role/AWSGlueServiceRole
AWS
gestionada.
Para conceder los permisos necesarios, también debe crear e integrar la siguiente política en línea en su función para poder leer los archivos de datos de la fuente personalizada y crear o actualizar las tablas del catálogo de datos. Rastreador de AWS Glue AWS Glue
{ "Version": "2012-10-17", "Statement": [ { "Sid": "S3WriteRead", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::{{bucketName}}/*" ] } ] }
Adjunte la siguiente política de confianza para permitir que un Cuenta de AWS usuario pueda asumir el rol en función del identificador externo:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
Si el bucket de S3 de la región en la que vas a añadir la fuente personalizada está cifrado con un paquete administrado por el cliente AWS KMS key, también debes adjuntar la siguiente política a la función y a tu política KMS clave:
{ "Effect": "Allow", "Action": [ "kms:GenerateDataKey" "kms:Decrypt" ], "Condition": { "StringLike": { "kms:EncryptionContext:aws:s3:arn": [ "arn:aws:s3:::{{
name of S3 bucket created by Security Lake
}" ] } }, "Resource": [ "{{ARN of customer managed key}}" ] }
Adición de un origen personalizado
Tras crear el IAM rol para invocar el AWS Glue rastreador, sigue estos pasos para añadir una fuente personalizada en Security Lake.
Mantener los datos de origen personalizados actualizados en AWS Glue
Tras añadir una fuente personalizada en Security Lake, Security Lake crea un AWS Glue rastreador. El rastreador se conecta a su origen personalizado, determina las estructuras de datos y rellena el catálogo de datos de AWS Glue con tablas.
Recomendamos ejecutar el rastreador manualmente para mantener actualizado el esquema de origen personalizado y mantener la funcionalidad de consulta en Athena y otros servicios de consultas. En concreto, debe ejecutar el rastreador si se produce alguno de los siguientes cambios en el conjunto de datos de entrada de un origen personalizado:
El conjunto de datos tiene una o más columnas nuevas de nivel superior.
El conjunto de datos tiene uno o más campos nuevos en una columna con un tipo de datos
struct
.
Para obtener instrucciones sobre cómo ejecutar un rastreador, consulte Programar un AWS Glue rastreador en la AWS Glue Guía para desarrolladores.
Security Lake no puede eliminar ni actualizar los rastreadores existentes en su cuenta. Si elimina un origen personalizado, te recomendamos eliminar el rastreador asociado si piensa crear un origen personalizado con el mismo nombre en el futuro.
Eliminación de un origen personalizado
Elimine un origen personalizado para dejar de enviar datos desde el origen a Security Lake.