Conector de Amazon Athena para IBM Db2 AS/400 (Db2 iSeries) - Amazon Athena

Conector de Amazon Athena para IBM Db2 AS/400 (Db2 iSeries)

El conector de Amazon Athena para Db2 AS/400 permite que Amazon Athena ejecute consultas SQL en las bases de datos de IBM Db2 AS/400 (Db2 iSeries) mediante JDBC.

Este conector no se puede registrar en el Catálogo de datos de Glue como catálogo federado. Este conector no es compatible con los controles de acceso a datos definidos en Lake Formation a nivel de catálogo, base de datos, tabla, columna, fila y etiqueta. Este conector utiliza Conexiones de Glue para centralizar las propiedades de configuración en Glue.

Requisitos previos

Limitaciones

  • Las operaciones de escritura de DDL no son compatibles.

  • En una configuración de multiplexor, el bucket de vertido y el prefijo se comparten en todas las instancias de base de datos.

  • Cualquier límite de Lambda relevante. Para obtener más información, consulte Cuotas de Lambda en la Guía para desarrolladores de AWS Lambda.

  • Los tipos de datos de marca de fecha y hora en condiciones de filtro se deben convertir a los tipos de datos adecuados.

Términos

Los siguientes términos hacen referencia al conector para Db2 AS/400.

  • Instancia de base de datos: cualquier instancia de base de datos implementada en las instalaciones, en Amazon EC2 o en Amazon RDS.

  • Controlador: un controlador de Lambda que accede a la instancia de base de datos. Un controlador puede ser para los metadatos o para los registros de datos.

  • Controlador de metadatos: un controlador de Lambda que recupera los metadatos de la instancia de base de datos.

  • Controlador de registros: un controlador de Lambda que recupera registros de datos de la instancia de base de datos.

  • Controlador compuesto: un controlador de Lambda que recupera tanto los metadatos como los registros de datos de la instancia de base de datos.

  • Propiedad o parámetro: una propiedad de base de datos que usan los controladores para extraer información de la base de datos. Estas propiedades se configuran como variables de entorno de Lambda.

  • Cadena de conexión: una cadena de texto que se usa para establecer una conexión con una instancia de base de datos.

  • Catálogo: un catálogo ajeno a AWS Glue registrado en Athena que es un prefijo obligatorio para la propiedad connection_string.

  • Controlador de multiplexación: un controlador de Lambda que puede aceptar y usar varias conexiones a bases de datos.

Parámetros

Utilice los parámetros de esta sección para configurar el conector Db2 AS/400.

nota

Los conectores de orígenes de datos de Athena creados a partir del 3 de diciembre de 2024 utilizan conexiones de AWS Glue.

Los nombres y definiciones de los parámetros que se indican a continuación corresponden a conectores de orígenes de datos de Athena creados antes del 3 de diciembre de 2024. Estos pueden variar respecto a las propiedades de conexión de AWS Glue correspondientes. A partir del 3 de diciembre de 2024, utilice los parámetros que se indican a continuación únicamente al implementar manualmente una versión anterior de un conector de origen de datos de Athena.

Cadena de conexión

Use una cadena de conexión JDBC con el siguiente formato para conectarse a una instancia de base de datos.

db2as400://${jdbc_connection_string}

Uso de un controlador de multiplexación

Puede usar un multiplexor para conectarse a varias instancias de base de datos con una sola función de Lambda. Las solicitudes se enrutan por nombre de catálogo. Use las siguientes clases en Lambda.

Controlador Clase
Controlador compuesto Db2MuxCompositeHandler
Controlador de metadatos Db2MuxMetadataHandler
Controlador de registros Db2MuxRecordHandler

Parámetros del controlador de multiplexación

Parámetro Descripción
$catalog_connection_string Obligatorio. Una cadena de conexión de instancia de base de datos. Agregue el prefijo a la variable de entorno con el nombre del catálogo usado en Athena. Por ejemplo, si el catálogo registrado en Athena es mydb2as400catalog, el nombre de la variable de entorno será mydb2as400catalog_connection_string.
default Obligatorio. La cadena de conexión predeterminada. Esta cadena se usa cuando el catálogo es lambda:${AWS_LAMBDA_FUNCTION_NAME}.

Las siguientes propiedades de ejemplo son para una función de Lambda de Db2 MUX que admite dos instancias de base de datos: db2as4001 (la predeterminada) y db2as4002.

Propiedad Valor
default db2as400://jdbc:as400://<ip_address>;<properties>;:${<secret name>};
db2as400_catalog1_connection_string db2as400://jdbc:as400://db2as4001.hostname/:${secret1_name}
db2as400_catalog2_connection_string db2as400://jdbc:as400://db2as4002.hostname/:${secret2_name}
db2as400_catalog3_connection_string db2as400://jdbc:as400://<ip_address>;user=<username>;password=<password>;<properties>;

Proporcionar credenciales

Para proporcionar un nombre de usuario y una contraseña para la base de datos en la cadena de conexión JDBC, puede usar las propiedades de la cadena de conexión o AWS Secrets Manager.

  • Cadena de conexión: se pueden especificar un nombre de usuario y una contraseña como propiedades en la cadena de conexión JDBC.

    importante

    Como práctica recomendada en materia de seguridad, no utilice credenciales codificadas en las variables de entorno ni en las cadenas de conexión. Para obtener información sobre cómo transferir los secretos codificados a AWS Secrets Manager, consulte Mover secretos codificados a AWS Secrets Manager en la Guía del usuario de AWS Secrets Manager.

  • AWS Secrets Manager: para utilizar la característica Consulta federada de Athena con AWS Secrets Manager, la VPC conectada a la función de Lambda debe tener acceso a Internet o un punto de conexión de VPC para conectarse a Secrets Manager.

    Puede poner el nombre de un secreto en AWS Secrets Manager, en la cadena de conexión JDBC. El conector reemplaza el nombre del secreto por los valores username y password de Secrets Manager.

    Para las instancias de bases de datos de Amazon RDS, esta compatibilidad está estrechamente integrada. Si usa Amazon RDS, le recomendamos encarecidamente que use AWS Secrets Manager y la rotación de credenciales. Si la base de datos no usa Amazon RDS, guarde las credenciales como archivos JSON con el siguiente formato:

    {"username": "${username}", "password": "${password}"}
Ejemplo de cadena de conexión con nombre secreto

La siguiente cadena tiene el nombre secreto ${secret_name}.

db2as400://jdbc:as400://<ip_address>;<properties>;:${<secret_name>};

El conector usa el nombre secreto para recuperar los secretos y proporcionar el nombre de usuario y la contraseña, como en el siguiente ejemplo.

db2as400://jdbc:as400://<ip_address>;user=<username>;password=<password>;<properties>;

Uso de un controlador de conexión única

Puede usar los siguientes controladores de registros y metadatos de conexión única para conectarse a una sola instancia de Db2 AS/400.

Tipo de controlador Clase
Controlador compuesto Db2CompositeHandler
Controlador de metadatos Db2MetadataHandler
Controlador de registros Db2RecordHandler

Parámetros de controlador de conexión única

Parámetro Descripción
default Obligatorio. La cadena de conexión predeterminada.

Los controladores de conexión única admiten una instancia de base de datos y deben proporcionar un parámetro de cadena de conexión default. Se omiten todas las demás cadenas de conexión.

La siguiente propiedad de ejemplo es para una sola instancia de Db2 AS/400 compatible con una función de Lambda.

Propiedad Valor
default db2as400://jdbc:as400://<ip_address>;<properties>;:${<secret_name>};

Parámetros de vertido

El SDK de Lambda puede verter datos en Amazon S3. Todas las instancias de bases de datos a las que se accede mediante la misma función de Lambda se vierten en la misma ubicación.

Parámetro Descripción
spill_bucket Obligatorio. Nombre del bucket de vertido.
spill_prefix Obligatorio. Prefijo de la clave del bucket de vertido.
spill_put_request_headers (Opcional) Un mapa codificado en JSON de encabezados y valores de solicitudes para la solicitud putObject de Amazon S3 que se usa para el vertido (por ejemplo, {"x-amz-server-side-encryption" : "AES256"}). Para ver otros encabezados posibles, consulte PutObject en la referencia de la API de Amazon Simple Storage Service.

Compatibilidad con tipos de datos

En la siguiente tabla, se muestran los tipos de datos correspondientes para JDBC y Apache Arrow.

Db2 AS/400 Arrow
CHAR VARCHAR
VARCHAR VARCHAR
FECHA DATEDAY
HORA VARCHAR
MARCA DE TIEMPO DATEMILLI
DATETIME DATEMILLI
BOOLEAN BOOL
SMALLINT SMALLINT
INTEGER INT
BIGINT BIGINT
DECIMAL DECIMAL
REAL FLOAT8
DOBLE FLOAT8
DECFLOAT FLOAT8

Particiones y divisiones

Una partición se representa mediante una o varias columnas de partición de tipo varchar. El conector para Db2 AS/400 crea particiones mediante los siguientes esquemas de organización.

  • Distribución por hash

  • Partición por intervalo

  • Organización por dimensiones

El conector recupera detalles de la partición, como son el número de particiones y el nombre de la columna, de una o varias tablas de metadatos de Db2 AS/400. Las divisiones se crean en función del número de particiones identificadas.

Rendimiento

Para mejorar el rendimiento, use la inserción de predicados para realizar consultas desde Athena, como en los siguientes ejemplos.

SELECT * FROM "lambda:<LAMBDA_NAME>"."<SCHEMA_NAME>"."<TABLE_NAME>" WHERE integercol = 2147483647
SELECT * FROM "lambda: <LAMBDA_NAME>"."<SCHEMA_NAME>"."<TABLE_NAME>" WHERE timestampcol >= TIMESTAMP '2018-03-25 07:30:58.878'

Consultas de acceso directo

El conector para Db2 AS/400 admite consultas de acceso directo. Las consultas de acceso directo utilizan una función de tabla para enviar la consulta completa al origen de datos para su ejecución.

Para utilizar consultas de acceso directo con Db2 AS/400, puede utilizar la siguiente sintaxis:

SELECT * FROM TABLE( system.query( query => 'query string' ))

El siguiente ejemplo de consulta envía una consulta a un origen de datos de Db2 AS/400. La consulta selecciona todas las columnas de la tabla customer y limita los resultados a 10.

SELECT * FROM TABLE( system.query( query => 'SELECT * FROM customer LIMIT 10' ))

Información sobre licencias

Al usar este conector, reconoce la inclusión de componentes de terceros, cuya lista se puede encontrar en el archivo pom.xml para este conector y acepta los términos de las licencias de terceros correspondientes que se proporcionan en el archivo LICENSE.txt de GitHub.com.

Recursos adicionales

Para obtener la información más reciente sobre la versión del controlador JDBC, consulte el archivo pom.xml para el conector para Db2 AS/400 en GitHub.com.

Para obtener más información acerca de este conector, consulte el sitio correspondiente en GitHub.com.