Conector para PostgreSQL de Amazon Athena - Amazon Athena

Conector para PostgreSQL de Amazon Athena

El conector de PostgreSQL de Amazon Athena permite a Athena acceder a las bases de datos de PostgreSQL.

Requisitos previos

Limitaciones

  • Las operaciones de escritura de DDL no son compatibles.

  • En una configuración de multiplexor, el bucket de vertido y el prefijo se comparten en todas las instancias de base de datos.

  • Cualquier límite de Lambda relevante. Para obtener más información, consulte Cuotas de Lambda en la Guía para desarrolladores de AWS Lambda.

  • Al igual que PostgreSQL, Athena considera que los espacios finales de los tipos CHAR de PostgreSQL son semánticamente insignificantes a efectos de longitud y comparación. Tenga en cuenta que esto solo se aplica a los tipos CHAR, pero no a los tipos VARCHAR. Athena ignora los espacios finales del tipo CHAR, pero los considera importantes para el tipo VARCHAR.

  • Cuando utiliza el tipo de datos de cadena de caracteres citext que no distingue entre mayúsculas y minúsculas, PostgreSQL utiliza una comparación de datos que no distingue entre mayúsculas y minúsculas que es diferente de la de Athena. Esta diferencia crea una discrepancia en los datos durante las operaciones deJOIN en SQL. Para solucionar este problema, utilice la característica de consultas de acceso directo del conector PostgreSQL. Para obtener más información, consulte la sección de consultas de acceso directo más adelante en este tema.

Términos

Los siguientes términos hacen referencia al conector de PostgreSQL.

  • Instancia de base de datos: cualquier instancia de base de datos implementada en las instalaciones, en Amazon EC2 o en Amazon RDS.

  • Controlador: un controlador de Lambda que accede a la instancia de base de datos. Un controlador puede ser para los metadatos o para los registros de datos.

  • Controlador de metadatos: un controlador de Lambda que recupera los metadatos de la instancia de base de datos.

  • Controlador de registros: un controlador de Lambda que recupera registros de datos de la instancia de base de datos.

  • Controlador compuesto: un controlador de Lambda que recupera tanto los metadatos como los registros de datos de la instancia de base de datos.

  • Propiedad o parámetro: una propiedad de base de datos que usan los controladores para extraer información de la base de datos. Estas propiedades se configuran como variables de entorno de Lambda.

  • Cadena de conexión: una cadena de texto que se usa para establecer una conexión con una instancia de base de datos.

  • Catálogo: un catálogo ajeno a AWS Glue registrado en Athena que es un prefijo obligatorio para la propiedad connection_string.

  • Controlador de multiplexación: un controlador de Lambda que puede aceptar y usar varias conexiones a bases de datos.

Parámetros

Use las variables de entorno de Lambda de esta sección para configurar el conector de PostgreSQL.

Cadena de conexión

Use una cadena de conexión JDBC con el siguiente formato para conectarse a una instancia de base de datos.

postgres://${jdbc_connection_string}

Uso de un controlador de multiplexación

Puede usar un multiplexor para conectarse a varias instancias de base de datos con una sola función de Lambda. Las solicitudes se enrutan por nombre de catálogo. Use las siguientes clases en Lambda.

Controlador Clase
Controlador compuesto PostGreSqlMuxCompositeHandler
Controlador de metadatos PostGreSqlMuxMetadataHandler
Controlador de registros PostGreSqlMuxRecordHandler

Parámetros del controlador de multiplexación

Parámetro Descripción
$catalog_connection_string Obligatorio. Una cadena de conexión de instancia de base de datos. Agregue el prefijo a la variable de entorno con el nombre del catálogo usado en Athena. Por ejemplo, si el catálogo registrado en Athena es mypostgrescatalog, el nombre de la variable de entorno será mypostgrescatalog_connection_string.
default Obligatorio. La cadena de conexión predeterminada. Esta cadena se usa cuando el catálogo es lambda:${AWS_LAMBDA_FUNCTION_NAME}.

Las siguientes propiedades de ejemplo son para una función de Lambda de PostgreSQL MUX que admite dos instancias de base de datos: postgres1 (la predeterminada) y postgres2.

Propiedad Valor
default postgres://jdbc:postgresql://postgres1.host:5432/default?${Test/RDS/PostGres1}
postgres_catalog1_connection_string postgres://jdbc:postgresql://postgres1.host:5432/default?${Test/RDS/PostGres1}
postgres_catalog2_connection_string postgres://jdbc:postgresql://postgres2.host:5432/default?user=sample&password=sample

Proporcionar credenciales

Para proporcionar un nombre de usuario y una contraseña para la base de datos en la cadena de conexión JDBC, puede usar las propiedades de la cadena de conexión o AWS Secrets Manager.

  • Cadena de conexión: se pueden especificar un nombre de usuario y una contraseña como propiedades en la cadena de conexión JDBC.

    importante

    Como práctica recomendada en materia de seguridad, no utilice credenciales codificadas en las variables de entorno ni en las cadenas de conexión. Para obtener información sobre cómo transferir los secretos codificados a AWS Secrets Manager, consulte Mover secretos codificados a AWS Secrets Manager en la Guía del usuario de AWS Secrets Manager.

  • AWS Secrets Manager: para utilizar la característica Consulta federada de Athena con AWS Secrets Manager, la VPC conectada a la función de Lambda debe tener acceso a Internet o un punto de conexión de VPC para conectarse a Secrets Manager.

    Puede poner el nombre de un secreto en AWS Secrets Manager, en la cadena de conexión JDBC. El conector reemplaza el nombre del secreto por los valores username y password de Secrets Manager.

    Para las instancias de bases de datos de Amazon RDS, esta compatibilidad está estrechamente integrada. Si usa Amazon RDS, le recomendamos encarecidamente que use AWS Secrets Manager y la rotación de credenciales. Si la base de datos no usa Amazon RDS, guarde las credenciales como archivos JSON con el siguiente formato:

    {"username": "${username}", "password": "${password}"}
Ejemplo de cadena de conexión con nombre secreto

La siguiente cadena tiene el nombre secreto ${Test/RDS/PostGres1}.

postgres://jdbc:postgresql://postgres1.host:5432/default?...&${Test/RDS/PostGres1}&...

El conector usa el nombre secreto para recuperar los secretos y proporcionar el nombre de usuario y la contraseña, como en el siguiente ejemplo.

postgres://jdbc:postgresql://postgres1.host:5432/default?...&user=sample2&password=sample2&...

Actualmente, el conector de PostgreSQL reconoce las propiedades user y password de JDBC.

Habilitar SSL

Para admitir SSL en su conexión PostgreSQL, agregue lo siguiente a la cadena de conexión:

&sslmode=verify-ca&sslfactory=org.postgresql.ssl.DefaultJavaSSLFactory
Ejemplo

En el siguiente ejemplo de cadena de conexión no se utiliza SSL.

postgres://jdbc:postgresql://example-asdf-aurora-postgres-endpoint:5432/asdf?user=someuser&password=somepassword

Para habilitar SSL, modifique la cadena de la siguiente manera.

postgres://jdbc:postgresql://example-asdf-aurora-postgres-endpoint:5432/asdf?user=someuser&password=somepassword&sslmode=verify-ca&sslfactory=org.postgresql.ssl.DefaultJavaSSLFactory

Uso de un controlador de conexión única

Puede usar los siguientes controladores de registros y metadatos de conexión única para conectarse a una sola instancia de PostgreSQL.

Tipo de controlador Clase
Controlador compuesto PostGreSqlCompositeHandler
Controlador de metadatos PostGreSqlMetadataHandler
Controlador de registros PostGreSqlRecordHandler

Parámetros de controlador de conexión única

Parámetro Descripción
default Obligatorio. La cadena de conexión predeterminada.

Los controladores de conexión única admiten una instancia de base de datos y deben proporcionar un parámetro de cadena de conexión default. Se omiten todas las demás cadenas de conexión.

La siguiente propiedad de ejemplo es para una sola instancia de PostgreSQL compatible con una función de Lambda.

Propiedad Valor
default postgres://jdbc:postgresql://postgres1.host:5432/default?secret=${Test/RDS/PostgreSQL1}

Parámetros de vertido

El SDK de Lambda puede verter datos en Amazon S3. Todas las instancias de bases de datos a las que se accede mediante la misma función de Lambda se vierten en la misma ubicación.

Parámetro Descripción
spill_bucket Obligatorio. Nombre del bucket de vertido.
spill_prefix Obligatorio. Prefijo de la clave del bucket de vertido.
spill_put_request_headers (Opcional) Un mapa codificado en JSON de encabezados y valores de solicitudes para la solicitud putObject de Amazon S3 que se usa para el vertido (por ejemplo, {"x-amz-server-side-encryption" : "AES256"}). Para ver otros encabezados posibles, consulte PutObject en la referencia de la API de Amazon Simple Storage Service.

Compatibilidad con tipos de datos

En la siguiente tabla, se muestran los tipos de datos correspondientes para JDBC, PostgreSQL y Arrow.

JDBC PostgreSQL Arrow
Booleano Booleano Bit
Entero N/A Pequeño
Short smallint Smallint
Entero integer Int
Largo bigint Bigint
float float4 Float4
Doble float8 Float8
Date date DateDay
Timestamp Marca de tiempo DateMilli
Cadena texto Varchar
Bytes bytes Varbinary
BigDecimal numeric(p,s) Decimal
ARRAY N/D (ver nota) Enumeración
nota

El tipo ARRAY se admite en el conector de PostgreSQL con las siguientes restricciones: no se admiten las matrices multidimensionales (<data_type>[][] o matrices anidadas). Las columnas con los tipos de datos ARRAY no admitidos se convierten a una matriz de elementos de cadena (array<varchar>).

Particiones y divisiones

Las particiones se usan para determinar cómo generar divisiones para el conector. Athena crea una columna sintética de tipo varchar que representa el esquema de partición de la tabla para ayudar al conector a generar divisiones. El conector no modifica la definición de la tabla real.

Rendimiento

PostgreSQL admite particiones nativas. El conector PostgreSQL de Athena puede recuperar datos de estas particiones en paralelo. Si quiere consultar conjuntos de datos muy grandes con una distribución uniforme de particiones, se recomienda encarecidamente la partición nativa.

El conector PostgreSQL de Athena inserta predicados para reducir los datos analizados en la consulta. Los predicados simples, las expresiones complejas y las cláusulas LIMIT se insertan en el conector para reducir la cantidad de datos analizados y disminuir el tiempo de ejecución de las consultas. Sin embargo, seleccionar un subconjunto de columnas da como resultado que en ocasiones se prolongue el tiempo de ejecución de las consultas.

Cláusulas LIMIT

Una instrucción LIMIT N reduce los datos analizados en la consulta. Con la inserción LIMIT N, el conector devuelve solo las filas N a Athena.

Predicados

Un predicado es una expresión de la cláusula WHERE de una consulta SQL que da como resultado un valor booleano y filtra las filas en función de varias condiciones. El conector PostgreSQL de Athena puede combinar estas expresiones e insertarlas directamente en PostgreSQL para mejorar la funcionalidad y reducir la cantidad de datos analizados.

Los siguientes operadores del conector PostgreSQL de Athena admiten la inserción de predicados:

  • Booleano: AND, OR, NOT.

  • Igualdad: EQUAL, NOT_EQUAL, LESS_THAN, LESS_THAN_OR_EQUAL, GREATER_THAN, GREATER_THAN_OR_EQUAL, IS_DISTINCT_FROM, NULL_IF, IS_NULL.

  • Aritmética: ADD, SUBTRACT, MULTIPLY, DIVIDE, MODULUS, NEGATE.

  • Otros: LIKE_PATTERN, IN.

Ejemplo de inserción combinada

Para mejorar las capacidades de consulta, combine los tipos de inserciones, como en el siguiente ejemplo:

SELECT * FROM my_table WHERE col_a > 10 AND ((col_a + col_b) > (col_c % col_d)) AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') LIMIT 10;

Consultas de acceso directo

El conector PostgreSQL admite consultas de acceso directo. Las consultas de acceso directo utilizan una función de tabla para enviar la consulta completa al origen de datos para su ejecución.

Para usar consultas de acceso directo con PostgreSQL, puede utilizar la siguiente sintaxis:

SELECT * FROM TABLE( system.query( query => 'query string' ))

El siguiente ejemplo de consulta envía una consulta a un origen de datos en PostgreSQL. La consulta selecciona todas las columnas de la tabla customer y limita los resultados a 10.

SELECT * FROM TABLE( system.query( query => 'SELECT * FROM customer LIMIT 10' ))

Recursos adicionales de

Para obtener la información más reciente sobre la versión del controlador JDBC, consulte el archivo pom.xml para el conector de PostgreSQL en GitHub.com.

Para obtener más información acerca de este conector, consulte el sitio correspondiente en GitHub.com.