Elegir el modo de distribución recomendado - Amazon Redshift

Elegir el modo de distribución recomendado

Cuando ejecuta una consulta, el optimizador de consultas redistribuye las filas a los nodos de computación según se necesite para realizar combinaciones y agregaciones. El objetivo al seleccionar un estilo de distribución de tablas es reducir el impacto del paso de redistribución al localizar los datos en el lugar que deben estar antes de que se ejecute la consulta.

nota

Cuando utiliza la optimización automática de tablas, no necesita elegir el estilo de distribución de la tabla. Para obtener más información, consulte Optimización de tablas automática.

A continuación, se indican algunas sugerencias para lograr el mejor enfoque posible:

  1. Distribuya la tabla de hechos y una tabla de dimensión en sus columnas comunes.

    Su tabla de hechos solo puede tener una clave de distribución. Ninguna de las tablas que se combinan con otra clave se ubica junto a la tabla de hechos. Seleccione una dimensión para colocar, según la frecuencia con que se combina y según el tamaño de las filas combinadas. Designe la clave principal de la tabla de dimensión y la clave externa correspondiente a la tabla de hechos como las claves DISTKEY.

  2. Seleccione la mayor dimensión según el tamaño del conjunto de datos filtrado.

    Solo se deben distribuir las filas que se usan en la combinación; por lo tanto, considere el tamaño del conjunto de datos después del filtrado, no el tamaño de la tabla.

  3. Seleccione una columna que tenga una cardinalidad alta en el conjunto de resultados filtrado.

    Por ejemplo, si distribuye una tabla de ventas en una columna de fecha, probablemente obtenga una distribución de fechas bastante uniforme, a menos que la mayoría de sus ventas se realicen por temporada. No obstante, si suele utilizar un predicado de rango restringido para filtrar un periodo de fechas limitado, la mayoría de las filas filtradas están en un conjunto limitado de secciones y la carga de trabajo de la consulta está descompensada.

  4. Cambie algunas tablas de dimensión para que utilicen la distribución ALL.

    Si no se puede colocar una tabla de dimensión junto con la tabla de hechos u otra tabla de combinación de importancia, puede mejorar el rendimiento de las consultas de forma significativa distribuyendo la tabla completa a todos los nodos. El uso de la distribución ALL multiplica los requisitos de espacio de almacenamiento y aumenta los tiempos de carga y las operaciones de mantenimiento, por lo que debe analizar todos los factores antes de seleccionar la distribución ALL.

Para que Amazon Redshift elija el estilo de distribución adecuado, especifique AUTO en el estilo de distribución.

Para obtener más información acerca de la elección de estilos de distribución, consulte Distribución de datos para la optimización de consultas.