Ajuste del rendimiento
Al crear una tabla Hive externa mapeada a una tabla de DynamoDB, no está consumiendo ninguna capacidad de lectura o escritura de DynamoDB. Sin embargo, la actividad de lectura y escritura en la tabla de Hive (por ejemplo, INSERT
o SELECT
) se convierte directamente en operaciones de lectura y escritura en la tabla de DynamoDB subyacente.
Apache Hive en Amazon EMR implementa su propia lógica para balancear la carga de E/S en la tabla de DynamoDB y trata de minimizar la posibilidad de sobrepasar el rendimiento aprovisionado de la tabla. Al final de cada consulta de Hive, Amazon EMR devuelve métricas de tiempo de ejecución, incluido el número de veces que se ha superado el rendimiento aprovisionado. Puede utilizar esta información, junto con las métricas de CloudWatch sobre la tabla de DynamoDB, para mejorar el rendimiento en las solicitudes posteriores.
La consola de Amazon EMR proporciona herramientas de monitoreo básico para su clúster. Para obtener más información, consulte Ver y monitorear un clúster en la Guía de administración de Amazon EMR.
También puede monitorear el clúster y los trabajos de Hadoop mediante herramientas basadas en Web, tales como Hue, Ganglia y la interfaz web de Hadoop. Para obtener más información, consulte Ver la interfaz web alojada en los clústeres de Amazon EMR en la Guía de administración de Amazon EMR.
En esta sección se describen los pasos que puede llevar a cabo para ajustar el rendimiento de las operaciones de Hive en las tablas de DynamoDB externas.