Errores de clúster de Hive - Amazon EMR

Errores de clúster de Hive

Normalmente, puede encontrar la causa de un error de Hive en el archivo syslog, para el que tiene un enlace en el panel Steps (Pasos). Si no puede determinar el problema allí, consulte el mensaje de error de intento de tareas de Hadoop. Encontrará un enlace al mismo en el panel Task Attempts (Intentos de tareas).

Los siguientes errores son comunes en los clústeres de Hive.

¿Está utilizando la última versión de Hive?

La última versión de Hive presenta todas las revisiones actuales y correcciones de errores y podría resolver el problema.

¿Ha detectado un error de sintaxis en el script de Hive?

Si un paso devuelve un error, examine el archivo stdout de los registros para el paso que se ejecutó en el script de Hive. Si el error no se encuentra allí, examine el archivo syslog de los registros del intento de tarea que ha devuelto error. Para obtener más información, consulte Visualización de los archivos de registro de Amazon EMR.

¿Ha devuelto error un trabajo al ejecutarlo de forma interactiva?

Si ejecuta Hive de forma interactiva en el nodo principal y el clúster ha fallado, vea las entradas syslog en el registro de intento de tarea para el intento de tarea fallido. Para obtener más información, consulte Visualización de los archivos de registro de Amazon EMR.

¿Tiene problemas para cargar datos hacia o desde Amazon S3 en Hive?

Si tiene problemas para tener acceso a los datos en Amazon S3, compruebe antes las causas posibles incluidas en ¿Tiene problemas para cargar datos hacia o desde Amazon S3?. Si ninguno de estos problemas es la causa, tenga en cuenta las siguientes opciones específicas de Hive.

  • Asegúrese de utilizar la última versión de Hive que presenta todas las revisiones actuales y correcciones de errores que podría resolver el problema. Para obtener más información, consulte Apache Hive.

  • El uso de INSERT OVERWRITE requiere mostrar el contenido del bucket o carpeta de Amazon S3. Se trata de una operación costosa. Si es posible, elimine manualmente la ruta en lugar de que Hive enumere y elimine los objetos existentes.

  • Si utiliza versiones de Amazon EMR anteriores a la 5.0, puede utilizar el comando siguiente de HiveQL para guardar previamente en caché los resultados de una operación de listado de Amazon S3 localmente en el clúster:

    set hive.optimize.s3.query=true;
  • Utilice las particiones estáticas donde sea posible.

  • En algunas versiones de Hive y Amazon EMR, es posible que el uso de ALTER TABLES devuelva un error debido a que la tabla se almacena en una ubicación distinta a la esperada por Hive. La solución consiste en añadir o actualizar lo siguiente en /home/hadoop/conf/core-site.xml:

    <property> <name>fs.s3n.endpoint</name> <value>s3.amazonaws.com</value> </property>