Uso de Apache Spark en Amazon Athena
Amazon Athena facilita la ejecución interactiva del análisis y la exploración de datos mediante Apache Spark sin necesidad de planificar, configurar ni administrar los recursos. Ejecutar aplicaciones de Apache Spark en Athena significa enviar el código de Spark para su procesamiento y recibir los resultados directamente sin necesidad de configuración adicional. Puede utilizar la experiencia simplificada de cuadernos de la consola de Amazon Athena para desarrollar aplicaciones de Apache Spark mediante las API de cuadernos de Athena o Python. Apache Spark en Amazon Athena no requiere servidor y proporciona un escalado automático y bajo demanda que ofrece computación instantánea para cumplir con los cambios en los volúmenes de datos y los requisitos de procesamiento.
Amazon Athena ofrece las siguientes características:
-
Uso de la consola: envíe aplicaciones de Spark desde la consola de Amazon Athena.
-
Creación de scripts: cree y depure aplicaciones de Apache Spark en Python de forma rápida e interactiva.
-
Escalado dinámico: Amazon Athena determina automáticamente los recursos de procesamiento y memoria necesarios para ejecutar un trabajo y los escala continuamente en consecuencia hasta los máximos que usted especifique. Este escalado dinámico reduce los costos sin afectar a la velocidad.
-
Experiencia con cuadernos: utilice el editor de cuadernos de Athena para crear, editar y ejecutar cálculos mediante una interfaz familiar. Los cuadernos de Athena son compatibles con los cuadernos de Jupyter y contienen una lista de celdas que se ejecutan en orden como cálculos. El contenido de las celdas puede incluir código, texto, Markdown, cálculos, gráficos y contenido multimedia enriquecido.
Para obtener información adicional, consulte Ejecutar Spark SQL en Amazon Athena Spark
Temas
- Consideraciones y limitaciones
- Introducción
- Administración de los archivos de cuaderno
- Editor de cuaderno
- Formatos de tabla que no son de Hive
- Compatibilidad con las bibliotecas Python
- Especificación de configuración personalizada
- Formatos de datos y almacenamiento compatibles
- Supervisión de los cálculos de Apache Spark
- Habilitación de buckets de pago por solicitante
- Habilitación del cifrado de Spark
- Acceso al catálogo entre cuentas
- Service Quotas
- API de cuadernos de Athena
- Solución de problemas