Amazon Athena에서 Apache Spark 사용
Amazon Athena를 사용하면 리소스를 계획, 구성 또는 관리할 필요 없이 Apache Spark를 사용하여 데이터 분석 및 탐색을 대화식으로 쉽게 실행할 수 있습니다. Athena에서 Apache Spark 애플리케이션을 실행하는 것은 추가 구성 없이 결과를 직접 처리하고 수신하기 위해 Spark 코드를 제출하는 것을 의미합니다. Amazon Athena 콘솔의 간소화된 노트북 환경을 활용하면 Python 또는 Athena 노트북 API를 통해 Apache Spark 애플리케이션을 개발할 수 있습니다. Amazon Athena의 Apache Spark는 서버리스이며, 자동 온디맨드로 확장하여 즉시 컴퓨팅을 제공함으로써 변화하는 데이터 볼륨 및 처리 요구 사항을 충족할 수 있습니다.
Amazon Athena는 다음과 같은 기능을 제공합니다.
-
콘솔 사용 현황 - Amazon Athena 콘솔에서 Spark 애플리케이션을 제출합니다.
-
스크립팅 - Python에서 Apache Spark 애플리케이션을 대화식으로 빠르게 빌드하고 디버그합니다.
-
동적 조정 - Amazon Athena에서 작업을 실행하는 데 필요한 컴퓨팅 및 메모리 리소스를 자동으로 결정하고 지정된 최대값까지 해당 리소스를 지속적으로 확장합니다. 이러한 동적 조정은 속도에 영향을 주지 않으면서 비용을 절감합니다.
-
노트북 환경 - Athena 노트북 편집기를 사용하면 익숙한 인터페이스로 계산을 생성, 편집, 실행할 수 있습니다. Athena 노트북은 Jupyter 노트북과 호환되며 계산을 위해 순서대로 실행되는 셀 목록을 포함합니다. 셀 콘텐츠에는 코드, 텍스트, 마크다운, 수학, 도표 및 리치 미디어가 포함될 수 있습니다.
자세한 내용은 AWS 빅 데이터 블로그의 Run Spark SQL on Amazon Athena Spark