Amazon Athena에서 Apache Spark 사용 - Amazon Athena

Amazon Athena에서 Apache Spark 사용

Amazon Athena를 사용하면 리소스를 계획, 구성 또는 관리할 필요 없이 Apache Spark를 사용하여 데이터 분석 및 탐색을 대화식으로 쉽게 실행할 수 있습니다. Athena에서 Apache Spark 애플리케이션을 실행하는 것은 추가 구성 없이 결과를 직접 처리하고 수신하기 위해 Spark 코드를 제출하는 것을 의미합니다. Amazon Athena 콘솔의 간소화된 노트북 환경을 활용하면 Python 또는 Athena 노트북 API를 통해 Apache Spark 애플리케이션을 개발할 수 있습니다. Amazon Athena의 Apache Spark는 서버리스이며, 자동 온디맨드로 확장하여 즉시 컴퓨팅을 제공함으로써 변화하는 데이터 볼륨 및 처리 요구 사항을 충족할 수 있습니다.

Amazon Athena는 다음과 같은 기능을 제공합니다.

  • 콘솔 사용 현황 - Amazon Athena 콘솔에서 Spark 애플리케이션을 제출합니다.

  • 스크립팅 - Python에서 Apache Spark 애플리케이션을 대화식으로 빠르게 빌드하고 디버그합니다.

  • 동적 조정 - Amazon Athena에서 작업을 실행하는 데 필요한 컴퓨팅 및 메모리 리소스를 자동으로 결정하고 지정된 최대값까지 해당 리소스를 지속적으로 확장합니다. 이러한 동적 조정은 속도에 영향을 주지 않으면서 비용을 절감합니다.

  • 노트북 환경 - Athena 노트북 편집기를 사용하면 익숙한 인터페이스로 계산을 생성, 편집, 실행할 수 있습니다. Athena 노트북은 Jupyter 노트북과 호환되며 계산을 위해 순서대로 실행되는 셀 목록을 포함합니다. 셀 콘텐츠에는 코드, 텍스트, 마크다운, 수학, 도표 및 리치 미디어가 포함될 수 있습니다.

자세한 내용은 AWS 빅 데이터 블로그Run Spark SQL on Amazon Athena SparkExplore your data lake using Amazon Athena for Apache Spark를 참조하세요.

고려 사항 및 제한

  • 현재 Apache Spark용 Amazon Athena는 다음 AWS 리전에서 사용할 수 있습니다.

    • 아시아 태평양(뭄바이)

    • 아시아 태평양(싱가포르)

    • 아시아 태평양(시드니)

    • 아시아 태평양(도쿄)

    • 유럽(프랑크푸르트)

    • 유럽(아일랜드)

    • 미국 동부(버지니아 북부)

    • 미국 동부(오하이오)

    • 미국 서부(오레곤)

  • AWS Lake Formation는 지원되지 않습니다.

  • 파티션 프로젝션을 사용하는 테이블은 지원되지 않습니다.

  • Apache Spark 지원 작업 그룹은 Athena 노트북 편집기를 사용할 수 있지만 Athena 쿼리 편집기는 사용할 수 없습니다. Athena SQL 작업 그룹만 Athena 쿼리 편집기를 사용할 수 있습니다.

  • 교차 리전 보기 쿼리는 지원되지 않습니다. Athena SQL에서 생성된 보기는 Athena for Spark에서 쿼리할 수 없습니다. 두 엔진의 보기는 다르게 구현되므로 엔진 간에 교차하여 사용할 수 없습니다.

  • MLlib(Apache Spark 기계 학습 라이브러리) 및 pyspark.ml 패키지는 지원되지 않습니다. 지원되는 Python 라이브러리 목록은 사전 설치된 Python 라이브러리 목록 단원을 참조하세요.

  • 현재 pip install은 Athena for Spark 세션에서 지원되지 않습니다.

  • 노트북당 하나의 활성 세션만 허용됩니다.

  • 여러 사용자가 콘솔을 사용하여 작업 그룹의 기존 세션을 열 때 동일한 노트북에 액세스합니다. 혼동을 피하려면 직접 생성한 세션만 여세요.

  • Amazon Athena와 함께 사용할 수 있는 Apache Spark 애플리케이션용 호스팅 도메인(예: analytics-gateway.us-east-1.amazonaws.com)은 인터넷 PSL(Public Suffix List)에 등록됩니다. 도메인에 민감한 쿠키를 설정해야 하는 경우 사이트 간 요청 위조(CSRF) 시도로부터 도메인을 보호할 수 있도록 __Host- 접두사가 붙은 쿠키를 사용하는 것이 좋습니다. 자세한 내용은 Mozilla.org 개발자 설명서의 Set-Cookie 페이지를 참조하세요.

  • Athena의 Spark 노트북, 세션 및 작업 그룹 문제 해결에 대한 자세한 내용은 Athena for Spark 문제 해결 단원을 참조하세요.