Athena 콘솔을 사용하여 데이터 소스에 연결
데이터 원본 커넥터를 선택하고 이름을 지정하고 배포하려면 통합 프로세스에서 Athena 및 Lambda 콘솔을 사용합니다.
데이터 원본 커넥터를 배포하려면
https://console.aws.amazon.com/athena/
에서 Athena 콘솔을 엽니다. 콘솔 탐색 창이 표시되지 않으면 왼쪽의 확장 메뉴를 선택합니다.
-
탐색 창에서 데이터 원본(Data sources)을 선택합니다.
-
데이터 원본(Data sources) 페이지에서 데이터 원본 생성(Create data source)을 선택합니다.
-
데이터 원본 선택(Choose data source)에서 다음 지침을 고려하여 <shared id="ATE"/>에서 쿼리할 데이터 원본을 선택합니다.
-
데이터 원본에 해당하는 연합 쿼리 옵션을 선택합니다. Athena에는 MySQL, Amazon DocumentDB 및 PostgreSQL을 포함한 소스에 대해 구성할 수 있는 사전 구축된 데이터 원본 커넥터가 있습니다.
-
Amazon S3에서 데이터를 쿼리하려고 하고 이 페이지에서 Apache Hive 메타스토어 또는 다른 연동 쿼리 데이터 원본 옵션 중 하나를 사용하고 있지 않은 경우 S3 - AWS Glue Data Catalog를 선택합니다. Athena는 AWS Glue Data Catalog를 사용하여 Amazon S3의 데이터 원본에 대한 메타데이터 및 스키마 정보를 저장합니다. 이것은 기본(비연합) 옵션입니다. 자세한 내용은 AWS Glue를 사용하여 Athena를 Amazon S3의 데이터에 연결 단원을 참조하십시오.
-
S3 - Apache Hive 메타스토어(S3 - Apache Hive metastore)를 선택하여 Apache Hive 메타스토어를 사용하는 Amazon S3의 데이터 집합을 쿼리합니다. 이 옵션에 대한 자세한 내용은 Apache Hive 메타스토어에 Athena 연결을 참조하세요.
-
<shared id="ATE"/>에서 사용할 고유한 데이터 원본 커넥터를 생성하려면 사용자 정의 또는 고유 데이터(Custom or shared data)을 선택합니다. 데이터 원본 커넥터 작성에 대한 정보에 대한 자세한 내용은 Athena Query Federation SDK를 사용하여 데이터 소스 커넥터 개발 섹션을 참조하세요.
이 자습서에서는 Amazon CloudWatch Logs를 연합 데이터 원본으로 선택합니다.
-
-
Next(다음)를 선택합니다.
-
데이터 원본 세부 정보 입력(Enter data source details) 섹션의 데이터 원본 이름(Data source name)에 <shared id="ATE"/>에서 데이터 원본을 쿼리할 때 SQL 문에 사용할 이름을 입력합니다(예:
CloudWatchLogs
). 이름은 127자까지 입력할 수 있으며 계정 내에서 고유해야 합니다. 생성 후에는 변경할 수 없습니다. 유효한 문자는 a-z, A-Z, 0-9, _(밑줄), @(앰퍼샌드) 및 -(하이픈)입니다.awsdatacatalog
,hive
,jmx
,system
이름은 Athena에 예약되어 있으므로 데이터 원본 이름에 사용할 수 없습니다. -
Lambda 함수에 대해 Lambda 함수 생성을 선택합니다. 선택한 커넥터의 함수 페이지가 AWS Lambda 콘솔에서 열립니다. 이 페이지에는 커넥터에 대한 자세한 정보가 포함되어 있습니다.
-
애플리케이션 설정(Application settings)에서 각 애플리케이션 설정에 관한 설명을 신중히 읽은 다음 필요에 따라 값을 입력합니다.
표시되는 애플리케이션 설정은 데이터 원본의 커넥터에 따라 다릅니다. 최소한의 필수 설정은 다음과 같습니다.
-
AthenaCatalogName –
cloudwatchlogs
와 같이 대상으로 하는 데이터 원본을 나타내는 소문자로 된 Lambda 함수의 이름입니다. -
SpillBucket – Lambda 함수 응답 크기 제한을 초과하는 데이터를 저장하기 위한 계정의 Amazon S3 버킷입니다.
참고
유출된 데이터는 후속 실행에서 재사용되지 않으며 12시간 후에 안전하게 삭제할 수 있습니다. Athena는 이 데이터를 삭제하지 않습니다. Amazon S3 유출 버킷에서 이전 데이터를 삭제하는 객체 수명 주기 정책을 추가하여 이러한 객체를 관리하는 것이 좋습니다. 자세한 내용은 Amazon S3 사용 설명서의 스토리지 수명 주기 관리를 참조하세요.
-
-
이 앱이 사용자 지정 IAM 역할 및 리소스 정책을 생성하는 것을 확인(I acknowledge that this app creates custom IAM roles and resource policies)을 선택합니다. 자세한 내용을 보려면 정보 링크를 선택하세요.
-
배포를 선택합니다. 배포가 완료되면 Lambda 콘솔의 리소스 섹션에 Lambda 함수가 나타납니다.
데이터 소스에 연결
계정에 데이터 원본 커넥터를 배포한 후 Athena를 연결할 수 있습니다.
계정에 배포한 커넥터를 사용하여 데이터 원본에 Athena 연결
-
<shared id="ATE"/> 콘솔의 데이터 원본 입력(Enter data sources) 페이지로 돌아갑니다.
-
연결 세부 정보(Connection details)섹션에서 Lambda 함수 선택 또는 입력 검색 상자 옆에 있는 새로 고침 아이콘을 선택합니다.
-
Lambda 콘솔에서 방금 생성한 함수의 이름을 선택합니다. Lambda 함수의 ARN이 표시됩니다.
-
(선택 사항) 태그(Tags)에 대해 이 데이터 원본과 연결할 키-값 페어를 추가합니다. 태그에 대한 자세한 내용은 Athena 리소스 태깅 단원을 참조하세요.
-
Next(다음)를 선택합니다.
-
검토 및 생성 페이지에서 데이터 원본 세부 정보를 검토한 다음 데이터 원본 생성을 선택합니다.
-
데이터 원본 세부 정보(Data source details) 페이지 섹션에는 새 커넥터에 대한 정보가 표시됩니다. 이제 <shared id="ATE"/> 쿼리에 커넥터를 사용할 수 있습니다.
쿼리에서 데이터 커넥터 사용에 대한 자세한 내용은 페더레이션 쿼리 사용 섹션을 참조하세요.