AWS Glue란 무엇인가요? - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue란 무엇인가요?

AWS Glue는 분석 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스입니다. 분석, 기계 학습 및 애플리케이션 개발에 사용할 수 있습니다. 또한 작성, 작업 실행, 비즈니스 워크플로 구현을 위한 추가 생산성 및 데이터 운영 도구도 포함됩니다.

AWS Glue를 사용하면 70개 이상의 다양한 데이터 소스를 검색하여 연결하고 중앙 집중식 데이터 카탈로그에서 데이터를 관리할 수 있습니다. 추출, 변환, 로드(ETL) 파이프라인을 시각적으로 생성, 실행, 모니터링하여 데이터 레이크에 데이터를 로드할 수 있습니다. 또한 Amazon Athena, Amazon EMR, Amazon Redshift Spectrum을 사용하여 카탈로그화된 데이터를 즉시 검색하고 쿼리할 수 있습니다.

AWS Glue는 주요 데이터 통합 기능을 단일 서비스로 통합합니다. 여기에는 데이터 검색, 최신 ETL, 정제, 변환, 중앙 집중식 카탈로그화가 포함됩니다. 또한 서버리스이므로 관리할 인프라가 없습니다. ETL, ELT, 스트리밍과 같은 모든 워크로드를 하나의 서비스에서 유연하게 지원하므로 AWS Glue는 다양한 워크로드 및 사용자 유형에 걸쳐 사용자를 지원합니다.

또한 AWS Glue를 사용하면 아키텍처 전반에 걸쳐 데이터를 쉽게 통합할 수 있습니다. AWS 분석 서비스 및 Amazon S3 데이터 레이크와 통합됩니다. AWS Glue는 개발자에서 비즈니스 사용자에 이르기까지 모든 사용자가 사용하기 쉬운 통합 인터페이스 및 작업 작성 도구를 보유하고 있으며 다양한 기술 세트에 대한 맞춤형 솔루션을 제공합니다.

필요에 따라 확장할 수 있는 기능을 통해 AWS Glue는 데이터의 가치를 극대화하는 고부가가치 활동에 집중할 수 있도록 도와줍니다. 모든 데이터 크기에 맞게 확장되며 모든 데이터 유형 및 스키마 변형을 지원합니다. 민첩성을 높이고 비용을 최적화하기 위해 AWS Glue는 기본 제공 고가용성 및 사용한 만큼 지불하는 청구서를 제공합니다.

요금 정보는 AWS Glue 요금을 참조하세요.

AWS Glue Studio

AWS Glue Studio는 AWS Glue에서 데이터 통합 작업을 쉽게 생성, 실행, 모니터링할 수 있는 그래픽 인터페이스입니다. 데이터 변환 워크플로를 시각적으로 구성하고 AWS Glue의 Apache Spark 기반 서버리스 ETL 엔진에서 원활하게 실행할 수 있습니다.

AWS Glue Studio를 사용하면 데이터를 수집, 변환, 정리하는 작업을 생성하고 관리할 수 있습니다. 또한 AWS Glue Studio를 사용하여 작업 스크립트 문제를 해결하고 작업 스크립트를 편집할 수 있습니다.

AWS Glue 기능

AWS Glue의 기능은 크게 세 가지 범주로 분류됩니다.

  • 데이터 검색 및 구성

  • 분석을 위한 데이터 변환, 준비, 정리

  • 데이터 파이프라인 구축 및 모니터링

데이터 검색 및 구성

  • 여러 데이터 스토어에 걸친 통합 및 검색 - AWS의 모든 데이터를 카탈로그로 분류하여 여러 데이터 소스 및 싱크에서 저장, 인덱싱, 검색할 수 있습니다.

  • 데이터 자동 검색 - AWS Glue 크롤러를 사용하여 스키마 정보를 자동으로 추론하고 AWS Glue Data Catalog에 통합합니다.

  • 스키마 및 권한 관리 - 데이터베이스와 테이블에 대한 액세스를 검증하고 제어합니다.

  • 다양한 데이터 소스에 연결 - 데이터 레이크를 구축하기 위해 AWS Glue 연결을 사용하여 온프레미스와 AWS 모두에서 여러 데이터 소스를 활용합니다.

분석을 위한 데이터 변환, 준비, 정리

  • 작업 캔버스 인터페이스를 사용하여 데이터를 시각적으로 변환 - 시각적 작업 편집기에서 ETL 프로세스를 정의하고 코드를 자동으로 생성하여 데이터를 추출, 변환, 로드할 수 있습니다.

  • 간단한 작업 스케줄링으로 복잡한 ETL 파이프라인을 구축 - 일정에 따라 또는 요청 시 또는 이벤트를 기반으로 AWS Glue 작업을 호출합니다.

  • 전송 중인 스트리밍 데이터 정리 및 변환 - 데이터를 지속적으로 사용하고 전송 중에 데이터를 정리 및 변환할 수 있습니다. 이렇게 하면 대상 데이터 스토어에서 몇 초 만에 분석할 수 있습니다.

  • 기본 제공 기계 학습으로 데이터 중복 제거 및 정제 - FindMatches 기능을 사용하여 기계 학습 전문가가 아니더라도 분석을 위해 데이터를 정리하고 준비할 수 있습니다. 이 기능은 중복 데이터를 제거하고 서로 불완전하게 일치하는 레코드를 찾습니다.

  • 기본 제공 작업 노트북 - AWS Glue 작업 노트북은 AWS Glue에서 최소한의 설정으로 서버리스 노트북을 제공하므로 빠르게 시작할 수 있습니다.

  • ETL 코드 편집, 디버그, 테스트 - AWS Glue 대화형 세션을 통해 대화형 방식으로 데이터를 탐색하고 준비할 수 있습니다. 선택한 IDE 또는 노트북을 사용하여 대화형 방식으로 데이터를 탐색, 실험, 처리할 수 있습니다.

  • 민감한 데이터의 정의, 탐지, 문제 해결 – AWS Glue 민감한 데이터 탐지를 통해 데이터 파이프라인과 데이터 레이크에서 민감한 데이터를 정의, 식별, 처리할 수 있습니다.

데이터 파이프라인 구축 및 모니터링

  • 워크로드에 따라 자동 확장 - 워크로드에 따라 리소스를 동적으로 확장 및 축소할 수 있습니다. 이렇게 하면 필요한 경우에만 작업자를 작업에 할당합니다.

  • 이벤트 기반 트리거로 작업 자동화 - 크롤러를 시작하거나 이벤트 기반 트리거를 사용하여 AWS Glue 작업을 수행하고 종속 작업 및 크롤러 체인을 설계합니다.

  • 작업 실행 및 모니터링 - 원하는 엔진(Spark 또는 Ray)에서 AWS Glue 작업을 실행합니다. 자동 모니터링 도구, AWS Glue 작업 실행 인사이트, AWS CloudTrail 등을 사용하여 모니터링합니다. Apache Spark UI를 사용하여 Spark 지원 작업의 모니터링을 개선합니다.

  • ETL 및 통합 활동을 위한 워크플로 정의 - 여러 크롤러, 작업, 트리거에 대한 ETL 및 통합 활동을 위한 워크플로를 정의합니다.

AWS Glue의 혁신에 대해 알아보기

AWS Glue의 최신 혁신에 대해 알아보고 고객이 조직 전체에서 셀프 서비스 데이터 준비를 지원하는 데 AWS Glue를 사용하는 방법을 알아보세요.

고객이 기존 설정 이상으로 AWS Glue 규모를 조정하는 방법과 작업 모니터링 및 성능을 위해 AWS Glue를 구성하는 방법도 알아보세요.

AWS Glue 시작하기

다음 단원부터 시작하는 것이 좋습니다.

AWS Glue 액세스

다음 인터페이스 중 하나를 사용하여 AWS Glue 작업을 생성하고, 액세스하고, 관리할 수 있습니다.

  • AWS Glue콘솔 - AWS Glue 작업을 생성, 확인 및 관리할 수 있는 웹 인터페이스를 제공합니다. 콘솔에 액세스하려면 AWS Glue 단원을 참조하십시오.

  • AWS Glue Studio - AWS Glue 작업을 시각적으로 만들고 편집할 수 있는 그래픽 인터페이스를 제공합니다. 자세한 내용은 AWS Glue Studio를 사용하여 시각적 ETL 작업 구축 단원을 참조하십시오.

  • AWS CLI 참조의 AWS Glue 섹션 - AWS Glue에서 사용할 수 있는 AWS CLI 명령을 제공합니다. 자세한 내용은 ​AWS Glue에 대한 AWS CLI 참조를 참조하세요.

  • AWS Glue API - 개발자를 위한 전체 API 레퍼런스를 제공합니다. 자세한 내용은 AWS Glue API를 참조하세요.

AWS Glue의 사용자는 또한 다음을 사용합니다.

  • AWS Lake Formation - AWS Glue Data Catalog의 리소스에 대한 세분화된 액세스 제어를 제공하는 권한 부여 계층인 서비스입니다.

  • AWS Glue DataBrew - 코드를 작성하지 않고 데이터를 정리하고 정규화하는 데 사용할 수 있는 시각적 데이터 준비 도구입니다.