AWS Glue Studio에서 시각적 ETL 작업 시작
AWS Glue Studio의 간단한 시각적 인터페이스를 사용하여 ETL 작업을 생성할 수 있습니다. [작업(Jobs)] 페이지를 사용하여 새 작업을 생성합니다. 스크립트 편집기 또는 노트북을 사용하여 AWS Glue Studio ETL 작업 스크립트의 코드로 직접 작업할 수도 있습니다.
작업(Jobs) 페이지에서 AWS Glue Studio 또는 AWS Glue로 생성한 모든 작업을 볼 수 있습니다. 이 페이지에서 작업을 보고, 관리하고, 실행할 수 있습니다.
AWS Glue Studio에서 ETL 작업을 생성하는 방법에 대한 또 다른 예제는 블로그 자습서
AWS Glue Studio에서 작업 시작
AWS Glue에서는 시각적 인터페이스, 대화형 코드 노트북 또는 스크립트 편집기를 통해 작업을 생성할 수 있습니다. 원하는 옵션을 클릭하여 작업을 시작하거나 샘플 작업을 기반으로 새 작업을 생성할 수 있습니다.
선택한 도구를 사용하여 샘플 작업에서 작업을 생성합니다. 예를 들어 샘플 작업을 사용하면 CSV 파일을 카탈로그 테이블에 결합하는 시각적 ETL 작업을 생성하거나 pandas에 대한 작업을 수행할 때 AWS Glue for Ray 또는 AWS Glue for Spark에서 대화형 코드 노트북에서 작업을 생성하거나 SparkSQL을 사용하여 대화형 코드 노트북에서 작업을 생성할 수 있습니다.
처음부터 AWS Glue Studio에서 작업 생성
AWS Management Console에 로그인하고 https://console.aws.amazon.com/gluestudio/
에서 AWS Glue Studio 콘솔을 엽니다. -
탐색 창에서 ETL 작업을 선택합니다.
-
작업 생성 섹션에서 작업에 대한 구성 옵션을 선택합니다.
처음부터 새로 작업을 생성하는 옵션:
-
시각적 ETL - 데이터 흐름에 초점을 맞춘 시각적 인터페이스에서 작성
-
대화형 코드 노트북을 사용하여 작성 - Jupyter Notebook 기반의 노트북 인터페이스에서 대화형으로 작업 작성
이 옵션을 선택하는 경우 노트북 작성 세션을 생성하기 전에 추가 정보를 제공해야 합니다. 이 정보를 지정하는 방법에 대한 자세한 내용은 AWS Glue Studio에서 노트북 시작하기 섹션을 참조하세요.
-
스크립트 편집기에서 코드 작성 - ETL 스크립트 작성 및 프로그래밍에 익숙한 사용자의 경우 이 옵션을 선택하여 새 Spark ETL 작업을 생성합니다. 엔진(Python 쉘, Ray, Spark(Python) 또는 Spark(Scala))를 선택합니다. 그런 다음 새로 시작 또는 스크립트 업로드를 선택합니다. 그러면 로컬 파일에서 기존 스크립트를 업로드합니다. 스크립트 편집기를 사용하는 옵션을 선택한 경우 시각적 작업 편집기를 사용하여 작업을 설계하거나 편집할 수 없습니다.
Spark 작업은 AWS Glue에서 관리하는 Apache Spark 환경에서 실행됩니다. 기본적으로 새 스크립트는 Python으로 코딩됩니다. 새 Scala 스크립트를 작성하려면 AWS Glue Studio에서 Scala 스크립트 생성 및 편집 섹션을 참조하세요.
-
예제 작업으로부터 AWS Glue Studio에서 작업 생성
예제 작업에서 작업을 생성하도록 선택할 수 있습니다. 예제 작업 섹션에서 샘플 작업을 선택한 다음 샘플 작업 생성을 선택합니다. 옵션 중 하나에서 샘플 작업을 생성하면 작업할 수 있는 빠른 템플릿이 제공됩니다.
AWS Management Console에 로그인하고 https://console.aws.amazon.com/gluestudio/
에서 AWS Glue Studio 콘솔을 엽니다. -
탐색 창에서 ETL 작업을 선택합니다.
-
샘플 작업에서 작업을 생성하는 옵션을 선택합니다.
-
여러 소스를 결합하는 시각적 ETL 작업 - 세 개의 CSV 파일을 읽고, 데이터를 결합한 후 데이터 형식을 변경하고 Amazon S3에 데이터를 쓴 후에 나중에 쿼리할 수 있도록 카탈로그화합니다.
-
Pandas를 사용하는 Spark 노트북 - Spark와 결합된 인기 있는 Pandas 프레임워크를 사용하여 데이터를 탐색하고 시각화합니다.
-
SQL을 사용하는 Spark 노트북 - SQL을 사용하여 Apache Spark를 빠르게 시작할 수 있습니다. AWS Glue 데이터 카탈로그를 통해 데이터에 액세스하고 친숙한 명령을 사용하여 데이터를 변환합니다.
-
-
샘플 작업 생성을 선택합니다.