스크립트는 소스에서 데이터를 추출하고 데이터를 변환한 다음 대상으로 로드하는 스크립트를 실행하는 코드를 포함합니다. AWS Glue는 작업 시작 시 스크립트를 실행합니다.
AWS Glue ETL 스크립트는 Python 또는 Scala에 코딩될 수 있습니다. Python 스크립트는 추출, 변환 및 로드(ETL) 작업 스크립트의 PySpark Python의 확장 언어를 사용합니다. 스크립트는 ETL 변환을 다루는 확장된 구조를 포함합니다. 자동적으로 작업의 소스 코드 논리를 생성하면 스크립트가 생성됩니다. 스크립트를 편집하거나 자체 스크립트를 제공하여 ETL 작업을 실행할 수 있습니다.
AWS Glue에서 스크립트를 정의하고 편집하는 방법에 대한 자세한 내용은 AWS Glue 프로그래밍 안내서 섹션을 참조하세요.
추가 라이브러리 또는 파일
스크립트가 추가 라이브러리 혹은 파일은 요구하면 다음과 같이 지정합니다.
- Python 라이브러리 경로
-
스크립트에 필요한 Python 라이브러리로 이동하는, 쉼표로 구분된 Amazon Simple Storage Service(Amazon S3) 경로입니다.
참고
순수 Python 라이브러리만 사용할 수 있습니다. pandas Python 데이터 분석 라이브러리 등 C 확장을 활용하는 라이브러리는 아직 지원되지 않습니다.
- 종속된 jars 경로
-
스크립트에 필요한 JAR 파일로 이동하는, 쉼표로 구분된 Amazon S3 경로입니다.
참고
현재 순수 Java 또는 Scala(2.11) 라이브러리만 사용할 수 있습니다.
- 참조된 파일 경로
-
스크립트에 필요한 추가 파일(예: 구성 파일)로 이동하는, 쉼표로 구분된 Amazon S3 경로입니다.