AWS Glue 작업을 위한 Apache Spark 웹 UI 사용 설정 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue 작업을 위한 Apache Spark 웹 UI 사용 설정

Apache Spark 웹 UI를 사용하여 AWS Glue 작업 시스템에서 실행 중인 AWS Glue ETL 작업을 모니터링하고 디버그할 수 있습니다. AWS Glue 콘솔 또는 AWS Command Line Interface (AWS CLI)를 사용하여 Spark UI를 구성할 수 있습니다.

30초마다 AWS Glue가 Spark 이벤트 로그를 지정한 Amazon S3 경로로 백업합니다.

Spark UI 구성(콘솔)

AWS Management Console을 사용하여 Spark UI를 구성하려면 다음 단계를 따르세요. AWS Glue 작업을 생성할 때 Spark UI는 기본적으로 활성화됩니다.

작업을 생성하거나 편집할 때 Spark UI를 켜려면
  1. https://console.aws.amazon.com/glue/ 에서 AWS Management Console 로그인하고 AWS Glue 콘솔을 엽니다.

  2. 탐색 창에서, 작업을 선택합니다.

  3. 작업 추가를 선택하거나 기존 작업을 선택합니다.

  4. 작업 세부 정보에서 고급 속성을 엽니다.

  5. Spark UI 탭에서 Amazon S3에 Spark UI 로그 쓰기를 선택합니다.

  6. 작업의 Spark 이벤트 로그를 저장할 Amazon S3 경로를 지정합니다. 작업에서 보안 구성을 사용하는 경우 암호화는 Spark UI 로그 파일에도 적용됩니다. 자세한 정보는 AWS Glue에서 작성한 데이터 암호화을 참조하세요.

  7. Spark UI 로깅 및 모니터링 구성에서:

    • AWS Glue 콘솔에서 볼 로그를 생성하려면 표준을 선택합니다.

    • Spark 기록 서버에서 볼 로그를 생성하는 경우 레거시를 선택합니다.

    • 둘 다 생성하도록 선택할 수도 있습니다.

Spark UI 구성(AWS CLI)

Spark UI로 볼 로그를 AWS CLI 생성하려면 AWS Glue 콘솔에서 를 사용하여 다음 작업 매개변수를 작업에 전달하십시오. AWS Glue 자세한 정보는 AWS Glue 작업에서 작업 매개변수 사용을 참조하세요.

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

기존 위치에 로그를 배포하려면 --enable-spark-ui-legacy-path 파라미터를 "true"로 설정합니다. 두 가지 형식으로 로그를 생성하지 않으려면 --enable-spark-ui 매개변수를 제거하십시오.

노트북을 사용하여 세션에 대한 Spark UI 구성

주의

AWS Glue 대화형 세션은 현재 콘솔에서 Spark UI를 지원하지 않습니다. Spark 기록 서버를 구성합니다.

AWS Glue 노트북을 사용하는 경우 세션을 시작하기 전에 SparkUI 구성을 설정하십시오. 이렇게 하려면 %%configure 셀 매직을 사용합니다.

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

롤링 로그 활성화

AWS Glue 작업에 대해 SparkUI 및 롤링 로그 이벤트 파일을 활성화하면 다음과 같은 여러 가지 이점이 있습니다.

  • 롤링 로그 이벤트 파일 - 롤링 로그 이벤트 파일을 활성화하면 작업 실행의 각 단계에 대해 별도의 로그 파일이 AWS Glue 생성되므로 특정 단계 또는 변환과 관련된 문제를 쉽게 식별하고 해결할 수 있습니다.

  • 향상된 로그 관리 - 롤링 로그 이벤트 파일은 로그 파일을 보다 효율적으로 관리하는 데 도움이 됩니다. 크기가 클 수 있는 단일 로그 파일이 아니라 작업 실행 단계에 따라 로그를 더 작고 관리하기 쉬운 파일로 분할합니다. 이를 통해 로그 보관, 분석 및 문제 해결을 단순화할 수 있습니다.

  • 내결함성 향상 - AWS Glue 작업이 실패하거나 중단된 경우 롤링 로그 이벤트 파일이 마지막 성공 단계에 대한 중요한 정보를 제공할 수 있으므로 처음부터 작업을 시작하는 대신 해당 시점부터 작업을 재개하기가 더 쉬워집니다.

  • 비용 최적화 - 롤링 로그 이벤트 파일을 활성화하면 로그 파일과 관련된 스토리지 비용을 절감할 수 있습니다. 크기가 클 수 있는 단일 로그 파일을 저장하는 대신 더 작고 관리하기 쉬운 로그 파일을 저장하므로 특히 오래 실행되거나 복잡한 작업의 경우 비용 효율적일 수 있습니다.

새 환경에서 사용자는 다음을 통해 롤링 로그를 명시적으로 활성화할 수 있습니다.

'—conf': 'spark.eventLog.rolling.enabled=true'

또는

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

롤링 로그가 활성화되면 롤오버되기 전 이벤트 로그 파일의 최대 크기를 spark.eventLog.rolling.maxFileSize 지정합니다. 이 선택적 매개 변수를 지정하지 않은 경우 기본값은 128MB입니다. 최소값은 10MB입니다.

생성된 모든 롤링 로그 이벤트 파일의 최대 합계는 2GB입니다. 롤링 로그를 지원하지 않는 AWS Glue 작업의 경우 SparkUI에 지원되는 최대 로그 이벤트 파일 크기는 0.5GB입니다.

추가 구성을 전달하여 스트리밍 작업에 대한 롤링 로그를 끌 수 있습니다. 로그 파일이 매우 크면 유지 관리 비용이 많이 들 수 있습니다.

롤링 로그를 끄려면 다음 구성을 제공하십시오.

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'