AWS Glue Spark 작업 모니터링
주제
AWS Glue Studio에서 사용할 수 있는 Spark 지표
[지표(Metrics)] 탭에는 작업이 실행되고 프로파일링이 활성화될 때 수집되는 지표가 표시됩니다. 다음 그래프가 Spark 작업에 표시됩니다.
ETL 데이터 이동
메모리 프로필: 드라이버 및 실행기
다음 그래프를 표시하려면 View additional metrics(추가 측정치 보기)를 선택합니다.
ETL 데이터 이동
메모리 프로필: 드라이버 및 실행기
실행기 간의 데이터 셔플
CPU 부하: 드라이버 및 실행기
작업 실행: 활성 실행기, 완료된 단계 및 최대 필요 실행기
지표를 수집하도록 작업이 구성된 경우 이러한 그래프에 대한 데이터가 CloudWatch 지표로 푸시됩니다. 지표를 설정하고 그래프를 해석하는 방법에 대한 자세한 내용은 작업 모니터링 및 디버깅 섹션을 참조하세요.
예 ETL 데이터 이동 그래프
ETL 데이터 이동 그래프는 다음 측정치를 표시합니다.
모든 실행기가 Amazon S3에서 읽은 바이트 수 - glue.ALL.s3.filesystem.read_bytes
-
모든 실행기가 Amazon S3에 쓴 바이트 수 - glue.ALL.s3.filesystem.write_bytes
![AWS Glue 콘솔의 [지표(Metrics)] 탭의 ETL 데이터 이동 그래프.](images/job_detailed_etl.png)
예 메모리 프로필 그래프
메모리 프로필 그래프는 다음 측정치를 표시합니다.
드라이버에 의해 이 드라이버용 JVM 힙에 사용되는 메모리 부분(규모: 0~1), executorId에 의해 식별되는 실행기, 또는 모든 실행기 -
![AWS Glue 콘솔의 [지표(Metrics)] 탭의 메모리 프로파일 그래프.](images/job_detailed_mem.png)
예 실행기 간의 데이터 셔플 그래프
실행기 간의 데이터 셔플 그래프는 다음 측정치를 표시합니다.
서로 간에 데이터를 셔플링하기 위해 모든 실행기가 읽은 바이트 수 - glue.driver.aggregate.shuffleLocalBytesRead
-
서로 간에 데이터를 셔플링하기 위해 모든 실행기가 쓴 바이트 수 - glue.driver.aggregate.shuffleBytesWritten
![AWS Glue 콘솔의 [지표(Metrics)] 탭의 실행기 간의 데이터 셔플 그래프.](images/job_detailed_data.png)
예 CPU 부하 그래프
CPU 부하 그래프는 다음 측정치를 표시합니다.
드라이버, executorId로 식별되는 실행기 또는 모든 실행기가 사용한 CPU 시스템 로드 부분(규모: 0~1).
![AWS Glue 콘솔의 [지표(Metrics)] 탭의 CPU 로드 그래프.](images/job_detailed_cpu.png)
예 작업 실행 그래프
작업 실행 그래프는 다음 측정치를 표시합니다.
능동적으로 실행 중인 실행기 수 - glue.driver.ExecutorAllocationManager.executors.numberAllExecutors
완료된 단계 수 - glue.aggregate.numCompletedStages
최대 필요 실행기 수 - glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors
![AWS Glue 콘솔의 [지표(Metrics)] 탭의 작업 실행 그래프.](images/job_detailed_exec.png)