기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
프로필 데이터에 액세스
SMDebug TrainingJob
클래스는 시스템 및 프레임워크 지표가 저장된 S3 버킷에서 데이터를 읽습니다.
TrainingJob
객체를 설정하고 훈련 작업의 프로파일링 이벤트 파일을 검색하려면
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
작은 정보
훈련 작업에 기록할 training_job_name
및 region
파라미터를 지정해야 합니다. 훈련 작업 정보를 지정하는 방법은 두 가지입니다.
-
추정기가 아직 훈련 작업에 연결되어 있는 동안 SageMaker Python SDK를 사용하십시오.
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
-
문자열을 직접 전달하세요.
training_job_name="
your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS
" region="us-west-2
"
참고
기본적으로 SageMaker 디버거는 시스템 메트릭을 수집하여 하드웨어 리소스 사용률과 시스템 병목 현상을 모니터링합니다. 다음 함수를 실행하면 프레임워크 지표를 사용할 수 없다는 오류 메시지가 나타날 수 있습니다. 프레임워크 프로파일링 데이터를 검색하고 프레임워크 작업에 대한 인사이트를 얻으려면 프레임워크 프로파일링을 활성화해야 합니다.
-
SageMaker Python SDK를 사용하여 훈련 작업 요청을 조작하는 경우
framework_profile_params
를 추정기의profiler_config
인수로 전달하십시오. 자세히 알아보려면 디버거 프레임워크 프로파일링 구성을 SageMaker 참조하십시오. -
Studio Classic을 사용하는 경우 디버거 인사이트 대시보드의 프로파일링 토글 버튼을 사용하여 프로파일링을 켜십시오. 자세히 알아보려면 SageMaker 디버거 인사이트 대시보드 컨트롤러를 참조하십시오.
훈련 작업 설명에 대한 설명 및 지표 데이터가 저장되는 S3 버킷 URI를 검색하려면
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
S3 URI에서 시스템 및 프레임워크 지표를 사용할 수 있는지 확인하려면
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
지표 데이터를 사용할 수 있게 된 후 시스템 및 프레임워크 리더 객체를 생성하려면
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
최신 훈련 이벤트 파일을 새로 고치고 검색하려면
독자 객체에는 최신 훈련 이벤트 파일을 검색할 수 있는 확장된 메서드인 refresh_event_file_list()
가 있습니다.
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()