쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

프로덕션 환경의 모델에 대한 특성 어트리뷰션 드리프트

포커스 모드
프로덕션 환경의 모델에 대한 특성 어트리뷰션 드리프트 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

프로덕션 중인 모델의 라이브 데이터 분포에서 드리프트가 발생하면, 편향 지표를 모니터링할 때 편향 드리프트가 일어날 수 있는 것과 마찬가지로, 특징 속성 값에도 그에 따른 드리프트가 발생할 수 있습니다. Amazon SageMaker Clarify 특징 속성 모니터링은 데이터 사이언티스트와 ML 엔지니어가 특징 속성의 편향을 정기적으로 모니터링할 수 있도록 도와줍니다. 모델이 모니터링되는 동안, 고객은 SageMaker Studio에서 특징 속성을 자세히 설명하는 내보내기 가능한 보고서와 그래프를 확인할 수 있고, 속성 값이 특정 임계값을 넘어 드리프트하는 것으로 감지되면 알림을 받아보도록 Amazon CloudWatch에서 경보를 구성할 수 있습니다.

구체적인 상황에 대입하여 이를 살펴보기 위해, 대학 입시를 위한 가상의 시나리오를 생각해 보겠습니다. 해당 훈련 데이터와 라이브 데이터에서 다음과 같은 (집계된) 특징 속성 값을 관찰했다고 가정해 보겠습니다.

대학 입시 가상 시나리오

Feature 훈련 데이터의 속성 라이브 데이터의 속성
SAT 점수 0.70 0.10
평점평균(GPA) 0.50 0.20
학급 석차 0.05 0.70

훈련 데이터에서 라이브 데이터로의 변동 폭이 크게 나타났습니다. 특징 순위가 완전히 뒤바뀌었습니다. 편향 드리프트와 마찬가지로, 특징 속성 드리프트가 발생하는 것은 라이브 데이터 분포의 변화가 원인일 수 있으므로 라이브 데이터 상에서 모델의 동작을 자세히 살펴볼 필요가 있습니다. 앞서와 마찬가지로, 이러한 시나리오에서 먼저 수행할 일은 드리프트가 발생했다는 경보가 울리게 하는 것입니다.

훈련 데이터에서 라이브 데이터로 넘어갈 때 개별 특징의 순위가 어떻게 변하는지 비교하는 방법으로 드리프트를 감지할 수 있습니다. 순위 순서의 변화를 민감하게 살펴보는 것 외에도, 특징의 원시 속성 점수에도 민감하게 주의를 기울여야 합니다. 예를 들어, 두 종류의 특징이 훈련 데이터에서 라이브 데이터로 넘어갈 때 각각의 순위가 동일한 등수만큼 떨어진 경우라면, 훈련 데이터상에서 속성 점수가 더 높게 나타난 특징을 더 민감하게 살펴볼 필요가 있습니다. 이러한 특성을 염두에 둔 채, 정규화된 할인 누적 이득(NDCG) 점수를 이용하여 훈련 데이터와 라이브 데이터의 특징 속성 순위를 비교해보도록 하겠습니다.

구체적으로 다음과 같은 내용을 가정해봅시다.

  • F=[f1,...,fm]는 훈련 데이터에서 각자의 속성 점수를 기준으로 정렬된 특징의 목록입니다.여기서 m은 특징의 총 개수입니다. 예를 들어, 이 사나리오에서 F=[SAT 점수, GPA, 학급 석차]입니다.

  • a(f)는 특징 f가 주어졌을 때 훈련 데이터에 대한 특징 속성 점수를 반환하는 함수입니다. 예컨대, a(SAT 점수) = 0.70입니다.

  • F′=[f′1,...,f′m]는 라이브 데이터에서 각자의 속성 점수를 기준으로 정렬된 특징의 목록입니다. 예컨대, F′=[학급 석차, GPA, SAT 점수]입니다.

이제 NDCG를 다음과 같이 계산할 수 있습니다.

        NDCG=DCG/iDCG

여기서 DCG와 iDCG는 각각 다음과 같습니다.

  • DCG = ∑1ma(f'i)/log2​(i+1)

  • iDCG = ∑1ma(fi)/log2​(i+1)

수량 DCG는 훈련 데이터상에서 고순위 속성인 특징이 라이브 데이터에서 특징 속성을 계산했을 때도 고순위에 속하는지 여부를 측정합니다. 수량 iDCG는 이상적인 점수를 측정하며, 이는 단순히 최종 수량이 항상 [0, 1] 범위 안에 들어가도록 만들기 위한 정규화 인수에 불과합니다.여기서 1은 가능한 최상의 값을 의미합니다. NDCG 값이 1이라면 라이브 데이터의 특징 속성 순위가 훈련 데이터의 특징 속성 순위와 동일하다는 뜻입니다. 이 예제에서는 순위가 크게 바뀌었기 때문에, NDCG 값은 0.69가 되었습니다.

SageMaker Clarify에서는 NDCG 값이 0.90 미만이면 자동으로 경보를 발생시킵니다.

모델 모니터 예제 노트북

SageMaker Clarify는 실시간 엔드포인트에 대한 추론 데이터를 캡처하고, 변화하는 편향을 모니터링하기 위한 기준을 만들고, 결과를 검사하는 방법을 보여주는 다음과 같은 예제 노트북을 제공합니다.

이 노트북은 SageMaker Studio에서만 실행이 검증되었습니다. SageMaker Studio에서 노트북을 여는 방법에 대한 지침이 필요한 경우, Amazon SageMaker Studio Classic 노트북 만들기 또는 열기을 참조하세요. 커널을 선택하라는 메시지가 표시되면, Python 3 (Data Science)를 선택합니다. 다음 주제들에는 마지막 두 단계의 주요 내용과 예제 노트북에서 보았던 코드 예제가 포함되어 있습니다.

이 페이지에서

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.