기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
프로덕션 모델의 특성 드리프트
프로덕션 중인 모델의 라이브 데이터 분포에서 드리프트가 발생하면, 편향 지표를 모니터링할 때 편향 드리프트가 일어날 수 있는 것과 마찬가지로, 특징 속성 값에도 그에 따른 드리프트가 발생할 수 있습니다. Amazon SageMaker Clarify 특성 속성 모니터링은 데이터 과학자와 ML 엔지니어가 특성 속성 드리프트에 대한 예측을 정기적으로 모니터링하는 데 도움이 됩니다. 모델이 모니터링되면 고객은 SageMaker Studio에서 내보내기 가능한 보고서와 그래프를 보고 속성 값이 특정 임계값을 초과하여 드리프트한다는 사실이 감지되면 알림을 수신 CloudWatch 하도록 Amazon에서 알림을 구성할 수 있습니다.
구체적인 상황에 대입하여 이를 살펴보기 위해, 대학 입시를 위한 가상의 시나리오를 생각해 보겠습니다. 해당 훈련 데이터와 라이브 데이터에서 다음과 같은 (집계된) 특징 속성 값을 관찰했다고 가정해 보겠습니다.
대학 입시 가상 시나리오
기능 | 훈련 데이터의 속성 | 라이브 데이터의 속성 |
---|---|---|
SAT 점수 | 0.70 | 0.10 |
GPA | 0.50 | 0.20 |
학급 석차 | 0.05 | 0.70 |
훈련 데이터에서 라이브 데이터로의 변동 폭이 크게 나타났습니다. 특징 순위가 완전히 뒤바뀌었습니다. 편향 드리프트와 마찬가지로, 특징 속성 드리프트가 발생하는 것은 라이브 데이터 분포의 변화가 원인일 수 있으므로 라이브 데이터 상에서 모델의 동작을 자세히 살펴볼 필요가 있습니다. 앞서와 마찬가지로, 이러한 시나리오에서 먼저 수행할 일은 드리프트가 발생했다는 경보가 울리게 하는 것입니다.
훈련 데이터에서 라이브 데이터로 넘어갈 때 개별 특징의 순위가 어떻게 변하는지 비교하는 방법으로 드리프트를 감지할 수 있습니다. 순위 순서의 변화를 민감하게 살펴보는 것 외에도, 특징의 원시 속성 점수에도 민감하게 주의를 기울여야 합니다. 예를 들어, 두 종류의 특징이 훈련 데이터에서 라이브 데이터로 넘어갈 때 각각의 순위가 동일한 등수만큼 떨어진 경우라면, 훈련 데이터상에서 속성 점수가 더 높게 나타난 특징을 더 민감하게 살펴볼 필요가 있습니다. 이러한 속성을 염두에 두고 정규화된 할인 누적 이득(NDCG) 점수를 사용하여 훈련 및 라이브 데이터의 특성 속성 순위를 비교합니다.
구체적으로 다음과 같은 내용을 가정해봅시다.
-
F=[f1,...,fm]는 훈련 데이터에서 각자의 속성 점수를 기준으로 정렬된 특징의 목록입니다.여기서 m은 특징의 총 개수입니다. 예를 들어, 이 경우 F =[SAT Score, GPA, Class Rank].
-
a(f)는 특징 f가 주어졌을 때 훈련 데이터에 대한 특징 속성 점수를 반환하는 함수입니다. 예를 들어, a (SAT 점수) = 0.70입니다.
-
F′=[f′1,...,f′m]는 라이브 데이터에서 각자의 속성 점수를 기준으로 정렬된 특징의 목록입니다. 예: F '= [클래스 순위, GPA, SAT 점수].
그런 다음 를 다음과 NDCG 같이 계산할 수 있습니다.
NDCG=DCG/iDCG
with
-
DCG = ∑1m a (f'i)/log 2(i +1)
-
iDCG = ∑1m a (f i)/log 2(i +1)
양은 훈련 데이터에서 속성이 높은 특징이 라이브 데이터에 대해 계산된 특징 속성에서 더 높은 순위인지 여부를 DCG 측정합니다. 수량 iDCG는 이상적인 점수를 측정하며 최종 수량이 [0, 1] 범위에 있는지 확인하기 위한 정규화 인자일 뿐입니다. 이때 1이 가능한 최상의 값입니다. NDCG 값이 1이면 라이브 데이터의 특성 속성 순위가 훈련 데이터의 속성 순위와 동일하다는 의미입니다. 이 특정 예제에서는 순위가 상당히 약간 변경되었으므로 NDCG 값은 0.69입니다.
SageMaker Clarify에서 NDCG 값이 0.90 미만인 경우 자동으로 경보가 발생합니다.
모델 모니터 예제 노트북
SageMaker Clarify는 실시간 엔드포인트에 대한 추론 데이터를 캡처하고, 진화하는 편향을 모니터링하는 기준을 생성하고, 결과를 검사하는 방법을 보여주는 다음 예제 노트북을 제공합니다.
-
바이어스 드리프트 및 특성 속성 드리프트 모니터링 Amazon SageMaker Clarify
- Amazon SageMaker 모델 모니터를 사용하여 시간 경과에 따른 바이어스 드리프트 및 특성 속성 드리프트를 모니터링합니다.
이 노트북은 SageMaker Studio에서만 실행되는 것으로 확인되었습니다. SageMaker Studio에서 노트북을 여는 방법에 대한 지침이 필요한 경우 섹션을 참조하세요Amazon SageMaker Studio Classic 노트북 생성 또는 열기. 커널을 선택하라는 메시지가 표시되면, Python 3 (Data Science)를 선택합니다. 다음 주제들에는 마지막 두 단계의 주요 내용과 예제 노트북에서 보았던 코드 예제가 포함되어 있습니다.