비대칭 Shapley 값 - Amazon SageMaker

비대칭 Shapley 값

SageMaker Clarify 시계열 예측 모델 설명 솔루션은 SHAP와 유사한 협동 게임 이론에 기반을 둔 특성 어트리뷰션 방법입니다. 특히 Clarify는 기계 학습 및 설명 가능성에서 비대칭 Shapley 값으로도 알려진 무작위 순서 그룹 값을 사용합니다.

배경

목표는 지정된 예측 모델 f에 대한 입력 특성의 어트리뷰션을 계산하는 것입니다. 예측 모델은 다음 입력을 사용합니다.

  • 과거 시계열(대상 TS) 예를 들어 파리-베를린 노선의 과거 일일 열차 승객일 수 있으며, 이는 xt로 표시됩니다.

  • (선택 사항) 공변량 시계열입니다. 예를 들어, 축제와 날씨 데이터가 될 수 있으며, 이는 zt ​∈ RS로 표시됩니다. 사용 시, 공변량 TS는 과거 시간 단계 또는 향후 단계에 대해서만 사용할 수 있습니다(축제 달력에 포함됨).

  • (선택 사항) 서비스 품질(예: 첫 번째 클래스 또는 두 번째 클래스)과 같은 정적 공변량으로, u ∈ RE로 표시됩니다.

특정 애플리케이션 시나리오에 따라 정적 공변량, 동적 공변량 또는 둘 다를 생략할 수 있습니다. 예측 범위 K ≥ 0(예: K=30일)에서 모델 예측은 f(x[1:T], z[1:T+K], u) = x[T+1:T +K+1]의 공식으로 특성화할 수 있습니다.

다음 다이어그램은 일반적인 예측 모델의 종속성 구조를 보여줍니다. t+1 시점의 예측은 앞서 언급한 세 가지 유형의 입력에 따라 달라집니다.

일반적인 예측 모델의 종속성 구조입니다.

메서드

설명은 원래 입력에서 파생된 일련의 포인트에 시계열 모델 f를 쿼리하여 계산됩니다. 게임 이론 구성에 따라 Clarify는 입력의 난독화(즉, 기준 값으로 설정) 부분이 주도하는 예측의 평균 차이를 반복적으로 확인합니다. 시간적 구조는 시간순 또는 시간 역순 또는 둘 다로 탐색할 수 있습니다. 시간순 설명은 첫 번째 단계부터 정보를 반복적으로 추가하여 구축되고 시간 역순은 마지막 단계부터 추가합니다. 주가 예측과 같이 최신성 편향이 있는 경우 시간 역순 모드가 더 적절할 수 있습니다. 계산된 설명의 중요한 속성 중 하나는 모델이 결정적 출력을 제공하는 경우 원래 모델 출력에 합산한다는 것입니다.

결과 어트리뷰션

결과 어트리뷰션은 각 예상 시간 단계에서 최종 예측에 대한 특정 시간 단계 또는 입력 특성의 개별 기여도를 나타내는 점수입니다. Clarify는 설명에 대해 다음과 같은 두 가지 세부 정보를 제공합니다.

  • 시간별 설명은 저렴하며 과거 19번째 날의 정보가 향후 첫 번째 날의 예측에 얼마나 기여했는지와 같은 특정 시간 단계에 대한 정보만 제공합니다. 이러한 어트리뷰션은 개별적으로 정적 공변량을 설명하지 않으며 대상 및 공변량 시계열에 대한 설명을 집계하지 않습니다. 어트리뷰션은 행렬 A입니다. 여기서 각 Atk는 시간 단계 T+k의 예측에 대한 시간 단계 t의 어트리뷰션입니다. 모델이 미래 공변량을 수락하는 경우 tT보다 클 수 있습니다.

  • 세분화된 설명은 더 컴퓨팅 집약적이며 입력 변수의 모든 어트리뷰션에 대한 전체 분석을 제공합니다.

    참고

    세분화된 설명은 시간순만 지원합니다.

    결과 어트리뷰션은 다음으로 구성된 트리플릿입니다.

    • 입력 시계열과 관련된 매트릭스 Ax ∈ RT×K. 여기서 Atkx는 예측 단계 T+k에 대한 xt의 어트리뷰션입니다.

    • 공변량 시계열과 관련된 Tensor AzRT+K×S×K. 여기서 Atskz는 예측 단계 T+k에 대한 zts​(즉, sth 공변량 TS)의 어트리뷰션입니다.

    • 정적 공변량과 관련된 매트릭스 Au ∈ RE×K. 여기서 Aeku는 예측 단계 T+k에 대한 ue(eth 정적 공변량)의 어트리뷰션입니다.

세분화와 관계없이 설명에는 모든 데이터가 난독화될 때 모델의 '기본 동작'을 나타내는 오프셋 벡터 BRK도 포함되어 있습니다.