SageMaker Clarify를 사용한 공정성, 모델 설명 가능성 및 편향 감지 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Clarify를 사용한 공정성, 모델 설명 가능성 및 편향 감지

Amazon SageMaker Clarify를 사용하여 공정성과 모델 설명을 이해하고 모델에서 편향을 설명하고 감지할 수 있습니다. 편향 지표와 특성 속성을 계산하고 모델 설명 가능성을 위한 보고서를 생성하도록 SageMaker Clarify 처리 작업을 구성할 수 있습니다. SageMaker Clarify 처리 작업은 특수 SageMaker Clarify 컨테이너 이미지를 사용하여 구현됩니다. 다음 페이지에서는 SageMaker Clarify의 작동 방식과 분석을 시작하는 방법을 설명합니다.

기계 학습 예측의 공정성과 모델 설명 가능성이란 무엇입니까?

기계 학습(ML) 모델은 금융 서비스, 의료, 교육 및 인적 리소스를 포함한 도메인에서 의사 결정을 내리는 데 도움이 됩니다. 정책 입안자, 규제 기관 및 옹호자는 ML 및 데이터 기반 시스템이 제기하는 윤리 및 정책 문제에 대한 인식을 높였습니다. Amazon SageMaker Clarify는 ML 모델이 특정 예측을 수행한 이유와 이러한 편향이 훈련 또는 추론 중에 이 예측에 영향을 미치는지 여부를 이해하는 데 도움이 될 수 있습니다. SageMaker Clarify는 또한 편향이 적고 더 이해하기 쉬운 기계 학습 모델을 구축하는 데 도움이 되는 도구를 제공합니다. SageMaker Clarify는 위험 및 규정 준수 팀과 외부 규제 기관에 제공할 수 있는 모델 거버넌스 보고서를 생성할 수도 있습니다. SageMaker Clarify를 사용하면 다음을 수행할 수 있습니다.

  • 에서 편향을 감지하고 모델 예측을 설명하는 데 도움이 됩니다.

  • 훈련 전 데이터에서 편향 유형을 식별합니다.

  • 훈련 중 또는 모델이 프로덕션 상태일 때 발생할 수 있는 훈련 후 데이터의 편향 유형을 식별합니다.

SageMaker Clarify는 모델이 특성 속성을 사용하여 예측하는 방법을 설명하는 데 도움이 됩니다. 또한 바이어스와 특성 속성 드리프트 모두에 대해 프로덕션 중인 추론 모델을 모니터링할 수 있습니다. 이 정보는 다음 영역에서 도움이 될 수 있습니다.

  • 규제 - 정책 입안자 및 기타 규제 기관은 ML 모델의 출력을 사용하는 결정의 차별적 영향에 대해 우려할 수 있습니다. 예를 들어 ML 모델은 편향을 인코딩하고 자동화된 결정에 영향을 미칠 수 있습니다.

  • 비즈니스 - 규제된 도메인에는 ML 모델이 예측하는 방법에 대한 신뢰할 수 있는 설명이 필요할 수 있습니다. 모델 설명 가능성은 신뢰성, 안전성 및 규정 준수에 의존하는 산업에 특히 중요할 수 있습니다. 여기에는 금융 서비스, 인적 자원, 의료 및 자동 운송이 포함될 수 있습니다. 예를 들어 대출 애플리케이션에서 ML 모델이 대출 담당자, 예측자 및 고객에게 특정 예측을 수행한 방법에 대한 설명을 제공해야 할 수 있습니다.

  • 데이터 사이언스 - 데이터 과학자와 ML 엔지니어는 모델이 노이즈가 있거나 관련이 없는 기능을 기반으로 추론을 하는지 여부를 확인할 수 있을 때 ML 모델을 디버깅하고 개선할 수 있습니다. 또한 모델과 모델이 직면할 수 있는 장애 모드의 제한 사항을 이해할 수 있습니다.

SageMaker Clarify를 SageMaker 파이프라인에 통합하는 사기 자동차 클레임에 대한 전체 기계 학습 모델을 설계하고 구축하는 방법을 보여주는 블로그 게시물은 아키텍트를 참조하고 AWS: Amazon 데모를 사용하여 전체 기계 학습 수명 주기를 구축하세요 end-to-end SageMaker. 이 블로그 게시물에서는 훈련 전 및 훈련 후 편향을 평가하고 완화하는 방법과 기능이 모델 예측에 미치는 영향에 대해 설명합니다. 블로그 게시물에는 ML 수명 주기의 각 작업에 대한 예제 코드 링크가 포함되어 있습니다.

ML 수명 주기에서 공정성과 설명 가능성을 평가하는 모범 사례

프로세스로서의 공정성 - 편향과 공정성에 대한 개념은 적용에 따라 달라집니다. 편향 측정 및 편향 지표 선택은 사회적, 법적 및 기타 비기술적 고려 사항에 따라 달라질 수 있습니다. 공정성 인식 ML 접근 방식의 성공적인 채택에는 합의 구축 및 주요 이해관계자 간의 협업 달성이 포함됩니다. 여기에는 제품, 정책, 법률, 엔지니어링, AI/ML 팀, 최종 사용자 및 커뮤니티가 포함될 수 있습니다.

ML 수명 주기의 설계별 공정성 및 설명 가능성 - ML 수명 주기의 각 단계에서 공정성과 설명 가능성을 고려합니다. 이러한 단계에는 문제 형성, 데이터 세트 구성, 알고리즘 선택, 모델 훈련 프로세스, 테스트 프로세스, 배포, 모니터링 및 피드백이 포함됩니다. 이러한 분석을 수행할 수 있는 올바른 도구를 갖추는 것이 중요합니다. ML 수명 주기 동안 다음 질문을 하는 것이 좋습니다.

  • 모델이 점점 더 불공평한 결과를 가져올 수 있는 피드백 루프를 장려합니까?

  • 알고리즘이 문제에 대한 윤리적 솔루션입니까?

  • 훈련 데이터가 다른 그룹을 대표합니까?

  • 레이블 또는 기능에 편향이 있습니까?

  • 편향을 완화하기 위해 데이터를 수정해야 합니까?

  • 공정성 제약 조건을 목표 함수에 포함해야 합니까?

  • 관련 공정성 지표를 사용하여 모델을 평가했습니까?

  • 사용자 간에 불평등한 영향이 있나요?

  • 모델이 훈련 또는 평가되지 않은 모집단에 배포됩니까?

공정성과 모델 설명 가능성을 평가하는 프로세스에 대한 모범 사례입니다.

SageMaker 설명 및 편향 설명서 가이드

편향은 모델을 훈련하기 전과 후에 데이터에서 발생하고 측정될 수 있습니다. SageMaker Clarify는 훈련 후 모델 예측과 프로덕션에 배포된 모델에 대한 설명을 제공할 수 있습니다. SageMaker Clarify는 또한 프로덕션 중인 모델에 기준 설명 속성의 드리프트가 있는지 모니터링하고 필요한 경우 기준을 계산할 수 있습니다. SageMaker Clarify를 사용하여 편향을 설명하고 감지하기 위한 설명서는 다음과 같이 구성됩니다.

처리 작업 SageMaker 명확화의 작동 방식

SageMaker Clarify를 사용하여 데이터 세트와 모델을 분석하여 설명 가능성과 편향을 확인할 수 있습니다. SageMaker Clarify 처리 작업은 SageMaker Clarify 처리 컨테이너를 사용하여 입력 데이터 세트가 포함된 Amazon S3 버킷과 상호 작용합니다. SageMaker Clarify를 사용하여 SageMaker 추론 엔드포인트에 배포된 고객 모델을 분석할 수도 있습니다.

다음 그림은 SageMaker Clarify 처리 작업이 입력 데이터와 상호 작용하는 방식과 고객 모델과 상호 작용하는 방식을 보여줍니다. 이 상호작용은 수행 중인 분석의 구체적인 유형에 따라 달라집니다. SageMaker Clarify 처리 컨테이너는 S3 버킷에서 분석을 위한 입력 데이터 세트 및 구성을 가져옵니다. 특성 분석을 포함한 특정 분석 유형의 경우 SageMaker Clarify 처리 컨테이너는 모델 컨테이너에 요청을 보내야 합니다. 그런 다음에는 모델 컨테이너가 보내오는 응답에서 모델 예측을 얻어냅니다. 그런 다음 SageMaker Clarify 처리 컨테이너는 분석 결과를 계산하여 S3 버킷에 저장합니다.

SageMaker Clarify는 데이터 또는 고객 모델을 분석하여 설명 가능성과 편향을 확인할 수 있습니다.

기계 학습 워크플로 수명 주기의 여러 단계에서 SageMaker Clarify 처리 작업을 실행할 수 있습니다. SageMaker Clarify는 다음 분석 유형을 계산하는 데 도움이 될 수 있습니다.

  • 훈련 전 편향 지표. 이러한 지표는 데이터의 편향을 이해하는 데 도움이 되므로 데이터를 처리하고 모델을 보다 공정한 데이터 세트로 훈련할 수 있습니다. 훈련 전 편향 지표에 대한 자세한 내용은 훈련 전 편향 지표 섹션을 참조하세요. 훈련 전 편향 지표를 분석하는 작업을 실행하려면 데이터 세트와 JSON 분석 구성 파일을 에 제공해야 합니다분석 구성 파일.

  • 훈련 후 편향 지표. 이러한 지표를 사용하면 알고리즘, 하이퍼파라미터 선택 또는 흐름의 앞부분에서 명확하지 않은 편향을 이해하는 데 도움이 될 수 있습니다. 훈련 후 편향 지표에 대한 자세한 내용은 섹션을 참조하세요훈련 후 데이터 및 모델 편향 지표. SageMaker Clarify는 데이터 및 레이블 외에도 모델 예측을 사용하여 편향을 식별합니다. 훈련 후 편향 지표를 분석하는 작업을 실행하려면 데이터 세트와 JSON 분석 구성 파일을 제공해야 합니다. 해당 구성에는 모델 또는 엔드포인트 이름이 포함되어야 합니다.

  • Shapley 값은 기능이 모델 예측에 미치는 영향을 이해하는 데 도움이 될 수 있습니다. Shapley 값에 대한 자세한 내용은 섹션을 참조하세요Shapley 값을 사용하는 기능 특성. 이 특징을 사용하려면 훈련된 모델이 필요합니다.

  • 부분 종속성 플롯(PDPs)은 한 특성의 값을 변경하면 예측 대상 변수가 얼마나 많이 변할지 이해하는 데 도움이 될 수 있습니다. 에 대한 자세한 내용은 훈련된 모델이 필요한 부분 종속성 플롯(PDPs) 분석 이 기능을 PDPs참조하세요.

SageMaker Clarify는 훈련 후 편향 지표와 특성 속성을 계산하기 위한 모델 예측이 필요합니다. 엔드포인트를 제공하거나 SageMaker Clarify가 섀도우 엔드포인트라고도 하는 모델 이름을 사용하여 임시 엔드포인트를 생성합니다. SageMaker Clarify 컨테이너는 계산이 완료된 후 섀도우 엔드포인트를 삭제합니다. 높은 수준에서 SageMaker Clarify 컨테이너는 다음 단계를 완료합니다.

  1. 입력 및 매개변수의 유효성을 검사합니다.

  2. 섀도우 엔드포인트를 생성합니다(모델 이름이 제공된 경우).

  3. 입력 데이터 세트를 데이터 프레임에 로드합니다.

  4. 필요한 경우 엔드포인트에서 모델 예측을 가져옵니다.

  5. 편향 지표와 특징 속성을 계산합니다.

  6. 섀도우 엔드포인트를 삭제합니다.

  7. 분석 결과를 생성합니다.

처리 작업 SageMaker 확인이 완료되면 분석 결과가 작업의 처리 출력 파라미터에 지정한 출력 위치에 저장됩니다. 이러한 결과에는 바이어스 지표와 전역 특성 속성이 있는 JSON 파일, 시각적 보고서, 로컬 특성 속성에 대한 추가 파일이 포함됩니다. 결과는 출력 위치에서 다운로드하여 볼 수 있습니다.

편향 지표, 설명 가능성 및 해석 방법에 대한 자세한 내용은 Amazon SageMaker Clarify가 편향을 탐지하는 데 어떻게 도움이 되는지 알아보기, 금융에서의 Machine Learning에 대한 공정성 측정, Amazon AI 공정성 및 설명 가능성 백서를 참조하세요.

샘플 노트북

다음 섹션에는 SageMaker Clarify 사용을 시작하는 데 도움이 되는 노트북, 분산 작업 내부의 작업을 포함한 특수 작업 및 컴퓨터 비전에 사용할 수 있는 노트북이 포함되어 있습니다.

시작하기

다음 샘플 노트북에서는 SageMaker Clarify를 사용하여 설명 가능성 및 모델 편향 작업을 시작하는 방법을 보여줍니다. 이러한 작업에는 처리 작업 생성, 기계 학습(ML) 모델 훈련, 모델 예측 모니터링이 포함됩니다.

특수 사례

다음 노트북은 자체 컨테이너 내부를 포함한 특수 사례 및 자연어 처리 작업에 SageMaker Clarify를 사용하는 방법을 보여줍니다.

이러한 노트북은 Amazon SageMaker Studio Classic에서 실행되는 것으로 확인되었습니다. Studio Classic에서 노트북을 여는 방법에 대한 지침이 필요한 경우 섹션을 참조하세요Amazon SageMaker Studio Classic 노트북 생성 또는 열기. 커널을 선택하라는 메시지가 표시되면, Python 3(데이터 과학)를 선택합니다.