SageMaker Studio의 사전 훈련 데이터에서 편향에 대한 보고서 생성 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Studio의 사전 훈련 데이터에서 편향에 대한 보고서 생성

SageMaker Clarify는 Amazon SageMaker Data Wrangler와 통합되어 있으므로 자체 코드를 작성할 필요 없이 데이터 준비 중에 편향을 식별하는 데 도움이 될 수 있습니다. Data Wrangler는 Amazon SageMaker Studio를 end-to-end 사용하여 데이터를 가져오기, 준비, 변환, 특성화 및 분석할 수 있는 솔루션을 제공합니다. Data Wrangler 데이터 준비 워크플로에 대한 개요는 Amazon Data Wrangler를 사용하여 ML SageMaker 데이터 준비를 참조하세요.

성별 또는 연령과 같은 관심 속성을 지정하면 SageMaker Clarify는 알고리즘 세트를 실행하여 해당 속성에 편향이 있는지 감지합니다. 알고리즘이 실행된 후 SageMaker Clarify는 발생 가능한 편향의 소스 및 심각도에 대한 설명이 포함된 시각적 보고서를 제공하므로 완화 조치를 계획할 수 있습니다. 예를 들어, 금융 데이터 세트에서 다른 연령대와 비교하여 한 연령대에 대한 비즈니스 대출의 예가 거의 없는 경우 는 불균형을 SageMaker 지연시켜 해당 연령대를 불리하게 만드는 모델을 피할 수 있습니다.

데이터 편향을 분석하고 보고하는 방법

Data Wrangler를 시작하려면 Data Wrangler 시작하기를 참조하세요.

  1. Amazon SageMaker Studio Classic의 왼쪽 패널의 ( Black square icon representing a placeholder or empty image. ) 메뉴에서 데이터 노드로 이동한 다음 Data Wrangler를 선택합니다. 이렇게 하면 Studio Classic의 Data Wrangler 랜딩 페이지가 열립니다.

  2. + 데이터 가져오기 버튼을 클릭하여 새 흐름을 생성합니다.

  3. 플로우 페이지의 가져오기 탭에서 Amazon S3를 선택하고, Amazon S3 버킷으로 이동하여 해당 데이터 세트를 찾은 다음, 가져오기를 선택합니다.

  4. 데이터를 가져오고 나면, 데이터 흐름 탭에 있는 플로우 그래프에서 데이터 유형 노드 오른쪽에 있는 + 기호를 선택합니다.

  5. 분석 추가를 선택합니다.

  6. 분석 생성 페이지에 있는 분석 유형 항목에서 편향 보고서를 선택합니다.

  7. 보고서 이름, 예측할 열과 값/임계값 여부, 편향을 분석할 열(해당 패싯)과 값/임계값 여부를 입력하여 편향 보고서를 구성합니다.

  8. 원하는 편향 지표를 선택하여 편향 보고서 구성을 계속하세요.

    편향 지표를 선택합니다.
  9. 편향 검사하기를 선택하여 편향 보고서를 생성하고 확인합니다. 아래로 스크롤하여 전체 보고서를 봅니다.

    편향 보고서를 생성하고 확인합니다.
  10. 각 편향 지표 설명의 오른쪽에 있는 화살표를 선택하면 지표 값의 중요도를 해석하는 데 도움이 되는 문서를 볼 수 있습니다.

  11. 바이어스 지표 값의 테이블 요약을 보려면 테이블 토글을 선택하세요. 보고서를 저장하려면 페이지의 오른쪽 아래 모서리에 있는 저장을 선택합니다. 데이터 흐름 탭에 나와 있는 플로우 그래프에서 보고서를 확인할 수 있습니다. 보고서를 두 번 클릭하여 엽니다.