평가 경보 - Amazon Machine Learning

더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 Amazon Machine Learning이란? 단원을 참조하세요.

평가 경보

Amazon ML은 모델을 올바르게 평가했는지 검증하는 데 도움이 되는 인사이트 정보를 제공합니다. 평가 결과 검증 기준 중 하나라도 충족되지 않는 경우 Amazon ML 콘솔은 다음과 같이 위반된 검증 기준을 표시하여 경보를 표시합니다.

  • ML 모델 평가는 보류된 데이터에 대해 수행됩니다.

    Amazon ML은 학습 및 평가에 동일한 데이터 소스를 사용하는 경우 경보를 표시합니다. Amazon ML을 사용하여 데이터를 분할하면 이 유효성 기준을 충족하게 됩니다. Amazon ML을 사용하여 데이터를 분할하지 않는 경우 학습 데이터 소스가 아닌 다른 데이터 소스로 ML 모델을 평가해야 합니다.

  • 예측 모델 평가에 충분한 데이터 사용

    평가 데이터의 관측치/레코드 수가 학습 데이터 소스에 있는 관측치 수의 10% 미만인 경우 Amazon ML에서 경고합니다. 모델을 제대로 평가하려면 충분히 큰 데이터 샘플을 제공하는 것이 중요합니다. 이 기준을 통해 데이터를 너무 적게 사용하고 있는지 확인할 수 있습니다. ML 모델을 평가하는 데 필요한 데이터의 양은 주관적입니다. 더 나은 측정이 없을 경우를 대비하여 여기서는 10%를 임시방편으로 선택합니다.

  • 스키마가 일치

    Amazon ML은 학습 데이터 소스와 평가 데이터 소스의 스키마가 동일하지 않을 경우 경보를 표시합니다. 평가 데이터 소스에 없는 특정 속성이 있거나 추가 속성이 있는 경우 Amazon ML은 이 경보를 표시합니다.

  • 평가 파일의 모든 레코드가 예측 모델 성능 평가에 사용

    평가를 위해 제공된 모든 레코드가 실제로 모델을 평가하는 데 사용되었는지 아는 것이 중요합니다. 평가 데이터 소스의 일부 레코드가 유효하지 않아 정확도 지표 계산에 포함되지 않은 경우 Amazon ML에서 경보를 보냅니다. 예를 들어 평가 데이터 소스의 일부 관측치에 대상 변수가 누락된 경우 Amazon ML은 이러한 관측치에 대한 ML 모델의 예측이 정확한지 확인할 수 없습니다. 이 경우 타겟 값이 누락된 레코드는 유효하지 않은 것으로 간주됩니다.

  • 대상 변수의 분포

    Amazon ML은 학습 및 평가 데이터 소스의 대상 속성 분포를 보여 주므로 두 데이터 소스에서 대상이 비슷하게 분포되어 있는지 검토할 수 있습니다. 평가 데이터에 대한 대상 분포와 대상 분포가 다른 학습 데이터를 기반으로 모델을 학습한 경우, 통계가 매우 다른 데이터를 대상으로 계산되므로 평가 품질이 저하될 수 있습니다. 데이터를 학습 데이터와 평가 데이터에 비슷하게 분포시키고 이러한 데이터 세트가 예측 시 모델이 접하게 될 데이터를 최대한 모방하도록 하는 것이 가장 좋습니다.

    이 경보가 트리거되면 무작위 분할 전략을 사용하여 데이터를 학습 데이터 소스와 평가 데이터 소스로 분할해 봅니다. 드문 경우이긴 하지만 데이터를 무작위로 분할했는데도 이 경보가 목표 분포 차이에 대해 잘못 경고할 수도 있습니다. Amazon ML은 대략적인 데이터 통계를 사용하여 데이터 분포를 평가하며, 때때로 이 경보가 오류로 트리거됩니다.