정확도와 비용 중에서 결정 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

정확도와 비용 중에서 결정

FindMatches 변환에는 accuracy-cost 파라미터가 포함되어 있습니다. 이 파라미터를 사용하여 다음 중 하나를 지정할 수 있습니다.

  • 변환이 두 레코드가 일치한다고 정확하게 보고하는 것이 더 우려되는 경우, 정확도를 강조해야 합니다.

  • 변환 실행 비용이나 속도가 더 우려되는 경우 더 낮은 비용을 강조해야 합니다.

AWS Glue 콘솔에서 또는 AWS Glue 기계 학습 API 작업을 사용하여 균형을 이룰 수 있습니다.

정확도를 추구해야 하는 경우

find matches 결과에 일치 항목이 포함되지 않을 위험이 더 우려되는 경우 정확도를 추구합니다. 정확도를 추구하려면 더 높은 정확도-비용 균형 값을 선택합니다. 더 높은 값의 경우 FindMatches 변환에는 정확하게 일치하는 레코드를 더 철저히 검색하기 위해 더 많은 시간이 필요합니다. 이 파라미터는 일치하지 않는 레코드 페어를 일치한다고 잘못 호출할 가능성을 낮추지는 않습니다. 이 변환은 일치 항목을 찾는 데 더 많은 시간을 보내는 경향이 있습니다.

비용을 추구해야 하는 경우

find matches 변환을 실행하는 데 드는 비용을 더 우려하고 일치 항목의 수를 찾는 것에 덜 우려하는 경우 비용을 추구합니다. 비용을 추구하려면 더 낮은 정확도-비용 균형 값을 선택합니다. 더 낮은 값의 경우 FindMatches 변환은 실행할 리소스가 더 적게 필요합니다. 이 변환은 일치 항목을 더 적게 찾는 경향이 있습니다. 더 낮은 비용을 추구했을 때 결과가 수용 가능한 수준인 경우 이 설정을 사용합니다.

정확도와 더 낮은 비용을 모두 추구하는 방법

더 많은 레코드 쌍을 검토하여 일치 여부를 확인하려면 더 많은 시간이 걸립니다. 품질을 낮추지 않고 비용을 줄이려면 다음과 같은 단계를 수행하면 됩니다.

  • 데이트 원본에서 일치에 대해 우려하지 않는 레코드를 제거합니다.

  • 일치/불일치 결정을 내리는 것이 유용하지 않다고 확신하는 열을 데이터 원본에서 제거합니다. 이를 결정하는 좋은 방법은 레코드 세트가 “동일”한지 여부에 대한 자신의 결정에 영향을 미친다고 생각하지 않는 열을 제거하는 것입니다.