Amazon Machine Learning에 사용되는 주요 개념 - Amazon Machine Learning

더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 Amazon Machine Learning이란? 단원을 참조하세요.

Amazon Machine Learning에 사용되는 주요 개념

이 단원에서는 다음 주요 개념을 요약하고 Amazon ML에서 이들 개념이 어떻게 사용되는 지를 자세히 설명합니다.

  • 데이터 소스은 Amazon ML에 대한 데이터 입력과 관련된 메타데이터를 포함시킵니다.

  • ML 모델은 입력 데이터에서 추출한 패턴을 사용하여 예측을 생성합니다.

  • 평가은 ML 모델의 품질을 측정합니다.

  • 배치 예측은 여러 입력 데이터 관측치에 대한 예측을 비동기적으로 생성합니다.

  • 실시간 예측은 개별 데이터 관측치에 대한 예측을 동기적으로 생성합니다.

데이터 소스

데이터 소스는 입력 데이터에 대한 메타데이터를 포함하고 있는 객체입니다. Amazon ML은 입력 데이터를 읽고, 해당 속성에 대한 설명 통계를 계산하고, 스키마 및 기타 정보와 함께 통계를 데이터 소스 객체의 일부로 저장합니다. 그 다음, Amazon ML은 데이터 소스를 사용하여 ML 모델을 학습 및 평가하고 배치 예측을 생성합니다.

중요

데이터 소스는 입력 데이터의 사본은 저장하지 않습니다. 대신 입력 데이터가 있는 Amazon S3 위치에 대한 참조를 저장합니다. Amazon S3 파일을 이동하거나 변경한 경우 Amazon ML은 이 파일에 액세스하거나 이를 사용하여 ML 모델을 생성하거나 평가를 생성하거나 예측을 생성할 수 없습니다.

다음 표에는 데이터 소스와 관련된 용어가 정의되어 있습니다.

용어 정의
속성

관측치 내에서 고유하고 이름이 지정된 속성. 스프레드시트 또는 쉼표로 구분된 값(.csv) 파일과 같은 표 형식 데이터에서 열 헤더는 특성을 나타내며 행은 각 특성에 대한 값을 포함하고 있습니다.

동의어: 변수, 변수 이름, 필드, 열

데이터 소스 이름 (선택 사항) 사람이 읽을 수 있는 데이터 소스 이름을 정의할 수 있습니다. 이러한 이름을 사용하면 Amazon ML 콘솔에서 데이터 소스를 찾고 관리할 수 있습니다.
입력 데이터 데이터 소스에서 참조하는 모든 관측치의 총칭.
위치 입력 데이터의 위치. 현재 Amazon ML은 Amazon S3 버킷, Amazon Redshift 데이터베이스 또는 Amazon Relational Database Service(RDS)의 MySQL 데이터베이스에 저장된 데이터를 사용할 수 있습니다.
관측치

단일 입력 데이터 단위. 예를 들어 사기 거래를 탐지하기 위한 ML 모델을 만드는 경우 입력 데이터는 각각 개별 거래를 나타내는 많은 관측치로 구성될 것입니다.

동의어: 레코드, 예제, 인스턴스, 행

행 ID

(선택 사항) 입력 데이터에서 예측 출력에 포함시킬 속성을 식별하는 플래그(지정된 경우). 이 속성을 사용하면 어떤 예측이 어떤 관측치에 대응하는 지를 보다 쉽게 연결할 수 있습니다.

동의어: 행 식별자

스키마 속성 이름 및 할당된 데이터 형식, 특수 속성의 이름 등을 포함하여 입력 데이터를 해석하는 데 필요한 정보.
통계

입력 데이터의 각 속성에 대한 요약 통계 이 통계는 다음 두 가지 목적을 위한 것입니다.

Amazon ML 콘솔은 데이터를 한 눈에 파악하고 불규칙성이나 오류를 식별할 수 있도록 그래프로 표시합니다.

Amazon ML은 학습 프로세스 중에 이를 사용하여 결과로 생성된 ML 모델의 품질을 개선합니다.

상태 데이터 소스의 현재 상태(예: 진행 중, 완료됨, 실패)를 나타냅니다.
대상 속성

ML 모델 학습과 관련하여 대상 속성은 입력 데이터에서 "정답"이 포함된 속성의 이름을 식별합니다. Amazon ML은 이를 사용하여 입력 데이터에서 패턴을 발견하고 ML 모델을 생성합니다. 예측 평가 및 생성의 맥락에서 대상 속성이란 학습된 ML 모델을 통해 예측된 값을 가진 속성을 말합니다.

동의어: 대상

ML 모델

ML 모델은 데이터에서 패턴을 찾아 예측을 생성하는 수학적 모델입니다. Amazon ML은 바이너리 분류, 멀티클래스 분류 및 회귀라는 세 가지 유형의 ML 모델을 지원합니다.

다음 표에는 데이터 품질과 관련된 용어가 정의되어 있습니다.

용어 정의
회귀 회귀 ML 모델 학습의 목표는 숫자 값을 예측하는 것입니다.
멀티클래스 멀티클래스 ML 모델 학습의 목표는 미리 정의된 제한적인 허용 값 집합에 속하는 값을 예측하는 것입니다.
이진수 이진 ML 모델 학습의 목표는 true 또는 false와 같이 두 가지 상태 중 하나만 가질 수 있는 값을 예측하는 것입니다.
모델 크기 ML 모델은 패턴을 캡처하고 저장합니다. ML 모델이 저장하는 패턴이 많을수록 모델 크기는 더 커집니다. ML 모델 크기는 MB 단위로 설명됩니다.
전달 횟수 ML 모델을 학습할 때는 데이터 소스의 데이터를 사용합니다. 학습 프로세스에서 각 데이터 레코드를 두 번 이상 사용하는 것이 유용한 경우가 있습니다. Amazon ML에서 동일한 데이터 레코드를 사용하도록 허용한 횟수를 전달 횟수라고 합니다.
정규화 정규화란 고품질 모델을 얻는 데 사용할 수 있는 기계 학습 기법입니다. Amazon ML은 대부분의 경우에 잘 작동하는 기본 설정을 제공합니다.

평가

평가는 ML 모델의 품질을 측정하고 성능이 좋은지 판단합니다.

다음 표에는 평가와 관련된 용어가 정의되어 있습니다.

용어 정의
모델 인사이트 정보 Amazon ML은 모델의 예측 성능을 평가하는 데 사용할 수 있는 지표와 다양한 인사이트 정보를 제공합니다.
AUC ROC 곡선하면적(AUC)에서는 부정 예제보다 긍정 예제에 대해 더 높은 점수를 예측하는 모델의 기능을 측정합니다.
매크로 평균 F1 점수 매크로 평균 F1 점수는 멀티클래스 ML 모델의 예측 성능을 평가하는 데 사용됩니다.
RMSE 평균 제곱근 오차(RMSE)는 회귀 ML 모델의 예측 성능을 평가하는 데 사용되는 지표입니다.
커트라인 ML 모델은 숫자 예측 점수를 생성하는 방식으로 작동합니다. 시스템은 커트라인 값을 적용하여 이러한 점수를 0과 1 레이블로 변환합니다.
정확도 정확도는 올바른 예측의 백분율을 측정합니다.
정밀도 정밀도는 검색된 인스턴스(양수로 예측되는 인스턴스) 중 실제 양성이 확인된 인스턴스(거짓 긍정과 반대)의 비율을 나타냅니다. 즉, 선택한 항목 중 긍정에 해당하는 항목 수를 말합니다.
재현율 재현율은 관련 인스턴스의 총 수 중 실제 긍정의 비율(실제 긍정)을 나타냅니다. 즉, 선택된 긍정 항목의 수를 나타냅니다.

배치 예측

배치 예측은 한 번에 모두 실행할 수 있는 일련의 관측치에 대한 예측입니다. 이는 실시간 요구 사항이 없는 예측 분석에 적합합니다.

다음 표에는 배치 예측과 관련된 용어가 정의되어 있습니다.

용어 정의
출력 위치 배치 예측의 결과는 S3 버킷 출력 위치에 저장됩니다.
매니페스트 파일 매니페스트 파일은 각 입력 데이터 파일을 관련 배치 예측 결과와 관련시킵니다. 이 파일은 S3 버킷 출력 위치에 저장됩니다.

실시간 예측

실시간 예측은 대화형 웹, 모바일 또는 데스크톱 애플리케이션과 같이 지연 시간이 짧아야 하는 애플리케이션을 위한 것입니다. ML 모델에 지연 시간이 짧은 실시간 예측 API를 사용하여 실시간으로 예측을 쿼리할 수 있습니다.

다음 표에는 실시간 예측과 관련된 용어가 정의되어 있습니다.

용어 정의
실시간 예측 API 실시간 예측 API는 요청 페이로드에서 단일 입력 관측치를 수용하고 응답에서 예측을 반환합니다.
실시간 예측 엔드포인트 ML 모델을 실시간 예측 API와 함께 사용하려면 실시간 예측 엔드포인트를 생성해야 합니다. 생성된 엔드포인트에는 실시간 예측을 요청하는 데 사용할 수 있는 URL이 포함됩니다.