기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Factorization Machine 알고리즘
Factorization Machine 알고리즘은 분류 및 회귀 작업 모두에 대해 사용할 수 있는 범용 지도 학습 알고리즘입니다. 고차원 희소 데이터 세트 내 특징 간 상호 작용을 경제적으로 캡처하도록 설계된 선형 모델의 확장입니다. 예를 들어 클릭 예측 시스템에서 Factorization Machine 모델은 특정 페이지 범주에 속한 페이지에 배치된 특정 광고 범주의 광고로부터 관측된 클릭 비율 패턴을 캡쳐할 수 있습니다. Factorization Machine은 클릭 예측 및 품목 추천과 같은 고차원 희소 데이터 세트를 처리하는 작업에 있어 좋은 선택합니다.
참고
Factorization Machines 알고리즘의 Amazon SageMaker 구현은 기능 간의 페어별(2차) 상호 작용만 고려합니다.
주제
Factorization Machines 알고리즘의 입력/출력 인터페이스
Factorization Machine 알고리즘은 바이너리 분류 모드 또는 회귀 모드 중 하나에서 실행될 수 있습니다. 각 모드에서 데이터 세트는 교육 채널 데이터 세트와 함께 테스트 채널로 제공될 수 있습니다. 점수 계산은 사용하는 모드에 따라 달라집니다. 회귀 모드에서 테스트 데이터 세트는 루트 평균 제곱 오차()를 사용하여 점수를 매깁니다RMSE. 바이너리 분류 모드에서 테스트 데이터 세트는 바이너리 교차 엔트로피(로그 손실), 정확성(임계치 = 0.5) 및 F1 점수(임계치 = 0.5)를 사용하여 점수가 매겨집니다.
훈련의 경우 Factorization Machine 알고리즘은 현재 Float32
텐서가 포함된 recordIO-protobuf
형식만 지원합니다. 사용 사례가 주로 희소 데이터이기 때문에 CSV
는 좋은 선택이 아닙니다. 파일 및 파이프 모드 훈련 둘 다 recordIO-wrapped protobuf에 대해 지원됩니다.
추론의 경우 Factorization Machine 알고리즘은 application/json
및 x-recordio-protobuf
형식을 지원합니다.
-
바이너리 분류 문제의 경우 알고리즘은 점수와 레이블을 예측합니다. 레이블은 숫자이고
0
또는1
일 수 있습니다. 점수는 알고리즘이 레이블이1
일 것이라고 판단하는 강도를 나타내는 숫자입니다. 알고리즘은 먼저 점수를 계산한 후 점수 값에서 레이블을 도출합니다. 점수가 0.5 이상이면 레이블은1
입니다. -
회귀 문제의 경우 점수만 반환되며 이것은 예측된 값입니다. 예를 들어 Factorization Machines을 사용하여 영화 평점을 예측하는 경우 점수는 에측된 평점 값입니다.
훈련 및 추론 파일 형식에 대한 자세한 정보는 Factorization Machines 샘플 노트북 단원을 참조하세요.
EC2 Factorization Machines 알고리즘에 대한 인스턴스 권장 사항
Amazon SageMaker Factorization Machines 알고리즘은 확장성이 뛰어나며 분산 인스턴스 간에 훈련할 수 있습니다. 희소 데이터 세트와 고밀도 데이터 세트 모두에 대해 CPU 인스턴스를 사용하여 훈련 및 추론하는 것이 좋습니다. 경우에 따라 고밀도 데이터에 GPUs 대해 하나 이상의 를 사용하여 훈련하면 몇 가지 이점이 있을 수 있습니다. 를 사용한 훈련GPUs은 밀도가 높은 데이터에서만 사용할 수 있습니다. 희소 데이터에 CPU 인스턴스를 사용합니다. Factorization Machines 알고리즘은 훈련 및 추론을 위해 P2, P3, G4dn, G5 인스턴스를 지원합니다.
Factorization Machines 샘플 노트북
SageMaker Factorization Machines 알고리즘을 사용하여 MNIST 데이터 세트에서 0에서 9까지의 수기 숫자 이미지를 분석하는 샘플 노트북은 를 사용한 Factorization Machines 소개를 MNIST