기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
보안 주체 구성 요소 분석(PCA) 알고리즘
PCA는 가능한 한 많은 정보를 유지하면서 데이터 세트 내의 차원(특징 수)을 줄이려고 시도하는 비지도형 기계 학습 알고리즘입니다. 이는 성분이라고 하는 새로운 특징 세트를 찾음으로써 이루어집니다. 성분은 다른 특징과 상관 관계가 없는 기존 특징의 복합 객체입니다. 또한 제약이 되어 있기 때문에 첫 번째 성분은 데이터에서 가능성이 가장 큰 변수를 처리하고, 두 번째 성분은 두 번째로 큰 변수를 처리합니다.
Amazon SageMaker AI에서 PCA는 시나리오에 따라 두 가지 모드로 작동합니다.
-
regular: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.
-
randomized: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.
PCA는 테이블 형식 데이터를 사용합니다.
행은 저차원 공간에 임베딩하고자 하는 관측치를 나타냅니다. 열은 축소된 근사치를 찾고자 하는 특징을 나타냅니다. 알고리즘은 공분산 매트릭스(또는 분산 방식의 근사치)를 계산한 다음 이 요약에 대해 단수 값 분해를 수행하여 주성분을 생산합니다.
PCA 알고리즘의 입력/출력 인터페이스
훈련을 위해는 훈련 채널에 제공된 데이터를 PCA 예상하고, 선택적으로 테스트 데이터 세트에 전달된 데이터 세트를 지원하며, 이는 최종 알고리즘에 의해 점수가 매겨집니다. recordIO-wrapped-protobuf
형식과 CSV
형식 모두 훈련에 지원됩니다. 파일 모드 또는 파이프 모드를 사용하여 recordIO-wrapped-protobuf
또는 CSV
로 형식이 지정된 데이터에 대해 모델을 훈련할 수 있습니다.
추론의 경우는 text/csv
, 및 application/json
를 PCA 지원합니다application/x-recordio-protobuf
. 결과는 ‘프로젝션’의 벡터를 포함한 application/json
또는 application/x-recordio-protobuf
형식으로 반환됩니다.
입력 및 출력 파일 형식에 대한 자세한 정보는 PCA 응답 형식(추론의 경우) 및 PCA 샘플 노트북 섹션을 참조하세요.
EC2 PCA 알고리즘에 대한 인스턴스 권장 사항
PCA는 훈련 및 추론을 위해 CPU 및 GPU 인스턴스를 지원합니다. 어떤 인스턴스 유형의 성능이 뛰어난지는 입력 데이터의 세부 사항에 따라 크게 다릅니다. GPU 인스턴스의 경우는 P2, P3, G4dn 및 G5를 PCA 지원합니다.
PCA 샘플 노트북
SageMaker AI Principal Component Analysis 알고리즘을 사용하여 MNIST 데이터 세트에서 0에서 9까지의 수기 숫자 이미지를 분석하는 방법을 보여주는 샘플 노트북은 PCA를 사용한 소개를 MNIST