PCA 알고리즘의 입력/출력 인터페이스 PCA 알고리즘에 대한 EC2 인스턴스 권장 사항 샘플 노트북

Principal Component Analysis(PCA) 알고리즘

PCA는 가급적 많은 정보를 보유하면서 데이터 세트 내의 차원(특징의 수)을 줄이려 하는 비지도 기계 학습 알고리즘입니다. 이는 성분이라고 하는 새로운 특징 세트를 찾음으로써 이루어집니다. 성분은 다른 특징과 상관 관계가 없는 기존 특징의 복합 객체입니다. 또한 제약이 되어 있기 때문에 첫 번째 성분은 데이터에서 가능성이 가장 큰 변수를 처리하고, 두 번째 성분은 두 번째로 큰 변수를 처리합니다.

Amazon SageMaker AI에서 PCA는 시나리오에 따라 두 모드로 작동합니다.

regular: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.
randomized: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.

PCA는 테이블형 데이터를 사용합니다.

행은 저차원 공간에 임베딩하고자 하는 관측치를 나타냅니다. 열은 축소된 근사치를 찾고자 하는 특징을 나타냅니다. 알고리즘은 공분산 매트릭스(또는 분산 방식의 근사치)를 계산한 다음 이 요약에 대해 단수 값 분해를 수행하여 주성분을 생산합니다.

주제

PCA 알고리즘의 입력/출력 인터페이스
PCA 알고리즘에 대한 EC2 인스턴스 권장 사항
PCA 샘플 노트북
PCA 작동 방식
PCA 하이퍼파라미터
PCA 응답 형식

PCA 알고리즘의 입력/출력 인터페이스

훈련을 위해 PCA는 훈련 채널에 데이터가 제공될 것을 예상하고, 선택적으로 테스트 데이터 세트에 전달된 데이터 세트를 지원하고, 이는 최종 알고리즘에서 점수가 계산됩니다. recordIO-wrapped-protobuf 형식과 CSV 형식 모두 훈련에 지원됩니다. 파일 모드 또는 파이프 모드를 사용하여 recordIO-wrapped-protobuf 또는 CSV로 형식이 지정된 데이터에 대해 모델을 훈련할 수 있습니다.

추론의 경우 PCA는 text/csv, application/json 및 application/x-recordio-protobuf를 지원합니다. 결과는 ‘프로젝션’의 벡터를 포함한 application/json 또는 application/x-recordio-protobuf 형식으로 반환됩니다.

입력 및 출력 파일 형식에 대한 자세한 정보는 PCA 응답 형식(추론의 경우) 및 PCA 샘플 노트북 섹션을 참조하세요.

PCA 알고리즘에 대한 EC2 인스턴스 권장 사항

PCA는 훈련 및 추론을 위해 CPU 및 GPU 인스턴스를 지원합니다. 어떤 인스턴스 유형의 성능이 뛰어난지는 입력 데이터의 세부 사항에 따라 크게 다릅니다. GPU 인스턴스의 경우 PCA는 P2, P3, G4dn 및 G5를 지원합니다.

PCA 샘플 노트북

MNIST 데이터세트에서 0~9의 수기 숫자 이미지를 분석하는 데 SageMaker AI Principal Component Analysis 알고리즘을 사용하는 방법을 보여주는 샘플 노트북은 An Introduction to PCA with MNIST를 참조하세요. SageMaker AI에서 예시 실행에 사용할 수 있는 Jupyter Notebook 인스턴스를 만들고 이 인스턴스에 액세스하는 방법에 대한 설명은 Amazon SageMaker 노트북 인스턴스 섹션을 참조하세요. 노트북 인스턴스를 만든 후 열면 SageMaker AI 예시 탭을 선택하여 모든 SageMaker AI 샘플 목록을 확인할 수 있습니다. NTM 알고리즘을 사용하는 주제 모델링 예제 노트북은 Introduction to Amazon algorithms(Amazon 알고리즘 소개) 섹션에 있습니다. 노트북을 열려면 사용 탭을 클릭하고 사본 생성을 선택합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

추론 형식

작동 방식