텍스트 데이터용 내장된 SageMaker AI 알고리즘

SageMaker AI는 자연어 처리, 문서 분류 또는 요약, 주제 모델링 또는 분류, 언어 트랜스크립션 또는 번역에 사용되는 텍스트 문서의 분석에 맞게 조정된 알고리즘을 제공합니다.

BlazingText 알고리즘 - 대규모 데이터세트로 쉽게 확장할 수 있는 Word2vec 및 텍스트 분류 알고리즘의 고도로 최적화된 구현. 많은 다운스트림 자연어 처리 (NLP) 작업에 유용합니다.
Latent Dirichlet Allocation(LDA) 알고리즘 - 여러 문서에서 주제를 결정하는 데 적합한 알고리즘. 비지도 알고리즘으로 훈련 중 답이 포함된 예제 데이터를 사용하지 않습니다.
Neural Topic Model(NTM) 알고리즘 - 신경망 접근 방식을 사용하여 여러 문서에서 주제를 결정하는 또 다른 비지도 기법.
Object2Vec 알고리즘 - 추천 시스템, 문서 분류 및 문장 임베딩에 사용할 수 있는 범용 신경 임베딩 알고리즘.
Sequence-to-Sequence 알고리즘 - 신경망 기계 번역에 일반적으로 사용되는 감독형 알고리즘.
텍스트 분류 - TensorFlow - 텍스트 분류에 사용할 수 있는 사전 훈련된 모델을 사용하여 전이 학습을 지원하는 지도 알고리즘.

알고리즘 이름	채널 이름	훈련 입력 모드	파일 유형	인스턴스 클래스	병렬화 가능
BlazingText	train	파일 또는 파이프	텍스트 파일(행당 공백으로 분류된 토큰이 포함된 하나의 문장)	GPU(단일 인스턴스 전용) 또는 CPU	아니요
LDA	train 및 (선택 사항) test	파일 또는 파이프	recordIO-protobuf 또는 CSV	CPU(단일 인스턴스 전용)	아니요
Neural Topic Model	train 및 (선택 사항) validation, test 또는 모두	파일 또는 파이프	recordIO-protobuf 또는 CSV	GPU 또는 CPU	예
Object2Vec	train 및 (선택 사항) validation, test 또는 모두	파일	JSON Lines	GPU 또는 CPU(단일 인스턴스 전용)	아니요
Seq2Seq Modeling	train, validation 및 vocab	파일	recordIO-protobuf	GPU(단일 인스턴스 전용)	아니요
텍스트 분류 - TensorFlow	훈련 및 검증	파일	CSV	CPU 또는 GPU	예(단일 인스턴스의 여러 GPU에서만 가능)

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

XGBoost Release 0.72

BlazingText