本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
內建文字資料 SageMaker 演算法
SageMaker 提供適用於自然語言處理、文件分類或摘要、主題建模或分類、語言轉錄或翻譯中使用的文字文件分析的演算法。
-
BlazingText 演算法——高度最佳化的 Word2vec 和文本分類算法實作,可輕鬆擴展到大型資料集。它適用於許多下游自然語言處理 (NLP) 任務。
-
隱含狄利克雷分布 (LDA) 演算法——適合用來判斷一組文件主題的演算法。屬於未受監督的演算法,即是在進行訓練時並未使用含有答案的範本資料。
-
神經主題模型 (NTM) 演算法——另一種未受監督的技術,可透過神經網路的做法來判斷一組文件的主題。
-
Object2Vec 演算法——可用於建議系統、文件分類和句子嵌入的一般用途神經嵌入演算法。
-
Sequence-to-Sequence 演算法——為監督式演算法,常用於神經機器轉譯。
-
文字分類 - TensorFlow——監督式演算法,支援使用可用的預先訓練模型進行文字分類的傳輸學習。
演算法名稱 | 頻道名稱 | 訓練輸入模式 | 檔案類型 | 執行個體類別 | 可平行化 |
---|---|---|---|---|---|
BlazingText | 訓練 | 檔案或管道 | 文字檔 (一行一個句子,使用空格分隔字符) | GPU (限單執行個體) 或 CPU | 否 |
LDA | 訓練和 (選擇性) 測試 | 檔案或管道 | recordIO-protobuf 或 CSV | CPU (限單執行個體) | 否 |
神經主題模型 | 訓練和 (選擇性) 驗證、測試,或兩者兼具 | 檔案或管道 | recordIO-protobuf 或 CSV | GPU 或 CPU | 是 |
Object2Vec | 訓練和 (選擇性) 驗證、測試,或兩者兼具 | 檔案 | JSON 行 | GPU 或 CPU (限單一執行個體) | 否 |
Seq2Seq Modeling | 訓練、驗證、詞彙 | 檔案 | recordIO-protobuf | GPU (限單執行個體) | 否 |
文字分類- TensorFlow | 訓練與驗證 | 檔案 | CSV | CPU 或 GPU | 是 (僅適用於單一執行個體上的多個 GPU) |