本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
用於表格數據的內置 SageMaker 算法
Amazon SageMaker 提供針對表格資料分析量身打造的內建演算法。表格資料是指在任何由列(觀察)和欄(功能)組成的表中所組織的任何資料集。表格資料的內建 SageMaker 演算法可用於分類或迴歸問題。
-
AutoGluon-表格——為開源 AutoML 框架,透過合併模型並將它們堆疊在多個圖層中來成功運作。
-
CatBoost——為梯度提升樹演算法的實作,該算法引入了有序增強和用於處理分類功能的創新算法。
-
Factorization Machines 演算法——為線性模型的擴展,旨在高維度稀疏資料集內,以經濟實惠方式擷取各特徵之間的互動。
-
K 近鄰 (k-NN) 演算法——使用最接近 k 標籤點的非參數方法,將標籤指派給新資料點進行分類,或從最接近 k 點的平均值中指定一個預測的目標值以進行迴歸。
-
燈光GBM——為梯度提升樹演算法的實作,該算法增加了兩種新穎的技術以提高效率和可擴展性:基於梯度的單側採樣(GOSS)和獨家功能綁定(EFB)。
-
線性學習程式演算法——學習用於迴歸的線性函數,或用於分類的線性閾值函數。
-
TabTransformer— 建立在 self-attention-based變形金剛上的新型深度表格數據建模架構。
-
XGBoost 演算法搭配 Amazon SageMaker——為梯度提升樹演算法的實作,該算法結合了來自一組簡單和較弱的模型的估計值。
演算法名稱 | 頻道名稱 | 訓練輸入模式 | 檔案類型 | 執行個體類別 | 可平行化 |
---|---|---|---|---|---|
AutoGluon-表格 | 訓練和 (選擇性) 驗證 | 檔案 | CSV | CPU 或 GPU (限單一執行個體) | 否 |
CatBoost | 訓練和 (選擇性) 驗證 | 檔案 | CSV | CPU (限單執行個體) | 否 |
分解機 | 訓練和 (選擇性) 測試 | 檔案或管道 | recordIO-protobuf | CPU (密集資料則 GPU) | 是 |
K-Nearest-Neighbors (k-NN) | 訓練和 (選擇性) 測試 | 檔案或管道 | recordIO-protobuf 或 CSV | CPU 或 GPU (在一或多個執行個體上的單一 GPU 裝置) | 是 |
LightGBM | 訓練和 (選擇性) 驗證 | 檔案 | CSV | CPU (限單執行個體) | 否 |
線性學習程式 | 訓練和 (選擇性) 驗證、測試,或兩者兼具 | 檔案或管道 | recordIO-protobuf 或 CSV | CPU 或 GPU | 是 |
TabTransformer | 訓練和 (選擇性) 驗證 | 檔案 | CSV | CPU 或 GPU (限單一執行個體) | 否 |
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) | 訓練和 (選擇性) 驗證 | 檔案或管道 | CSV、LibSVM 或 Parquet | CPU (或適用於 1.2-1 的 GPU) | 是 |