用於表格數據的內置 SageMaker 算法 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於表格數據的內置 SageMaker 算法

Amazon SageMaker 提供針對表格資料分析量身打造的內建演算法。表格資料是指在任何由列(觀察)和欄(功能)組成的表中所組織的任何資料集。表格資料的內建 SageMaker 演算法可用於分類或迴歸問題。

  • AutoGluon-表格——為開源 AutoML 框架,透過合併模型並將它們堆疊在多個圖層中來成功運作。

  • CatBoost——為梯度提升樹演算法的實作,該算法引入了有序增強和用於處理分類功能的創新算法。

  • Factorization Machines 演算法——為線性模型的擴展,旨在高維度稀疏資料集內,以經濟實惠方式擷取各特徵之間的互動。

  • K 近鄰 (k-NN) 演算法——使用最接近 k 標籤點的非參數方法,將標籤指派給新資料點進行分類,或從最接近 k 點的平均值中指定一個預測的目標值以進行迴歸。

  • 燈光GBM——為梯度提升樹演算法的實作,該算法增加了兩種新穎的技術以提高效率和可擴展性:基於梯度的單側採樣(GOSS)和獨家功能綁定(EFB)。

  • 線性學習程式演算法——學習用於迴歸的線性函數,或用於分類的線性閾值函數。

  • TabTransformer— 建立在 self-attention-based變形金剛上的新型深度表格數據建模架構。

  • XGBoost 演算法搭配 Amazon SageMaker——為梯度提升樹演算法的實作,該算法結合了來自一組簡單和較弱的模型的估計值。

演算法名稱 頻道名稱 訓練輸入模式 檔案類型 執行個體類別 可平行化
AutoGluon-表格 訓練和 (選擇性) 驗證 檔案 CSV CPU 或 GPU (限單一執行個體)
CatBoost 訓練和 (選擇性) 驗證 檔案 CSV CPU (限單執行個體)
分解機 訓練和 (選擇性) 測試 檔案或管道 recordIO-protobuf CPU (密集資料則 GPU)
K-Nearest-Neighbors (k-NN) 訓練和 (選擇性) 測試 檔案或管道 recordIO-protobuf 或 CSV CPU 或 GPU (在一或多個執行個體上的單一 GPU 裝置)
LightGBM 訓練和 (選擇性) 驗證 檔案 CSV CPU (限單執行個體)
線性學習程式 訓練和 (選擇性) 驗證、測試,或兩者兼具 檔案或管道 recordIO-protobuf 或 CSV CPU 或 GPU
TabTransformer 訓練和 (選擇性) 驗證 檔案 CSV CPU 或 GPU (限單一執行個體)
XGBoost (0.90-1, 0.90-2, 1.0-1, 1.2-1, 1.2-21) 訓練和 (選擇性) 驗證 檔案或管道 CSV、LibSVM 或 Parquet CPU (或適用於 1.2-1 的 GPU)