使用 Amazon SageMaker 內建演算法或預先訓練的模型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon SageMaker 內建演算法或預先訓練的模型

Amazon SageMaker 提供一套內建演算法、預先訓練的模型和預先建置的解決方案範本,協助資料科學家和機器學習從業人員快速開始訓練和部署機器學習模型。對於剛接觸的人來說 SageMaker,為您的特定用例選擇正確的算法可能是一項艱鉅的任務。下表提供了一個快速備忘單,其中顯示了如何從示例問題或用例開始,並找到適當的內置算法提供, SageMaker 該算法對該問題類型有效。表格下方各節提供了由學習範式 (受監督和無監督) 和重要資料網域 (文字和影像) 所組織的其他指引。

表格:將使用案例對應至內建演算法

範例問題和使用案例 學習範式或領域 問題類型 資料輸入格式 內建演算法

以下是 15 種問題類型中的一些示例,可以通過預先訓練的模型和預先構建的解決方案模板提供解決方案: SageMaker JumpStart

問題回答:輸出特定問題答案的聊天機器人。

文字分析:分析特定於產業領域 (例如財務) 模型的文字。

預先訓練的模型和預建的解決方案範本

影像分類

表格分類

表格迴歸

文字分類

Object Detection

文字嵌入

問題回答

句子對分類

圖像嵌入

具名實體辨識

實例分割

產生文字

文字摘要

Semantic Segmentation

機器翻譯

圖像,文字,表格

熱門機型, 包括動員,YOLO, 更快的 R-CNN, 光 BERTGBM, 和 CatBoost

如需可用的預先訓練模型清單,請參閱JumpStart 模型

如需可用預先建置的解決方案範本清單,請參閱解決JumpStart 方案

預測項目是否屬於某個類別:電子郵件垃圾郵件過濾器

監督式學習

二進制/多類別分類

表格式

AutoGluon-表格, CatBoost, Factorization Machines 演算法, K 近鄰 (k-NN) 演算法, LightGBM, 線性學習程式演算法, TabTransformer, 使用 XGBoost 算法與 Amazon SageMaker

預測數值/連續值:估計房子的價值

迴歸

表格式

AutoGluon-表格, CatBoost, Factorization Machines 演算法, K 近鄰 (k-NN) 演算法, LightGBM, 線性學習程式演算法, TabTransformer, 使用 XGBoost 算法與 Amazon SageMaker

根據行為的歷史資料,預測未來行為:根據先前的銷售資料預測新產品的銷售額。

時間序列預測

表格式

使用 SageMaker DeepAR 度預測演算法

改進高維度對象的資料嵌入:識別重複的支援票證或根據工單中的文字的相似性找到正確的路由

嵌入:將高維對象轉換為低維空間。 表格式 Object2Vec 演算法

從與標籤/目標變量有弱關係的資料集中刪除這些列:預測其里程時汽車的顏色。

非監督式學習

特徵工程:尺寸減少

表格式

主成分分析 (PCA) 演算法

檢測應用中的異常行為:當 IoT 傳感器發送異常讀數時發現

異常偵測

表格式

隨機切割森林(RCF)算法

保護您的應用程式免受可疑使用者的攻擊:偵測存取服務的 IP 位址是否來自不良行為者

IP 異常偵測

表格式

IP Insights

將類似物件/資料分組在一起:從交易歷史記錄中尋找高、中和低支出客戶

叢集或分組

表格式

K 平均數演算法

將一組文件組織成主題 (未預先知道):根據文件中使用的術語,將文件標記為屬於醫療類別。

主題建模

文字

隱含狄利克雷分布 (LDA) 演算法, 神經主題模型 (NTM) 演算法

為語料庫中的文件分配預先定義的類別:將圖書館中的書籍分類為學術學科

文本分析

文字分類

文字

BlazingText 演算法, 文字分類- TensorFlow

將文字從一種語言轉換為其他語言:西班牙文到英文

機器翻譯

演算法
文字

序列對序列演算法

總結一個長文字語料庫:研究論文的摘要

文字摘要

文字

序列對序列演算法

將音訊檔案轉換為文字:轉錄客服中心對話以供進一步分析

S peech-to-text

文字

序列對序列演算法

根據圖像內容標籤/標籤圖像:有關圖像中成人內容的警報

影像處理

圖像和多標籤分類

映像

影像分類-MXNet

使用轉移學習對圖像中的東西進行分類。

Image classification 映像

影像分類- TensorFlow

檢測圖像中的人和物體:警察為失踪的人審核大型照片庫

物體檢測和分類

映像

物件偵測 - MXNet, 物體偵測- TensorFlow

使用類別單獨標記圖像的每個像素:自動駕駛汽車準備以自己的方式識別物體

電腦視覺

映像

語意分段演算法

如需有關下列所提供之所有內建演算法通用項目的重要資訊 SageMaker,請參閱有關內建演算法的常見資訊

  • 碼頭註冊表路徑

  • 資料格式

  • 推薦 Amazon EC2 實例類型

  • CloudWatch 日誌

以下各節針對 Amazon SageMaker 內建演算法提供其他指引,並依其所屬的受監督和無監督學習範例分組。有關這些學習範式及其相關問題類型的說明,請參閱選擇演算法。另外也提供 SageMaker 內建演算法的章節,可用來解決兩個重要的機器學習領域:文字分析和影像處理。

預先訓練模型和解決方案範本

SageMaker JumpStart 提供各式各樣的預先訓練模型、預先建置的解決方案範本,以及常見問題類型的範例。這些使用 SageMaker SDK以及工作室經典。如需有關這些型號、解決方案和範例筆記本提供的詳細資訊 SageMaker JumpStart,請參閱使用以下方式訓練、部署及評估預先訓練模型 SageMaker JumpStart

監督式學習

Amazon SageMaker 提供數種內建的一般用途演算法,可用於分類或回歸問題。

  • AutoGluon-表格 - 為開放原始碼 AutoML 框架,透過合併模型並將它們堆疊在多個圖層中來成功運作。

  • CatBoost - 為梯度提升樹演算法的實作,該算法引入了有序增強和用於處理分類功能的創新算法。

  • Factorization Machines 演算法 - 為線性模型的擴展,旨在高維度稀疏資料集內,以經濟實惠方式擷取各特徵之間的互動。

  • K 近鄰 (k-NN) 演算法使用最接近 k 個標示點來指定值的非參數方法。對於分類,它是一個標籤到一個新的數據點。對於回歸,它是從 k 最近點的平均值的預測目標值。

  • LightGBM-漸變增強樹算法的實現,它增加了兩種新穎的技術,以提高效率和可擴展性。這兩種新穎的技術是基於漸變的單側採樣(GOSS)和獨家功能捆綁()。EFB

  • 線性學習程式演算法 - 學習用於迴歸的線性函式,或用於分類的線性閾值函式。

  • TabTransformer— 建立在 self-attention-based變形金剛上的新型深度表格數據建模架構。

  • 使用 XGBoost 算法與 Amazon SageMaker——為梯度提升樹演算法的實作,該算法結合了來自一組簡單和較弱的模型的估計值。

Amazon SageMaker 還提供數種內建的監督學習演算法,用於在功能工程期間進行更專業化的任務,以及從時間序列資料進行

  • Object2Vec 演算法 - 用於特徵工程的新型高度可自訂多用途演算法。它可以學習高維度物件的低維度密集嵌入,以產生可提高下游模型訓練效率的功能。雖然這是一種受監督的算法,但在許多情況下,關係標籤可以純粹從數據中的自然聚類中獲得。即使它需要標籤數據進行培訓,但這可能在沒有任何明確的人工註釋的情況下發生。

  • 使用 SageMaker DeepAR 度預測演算法使用遞迴神經網路預測標量 (一維) 時間序列的監督學習演算法 ()。RNN

非監督式學習

Amazon SageMaker 提供數種內建演算法,可用於各種無監督式學習任務。這些工作包括叢集、尺寸縮減、模式辨識和異常偵測等項目。

  • 主成分分析 (PCA) 演算法—透過將資料點投影到前幾個主體元件上,減少資料集內的維數 (特徵數量)。目標是保留盡可能多的資訊或變化。對於數學家來說,主分量是資料協方差矩陣的特徵向量。

  • K 平均數演算法尋找資料中的離散群組。當群組的成員彼此盡可能相似,並且與其他群組的成員盡可能不同時,就會發生這種情況。

  • IP Insights學習地址的使用模式。IPv4它被設計為捕獲IPv4地址和各種實體之間的關聯,例如用戶IDs或帳戶號碼。

  • 隨機切割森林(RCF)算法 - 檢測資料集中的異常資料點,這些資料點與其他結構良好或模式化的資料分歧。

文本分析

SageMaker 提供針對文字文件分析量身打造的演算法。這包括用於自然語言處理的文字、文件分類或摘要、主題建模或分類,以及語言轉錄或翻譯。

  • BlazingText 演算法 - Word2vec 和文字分類演算法的高度最佳化實作,可輕鬆擴展到大型資料集。它對於許多下游自然語言處理(NLP)任務非常有用。

  • 序列對序列演算法 - 為監督式演算法,常用於神經機器轉譯。

  • 隱含狄利克雷分布 (LDA) 演算法 - 適合用來判斷一組文件主題的演算法。屬於未受監督的演算法,即是在進行訓練時並未使用含有答案的範本資料。

  • 神經主題模型 (NTM) 演算法 - 另一種未受監督的技術,可透過神經網路的做法來判斷一組文件的主題。

  • 文字分類- TensorFlow - 監督式演算法,支援使用可用的預先訓練模型進行文字分類的傳輸學習。

影像處理

SageMaker 也提供用於影像分類、物件偵測和電腦視覺的影像處理演算法。

  • 影像分類-MXNet——使用含有答案的範例資料 (稱為受監督的演算法)。使用此演算法分類影像。

  • 影像分類- TensorFlow— 使用預先訓練的 TensorFlow Hub 模型來微調特定工作 (稱為受監管演算法)。使用此演算法分類影像。

  • 語意分段演算法 - 提供細微的像素層級方式,開發電腦視覺應用程式。

  • 物件偵測 - MXNet - 使用單個深度神經網路偵測和分類圖像中的物件。這是一個受監督的學習演算法,可將影像做為輸入,並識別影像場景內的所有物件執行個體。

  • 物體偵測- TensorFlow - 檢測圖像中的邊界框和物件標籤。它是一種監督學習算法,支持使用可用的預先訓練 TensorFlow 模型的轉移學習。