Amazon 中的內建演算法和預先訓練的模型 SageMaker - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 中的內建演算法和預先訓練的模型 SageMaker

Amazon SageMaker 提供一組內建演算法、預先訓練的模型和預先建置的解決方案範本,協助資料科學家和機器學習從業人員快速開始訓練和部署機器學習模型。對於剛接觸 的人 SageMaker,選擇適用於特定使用案例的正確演算法可能是一項具有挑戰性的任務。下表提供快速備忘表,說明如何從範例問題或使用案例開始,並尋找 SageMaker 適用於該問題類型的 提供的適當內建演算法。表格下方各節提供了由學習範式 (受監督和無監督) 和重要資料網域 (文字和影像) 所組織的其他指引。

表格:將使用案例對應至內建演算法

範例問題和使用案例 學習範式或領域 問題類型 資料輸入格式 內建演算法

以下是 提供的預先訓練模型和預先建置的解決方案範本,在 15 種問題類型中可以解決的一些範例 SageMaker JumpStart:

問題回答:輸出特定問題答案的聊天機器人。

文字分析:分析特定於產業領域 (例如財務) 模型的文字。

預先訓練的模型和預建的解決方案範本

影像分類

表格分類

表格迴歸

文字分類

Object Detection

文字嵌入

問題回答

句子對分類

圖像嵌入

具名實體辨識

實例分割

產生文字

文字摘要

Semantic Segmentation

機器翻譯

圖像,文字,表格

熱門模型,包括 Mobilenet、YOLO、Faster R-CNN、BERT、Light GBM和 CatBoost

如需可用的預先訓練模型清單,請參閱JumpStart 模型

如需可用的預先建置解決方案範本清單,請參閱JumpStart 解決方案

預測項目是否屬於某個類別:電子郵件垃圾郵件過濾器

監督式學習

二進制/多類別分類

表格式

AutoGluon-表格, CatBoost, Factorization Machines 演算法, K 近鄰 (k-NN) 演算法, 燈光GBM, 線性學習程式演算法, TabTransformer, XGBoost 演算法搭配 Amazon SageMaker

預測數值/連續值:估計房子的價值

迴歸

表格式

AutoGluon-表格, CatBoost, Factorization Machines 演算法, K 近鄰 (k-NN) 演算法, 燈光GBM, 線性學習程式演算法, TabTransformer, XGBoost 演算法搭配 Amazon SageMaker

根據行為的歷史資料,預測未來行為:根據先前的銷售資料預測新產品的銷售額。

時間序列預測

表格式

使用 SageMaker DeepAR 預測演算法

改進高維度對象的資料嵌入:識別重複的支援票證或根據工單中的文字的相似性找到正確的路由

嵌入:將高維對象轉換為低維空間。 表格式 Object2Vec 演算法

從與標籤/目標變量有弱關係的資料集中刪除這些列:預測其里程時汽車的顏色。

非監督式學習

特徵工程:尺寸減少

表格式

主成分分析 (PCA) 演算法

檢測應用中的異常行為:當 IoT 傳感器發送異常讀數時發現

異常偵測

表格式

隨機切割森林 (RCF) 演算法

保護您的應用程式免受可疑使用者的攻擊:偵測存取服務的 IP 位址是否來自不良行為者

IP 異常偵測

表格式

IP Insights

將類似物件/資料分組在一起:從交易歷史記錄中尋找高、中和低支出客戶

叢集或分組

表格式

K 平均數演算法

將一組文件組織成主題 (未預先知道):根據文件中使用的術語,將文件標記為屬於醫療類別。

主題建模

文字

隱含狄利克雷分布 (LDA) 演算法, 神經主題模型 (NTM) 演算法

為語料庫中的文件分配預先定義的類別:將圖書館中的書籍分類為學術學科

文字分析

文字分類

文字

BlazingText 演算法, 文字分類 - TensorFlow

將文字從一種語言轉換為其他語言:西班牙文到英文

機器翻譯

演算法
文字

Sequence-to-Sequence 演算法

總結一個長文字語料庫:研究論文的摘要

文字摘要

文字

Sequence-to-Sequence 演算法

將音訊檔案轉換為文字:轉錄客服中心對話以供進一步分析

Speech-to-text

文字

Sequence-to-Sequence 演算法

根據圖像內容標籤/標籤圖像:有關圖像中成人內容的警報

影像處理

圖像和多標籤分類

映像

影像分類-MXNet

使用轉移學習對圖像中的東西進行分類。

Image classification 映像

影像分類 - TensorFlow

檢測圖像中的人和物體:警察為失踪的人審核大型照片庫

物體檢測和分類

映像

物件偵測 - MXNet, 物件偵測 - TensorFlow

使用類別單獨標記圖像的每個像素:自動駕駛汽車準備以自己的方式識別物體

電腦視覺

映像

語意分段演算法

如需 所提供所有內建演算法的常見下列項目的重要資訊 SageMaker,請參閱 內建演算法的參數

  • Docker 登錄檔路徑

  • 資料格式

  • 建議的 Amazon EC2執行個體類型

  • CloudWatch 日誌

下列各節針對依其所屬的受監督和無監督學習範例分組的 SageMaker Amazon 內建演算法提供額外指引。有關這些學習範式及其相關問題類型的說明,請參閱演算法類型。也會為可用於處理兩個重要機器學習網域的 SageMaker 內建演算法提供區段:文字分析和影像處理。

預先訓練的模型和解決方案範本

SageMaker JumpStart 提供各種預先訓練的模型、預先建置的解決方案範本,以及常見問題類型的範例。這些使用 SageMaker SDK 以及 Studio Classic。如需這些模型、解決方案和 提供的筆記本範例的詳細資訊 SageMaker JumpStart,請參閱 SageMaker JumpStart 預先訓練的模型

監督式學習

Amazon SageMaker 提供數個內建的一般用途演算法,可用於分類或迴歸問題。

  • AutoGluon-表格 - 為開放原始碼 AutoML 框架,透過合併模型並將它們堆疊在多個圖層中來成功運作。

  • CatBoost - 為梯度提升樹演算法的實作,該算法引入了有序增強和用於處理分類功能的創新算法。

  • Factorization Machines 演算法 - 為線性模型的擴展,旨在高維度稀疏資料集內,以經濟實惠方式擷取各特徵之間的互動。

  • K 近鄰 (k-NN) 演算法—一種非參數方法,使用最接近 k 的標記點來指派值。對於分類,它是新資料點的標籤。對於迴歸,這是從最接近 k 點的平均值預測的目標值。

  • 燈光GBM- 梯度提升的樹狀演算法實作,新增兩種新穎技術,以提升效率和可擴展性。這兩種新穎技術為梯度型單邊取樣 (GOSS) 和獨家功能綁定 ()EFB。

  • 線性學習程式演算法 - 學習用於迴歸的線性函式,或用於分類的線性閾值函式。

  • TabTransformer- 以 Transformer 為基礎的 self-attention-based新型深層表格式資料建模架構。

  • XGBoost 演算法搭配 Amazon SageMaker——為梯度提升樹演算法的實作,該算法結合了來自一組簡單和較弱的模型的估計值。

Amazon SageMaker 也提供數個內建的監督式學習演算法,用於特徵工程期間更特殊的任務,以及從時間序列資料預測。

  • Object2Vec 演算法 - 用於特徵工程的新型高度可自訂多用途演算法。它可以學習高維度物件的低維度密集嵌入,以產生可提高下游模型訓練效率的功能。雖然這是受監督演算法,但有許多情況下,關係標籤只能從資料中的自然叢集取得。即使它需要標記資料進行訓練,但也可能在沒有任何明確的人工註釋的情況下發生。

  • 使用 SageMaker DeepAR 預測演算法—一種監督式學習演算法,用於使用遞歸神經網路 () 預測純量 (一維) 時間序列RNN。

非監督式學習

Amazon SageMaker 提供數個內建演算法,可用於各種非監督式學習任務。這些任務包括叢集、維度縮減、模式識別和異常偵測等。

  • 主成分分析 (PCA) 演算法—透過將資料點投影到前幾個主體元件上,減少資料集內的維數 (特徵數量)。目標是保留盡可能多的資訊或變化。對於數學家來說,主分量是資料協方差矩陣的特徵向量。

  • K 平均數演算法—在資料中尋找離散分組。當群組的成員彼此盡可能相似,並且盡可能與其他群組的成員不同時,就會發生這種情況。

  • IP Insights—了解IPv4地址的使用模式。它旨在擷取IPv4地址與各種實體之間的關聯,例如使用者IDs或帳戶號碼。

  • 隨機切割森林 (RCF) 演算法 - 檢測資料集中的異常資料點,這些資料點與其他結構良好或模式化的資料分歧。

文字分析

SageMaker 提供針對文字文件分析量身打造的演算法。這包括自然語言處理中使用的文字、文件分類或摘要、主題建模或分類,以及語言轉錄或翻譯。

影像處理

SageMaker 也提供用於影像分類、物件偵測和電腦視覺的影像處理演算法。

  • 影像分類-MXNet——使用含有答案的範例資料 (稱為受監督的演算法)。使用此演算法分類影像。

  • 影像分類 - TensorFlow- 使用預先訓練的 TensorFlow Hub 模型,針對特定任務進行微調 (稱為監督式演算法 )。使用此演算法分類影像。

  • 語意分段演算法 - 提供細微的像素層級方式,開發電腦視覺應用程式。

  • 物件偵測 - MXNet - 使用單個深度神經網路偵測和分類圖像中的物件。這是一個受監督的學習演算法,可將影像做為輸入,並識別影像場景內的所有物件執行個體。

  • 物件偵測 - TensorFlow - 檢測圖像中的邊界框和物件標籤。它是一種監督式學習演算法,支援使用可用的預先訓練 TensorFlow 模型進行遷移學習。