Autopilot 資料集與問題類型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Autopilot 資料集與問題類型

對於表格式資料 (即每一欄包含具有特定資料類型的特徵,且每一列都包含觀察值的資料),Autopilot 可讓您選擇指定 AutoML 工作模型候選項可用的監督學習問題類型,例如二進位分類或迴歸,或者根據您提供的資料代表您進行偵測。Autopilot 也支援多種資料格式和資料類型。

Autopilot 資料集、資料類型與格式

Autopilot 支援格式化為CSV檔案或 Parquet 檔案的表格式資料:每欄包含具有特定資料類型的功能,每列包含觀察。這兩種檔案格式的屬性差異很大。

  • CSV (comma-separated-values) 是一種以資料列為基礎的檔案格式,可將資料存放於人類可讀取純文字中,因為資料交換受到各種應用程式支援,這是熱門的資料交換選擇。

  • Parquet 是一種基於列的文件格式,其中資料存放和處理比基於行的文件格式更有效。這使它們成為解決大數據問題的更好選擇。

欄位接受的資料類型包括數字、分類、文字及由逗號分隔的數字字串組成的時間序列。如果 Autopilot 偵測到它正在處理時間序列序列,它會透過 tsfresh 程式庫提供的專用特徵轉換器來進行處理。該程式庫將時間序列作為輸入並輸出諸如時間序列的最高絕對值或自相關的描述性統計之類的特徵。然後,這些輸出的特徵會用作三種問題類型之一的輸入。

Autopilot 支援在多達數百個 的大型資料集上建置機器學習模型GBs。有關輸入資料集的預設資源限制以及如何增加這些限制的詳細資訊,請參閱 Autopilot 配額

Autopilot 問題類型

對於表格式資料,您可以進一步指定候選模型可用的監督學習問題的類型,如下所示:

迴歸

迴歸會根據相互關聯的一或多個其他變數或屬性,估計相依目標變數的值。房價預測就是一個例子,它會使用浴室和臥室數量、房子和花園的平方英尺等特徵來進行預測。迴歸分析可建立使用一或多個這類特徵做為輸入並預測房價的模型。

二進位分類

二進位分類是一種監督式學習,它會根據其屬性將個人指派給兩個預先定義項目的其中之一和互斥的類別。它會受到監督,因為模型會使用範例進行訓練,而範例中為屬性提供正確標籤物件。醫療診斷是二進位分類的一個例子,根據診斷檢驗的結果判斷個人是否患有疾病。

多類別分類

多類別分類是一種監督式學習,會根據其屬性將個人指派給多個類別的其中之一。它會受到監督,因為模型會使用範例進行訓練,而範例中為屬性提供正確標籤物件。與文字文件最相關的主題預測就是一個例子。一個文件可能會歸類為宗教、政治或金融相關,或與多個其他預先定義主題類別的其中之一相關。