特徵轉型的重要性

假設某個機器學習模型的任務是確定信用卡交易是否為詐騙行為。根據您的應用程式背景知識和資料分析，您可以決定輸入資料應該要包含哪些重要的資料欄位 (或特徵)。例如，交易金額、商家名稱、地址和信用卡擁有者的地址，都是提供給學習程序的重要內容。另一方面，隨機產生的交易 ID 並沒有任何資訊 (若真的是隨機)，而且也沒有用。

一旦您決定要包含哪些欄位，就能改變特徵結構，有利於學習程序。轉型就是要為輸入資料新增背景經驗，讓機器學習模型能從經驗中取經。例如，以下商家地址以字串來表示：

「123 Main Street, Seattle, WA 98101」(華盛頓州 98101 西雅圖市 Main Street 123 號)

地址本身的表示能力有限，只有在與該確切地址有所關聯的學習模式中才有用。不過將地址分為多個組成部分，就能建立像是「地址」(123 Main Street)、「城市」(西雅圖)、「州」(華盛頓州) 和「郵遞區號」(98101) 的額外特徵。現在，學習演算法可以將更多不同的交易分門別類，並探索更廣泛的模式，也許還能找到相較其他郵遞區號，遇到較多詐騙活動的商業郵遞區號。

如需特徵轉換方法和程序的詳細資訊，請參閱機器學習概念。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

機器學習的資料轉換

使用資料配方轉換特徵