特徵轉型的重要性 - Amazon Machine Learning

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件適用於現有使用者,但我們不再對其進行更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

特徵轉型的重要性

假設某個機器學習模型的任務是確定信用卡交易是否為詐騙行為。根據您的應用程式背景知識和資料分析,您可以決定輸入資料應該要包含哪些重要的資料欄位 (或特徵)。例如,交易金額、商家名稱、地址和信用卡擁有者的地址,都是提供給學習程序的重要內容。另一方面,隨機產生的交易 ID 並沒有任何資訊 (若真的是隨機),而且也沒有用。

一旦您決定要包含哪些欄位,就能改變特徵結構,有利於學習程序。轉型就是要為輸入資料新增背景經驗,讓機器學習模型能從經驗中取經。例如,以下商家地址以字串來表示:

「123 Main Street, Seattle, WA 98101」(華盛頓州 98101 西雅圖市 Main Street 123 號)

地址本身的表示能力有限,只有在與該確切地址有所關聯的學習模式中才有用。不過將地址分為多個組成部分,就能建立像是「地址」(123 Main Street)、「城市」(西雅圖)、「州」(華盛頓州) 和「郵遞區號」(98101) 的額外特徵。現在,學習演算法可以將更多不同的交易分門別類,並探索更廣泛的模式,也許還能找到相較其他郵遞區號,遇到較多詐騙活動的商業郵遞區號。

如需特徵轉換方法和程序的詳細資訊,請參閱機器學習概念