本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
XGBoost 超參數
下表包含 Amazon SageMaker AI XGBoost演算法所需的或最常用的超參數子集。這些是由使用者設定的參數,用來協助從資料預估模型參數。首先列出的是必須設定的超參數,依字母順序排列。接著列出的是選用的超參數,也是依字母順序排列。 SageMaker AI XGBoost演算法是開放原始碼DMLCXGBoost套件的實作。如需可針對此版本的 設定之整組超參數的詳細資訊XGBoost,請參閱 XGBoost 參數
參數名稱 | 描述 |
---|---|
num_class |
類別數。 若 有效值:整數。 |
num_round |
執行訓練的捨入數。 必要 有效值:整數。 |
alpha |
權重的 L1 正規化詞彙。增加此值可讓模型更為保守。 選用 有效值:浮點數。 預設值:0 |
base_score |
所有執行個體、全域偏差的初始預測分數。 選用 有效值:浮點數。 預設值:0.5 |
booster |
要使用哪些提升工具。 選用 有效值:字串。 預設值: |
colsample_bylevel |
每個層級中的每個分割之欄次取樣率。 選用 有效值:浮點數。範圍:[0,1]。 預設值:1 |
colsample_bynode |
每個節點中資料欄的次取樣率。 選用 有效值:浮點數。範圍:(0,1]。 預設值:1 |
colsample_bytree |
建構每棵樹時的欄次取樣率。 選用 有效值:浮點數。範圍:[0,1]。 預設值:1 |
csv_weights |
啟用此旗標時, 會將訓練資料中的第二欄 (標籤後的資料欄) 視為執行個體權重,以XGBoost區分 csv 輸入執行個體的重要性。 選用 有效值:0 或 1 預設值:0 |
deterministic_histogram |
啟用此旗標時, 會在 GPU 上以決定性方式XGBoost建置長條圖。僅於 如需有效輸入的完整清單,請參閱 XGBoost 參數 選用 有效值:字串。範圍: 預設值: |
early_stopping_rounds |
模型會一直訓練到驗證分數停止上升為止。驗證錯誤至少需要減少每個 選用 有效值:整數。 預設值:- |
eta |
用於更新以避免過度擬合的步驟大小收縮。在每個提升步驟後,您可以直接取得新功能的權重。 選用 有效值:浮點數。範圍:[0,1]。 預設值:0.3 |
eval_metric |
驗證資料的評估指標。預設指標是根據目標指派:
如需有效輸入的清單,請參閱XGBoost學習任務參數 選用 有效值:字串。 預設值:根據目標預設。 |
gamma |
進一步在樹上的葉片節點分區所需的最低遺失縮減量。演算法越大就越保守。 選用 有效值:浮點數。範圍:[0,∞)。 預設值:0 |
grow_policy |
控制新增節點到樹的方式。目前只有 選用 有效值:字串。 預設值: |
interaction_constraints |
指定允許互動的變數群組。 選用 有效值:嵌套的整數清單。每個整數表示一個特徵,每個嵌套清單包含允許互動的特徵,例如 [[1,2]、[3,4,5]]。 預設值:無 |
lambda |
權重的 L2 正規化詞彙。增加此值可讓模型更為保守。 選用 有效值:浮點數。 預設值:1 |
lambda_bias |
偏差的 L2 正規化詞彙。 選用 有效值:浮點數。範圍:[0.0, 1.0]。 預設值:0 |
max_bin |
最大數量的分散式資料匣,以儲存持續功能。僅於 選用 有效值:整數。 預設值:256 |
max_delta_step |
每個樹的權重估值允許使用最高差量步驟。使用正整數時,有助於讓更新更為保守。偏好選項是在邏輯回歸中使用。設定為 1-10,以協助控制更新。 選用 有效值:整數。範圍:[0,∞)。 預設值:0 |
max_depth |
最大樹深度。增加此值可讓模型更為複雜也更有可能過度擬合。0 表示無限制。當 選用 有效值:整數。範圍:[0,∞) 預設值:6 |
max_leaves |
要新增的最大節點數量。只有 選用 有效值:整數。 預設值:0 |
min_child_weight |
子系中需要執行個體權重的最低總和 (hessian)。如果葉片節點中的樹狀分區步驟的執行個體權重總和少於 選用 有效值:浮點數。範圍:[0,∞)。 預設值:1 |
monotone_constraints |
指定任何特徵的單調性限制條件。 選用 有效值:整數元組。有效整數:-1 (遞減限制條件)、0 (無限制條件)、1 (增加限制條件)。 例如,(0, 1):第一個預測器沒有限制條件,在第二個預測器增加限制條件。(-1,1):在第一個預測器減少限制條件,並在第二個預測器增加限制條件。 預設值:(0, 0) |
normalize_type |
標準化演算法類型。 選用 有效值:tree 或 forest。 預設值:tree |
nthread |
用於執行 xgboost 的平行執行緒數量。 選用 有效值:整數。 預設值:最大執行緒數量。 |
objective |
指定學習任務和對應的學習目標。範例: 選用 有效值:字串 預設值: |
one_drop |
當啟用此旗標時,至少有一棵樹一律在退出時刪除。 選用 有效值:0 或 1 預設值:0 |
process_type |
要執行的提升程序類型。 選用 有效值:字串。 預設值: |
rate_drop |
退出率,指定在退出時刪除一小部分的舊樹。 選用 有效值:浮點數。範圍:[0.0, 1.0]。 預設值:0.0 |
refresh_leaf |
這是 '重新整理' 更新工具外掛程式的參數。當設定為 選用 有效值:0/1 預設值:1 |
sample_type |
取樣演算法類型。 選用 有效值: 預設值: |
scale_pos_weight |
控制正負加權的平衡。對於不平衡的分類非常實用。要考慮的典型值: 選用 有效值:浮點數 預設值:1 |
seed |
隨機數量種子。 選用 有效值:整數 預設值:0 |
single_precision_histogram |
啟用此旗標時, XGBoost會使用單一精確度來建置長條圖,而非雙精確度。僅於 如需有效輸入的完整清單,請參閱 XGBoost 參數 選用 有效值:字串。範圍: 預設值: |
sketch_eps |
僅適用於預估值貪婪演算法。這會轉譯為 O(1/ 選用 有效值:浮點數、範圍:[0, 1]。 預設值:0.03 |
skip_drop |
反覆提升時略過退出程序的可能性。 選用 有效值:浮點數。範圍:[0.0, 1.0]。 預設值:0.0 |
subsample |
訓練執行個體的次取樣率。將其設定為 0.5 表示 會XGBoost隨機收集一半的資料執行個體來成長樹。這可避免過度擬合。 選用 有效值:浮點數。範圍:[0,1]。 預設值:1 |
tree_method |
中使用的樹狀結構演算法XGBoost。 選用 有效值: 預設值: |
tweedie_variance_power |
控制 Tweedie 分發的方差之參數。 選用 有效值:浮點數。範圍:(1, 2)。 預設值:1.5 |
updater |
以逗號分隔的字串,用於定義要執行的樹更新工具序列。這提供模組化方式來建構和修改樹。 如需有效輸入的完整清單,請參閱 XGBoost 參數 選用 有效值:逗號分隔字串。 預設值: |
use_dask_gpu_training |
選用 有效值:字串。範圍: 預設值: |
verbosity |
列印訊息的詳細資訊等級。 有效值:0 (無訊息)、1 (警告)、2 (資訊)、3 (除錯)。 選用 預設值:1 |