本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
CatBoost 超參數
下表包含 Amazon SageMaker CatBoost 演算法所需的或最常用的超參數子集。使用者設定參數,並用來協助從資料預估模型參數。 SageMaker CatBoost 演算法是開放原始碼CatBoost
注意
預設超參數是根據CatBoost 筆記本範例中的範例資料集。
根據預設, SageMaker CatBoost 演算法會根據分類問題的類型自動選擇評估指標和損失函數。 CatBoost 演算法會根據您資料中的標籤數量來偵測分類問題的類型。對於迴歸問題,評估量度和損耗函式都是均方根誤差。對於二進位分類問題,評估指標為曲線下面積 (AUC),損失函數為日誌遺失。對於多類分類問題,評估度量和損耗函式是多類交叉熵。您可以使用eval_metric
超參數來變更預設評估測量結果。如需 LightGBM 超參數的詳細資訊,包括說明、有效值和預設值,請參閱下表。
參數名稱 | 描述 |
---|---|
iterations |
可建立的樹數量上限。 有效值:整數,範圍:正整數。 預設值: |
early_stopping_rounds |
如果一個驗證資料點的一個指標在上 有效值:整數。 預設值: |
eval_metric |
驗證資料的評估指標。如果設
有效值:字串,請參閱CatBoost 文件 預設值: |
learning_rate |
檢視每批訓練範例後,模型權重的更新率。 有效值:浮點數、範圍:( 預設值: |
depth |
樹的深度。 有效值:整數,範圍:( 預設值: |
l2_leaf_reg |
係數用於成本函式的 L2 正規化項。 有效值:整數,範圍:正整數。 預設值: |
random_strength |
選取樹狀結構時,用於評分分割的隨機性量。使用此參數可避免過度擬合模型。 有效值:浮點數,範圍:正浮點數。 預設值: |
max_leaves |
結果樹中葉子的最大數量。只能與 有效值:整數,範圍:[ 預設值: |
rsm |
隨機子空間方法。隨機再次選取圖徵時,每次分割選取時要使用的圖徵百分比。 有效值:浮點數、範圍:( 預設值: |
sampling_frequency |
建立樹木時採樣權重和物件的頻率。 有效值:字串,可以是:( 預設值: |
min_data_in_leaf |
葉中訓練樣本的最小數量。 CatBoost 不會搜尋範例計數小於指定值的葉子中新的分割。只能與 有效值:整數,範圍:( 預設值: |
bagging_temperature |
定義貝葉斯引導程序的設置。使用貝葉斯引導程序為對象分配隨機權重。如果設定 有效值:浮點數,範圍:非負浮點數。 預設值: |
boosting_type |
提升計劃。“自動” 表示 有效值:字串,下列任一項:( 預設值: |
scale_pos_weight |
在二進制分類正類的權重。該值被用作從正類對象的權重的乘數。 有效值:浮點數,範圍:正浮點數。 預設值: |
max_bin |
數值特徵的分割數。 有效值:字串,可以是:( 預設值: |
grow_policy |
樹生長政策。定義如何執行貪婪樹建構模組。 有效值:字串,下列任一項:( 預設值: |
random_seed |
用於訓練的隨機種子。 有效值:整數,範圍:非負整數。 預設值: |
thread_count |
訓練期間要使用的執行緒數目。如果 有效值:正整數,可以是:( 預設值: |
verbose |
列印訊息的詳細程度,較高的層次與更詳細的列印對帳單相對應。 有效值:整數,範圍:正整數。 預設值: |