IP Insights 超參數 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

IP Insights 超參數

CreateTransformJob 請求中,請指定訓練演算法。您也可以將演算法特定的超參數指定為 map。 string-to-string 下表列出 Amazon SageMaker IP 洞察演算法的超參數。

參數名稱 描述
num_entity_vectors

要訓練的實體向量表示數量 (實體內嵌向量)。訓練集中的每個實體都會使用雜湊函式,隨機指派給其中一個向量。因為雜湊衝突的關係,可能會有多個實體指派給相同的向量。這會造成相同的向量代表多個實體。這對模型效能所產生的影響通常可以忽略不計,只要衝突率不要過於嚴重即可。若要將衝突率維持在較低的水平,請盡量將此值調高。但是,訓練和推論的模型大小及其所需要的記憶體,會根據此超參數呈線性擴展。我們建議您將此值設為唯一實體識別符數量的兩倍。

必要

有效值:1 ≤ 正整數 ≤ 250,000,000

vector_dim

代表實體和 IP 地址的內嵌向量大小。此值越大,可使用這些表示編碼的資訊越多。實務上,模型大小會根據此參數呈線性擴展,並限制維度的大小。此外,使用過大的向量表示可能會造成模型過大,尤其是在針對小型的訓練資料集時。當模型並未在資料中學習到任何模式,卻記下整個訓練資料時,便會發生過大的情況。在此情況下,模型便無法良好地一般化,且在推論期間的執行效能也會低落。建議的值為 128。

必要

有效值:4 ≤ 正整數 ≤ 4096

batch_metrics_publish_interval

Apache MXNet Speedometer 函式印出網路訓練速度的間隔 (每 X 個批次) (樣本數/秒)。

選用

有效值:正整數 ≥ 1

預設值:1,000

epochs

通過訓練資料的通過次數。最佳值取決於您的資料大小和學習速率。典型值介於 5 到 100 之間。

選用

有效值:正整數 ≥ 1

預設值:10

learning_rate

最佳化工具的學習率。IP 洞察使用 gradient-descent-based Adam 最佳化工具。學習率可有效控制在每一次反覆運算中,更新模型參數的步驟大小。學習率過大,可能會導致模型分歧,因為訓練可能會超過最小值。另一方面,學習率過小則可能會使聚合變慢。典型值介於 1e-4 到 1e-1 之間。

選用

有效值:1e-6 ≤ 浮點數 ≤ 10.0

預設值:0.001

mini_batch_size

每一個迷你批次中的範例數。訓練程序會以迷你批次的形式處理資料。最佳值取決於資料集中唯一帳戶識別符的數量。在一般情況下,越大mini_batch_size,訓練速度越快,可能的 shuffled-negative-sample 組合的數量就越大。但是,使用較大的 mini_batch_size 時,訓練可能會聚合到較差的局部最小值,針對推論的執行效能也相對較差。

選用

有效值:1 ≤ 正整數 ≤ 500000

預設值:10,000

num_ip_encoder_layers

用來編碼 IP 地址內嵌的完整連線層數。層數越多,模型擷取 IP 地址中模式的容量越大。但是,使用較大數量的層,可能會增加過大的機率。

選用

有效值:0 ≤ 正整數 ≤ 100

預設值:1

random_negative_sampling_rate

要為每一個輸入範例產生的隨機負面樣本數 (R)。訓練程序依賴負面樣本,以防止模型的向量表示摺疊至單一點。隨機負面抽樣會為迷你批次中的每個輸入帳戶產生 R 個隨機 IP 地址。random_negative_sampling_rate (R) 和 shuffled_negative_sampling_rate (S) 的總和必須介於間隔:1 ≤ R + S ≤ 500。

選用

有效值:0 ≤ 正整數 ≤ 500

預設值:1

shuffled_negative_sampling_rate

要為每一個輸入範例產生的抽換負面樣本數 (S)。在某些情況下,使用從訓練資料本身隨機挑選的更真實負面樣本可能會有所幫助。這種類型的負面抽樣是透過在迷你批次內抽換資料達成。抽換負面抽樣會透過在迷你批次內抽換 IP 地址和帳戶配對,產生 S 個負面 IP 地址。random_negative_sampling_rate (R) 和 shuffled_negative_sampling_rate (S) 的總和必須介於間隔:1 ≤ R + S ≤ 500。

選用

有效值:0 ≤ 正整數 ≤ 500

預設值:1

weight_decay

權重衰減係數。此參數會新增一個 L2 正規化因素,該因素是防止模型對訓練資料過大的必要項目。

選用

有效值:0.0 ≤ 浮點數 ≤ 10.0

預設值:0.00001