基礎模型的提示詞工程 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

基礎模型的提示詞工程

提示詞工程是設計和精簡語言模型的提示或輸入刺激,以產生特定類型的輸出的過程。提示詞工程包括選取適當的關鍵字、提供背景資訊,並以鼓勵模型產生所需回應的方式塑造輸入,而且是積極塑造基礎模型行為和輸出的重要技術。

有效的提示詞工程對於指導模型行為和達到所需的回應非常重要。透過提示詞工程設計,您可以控制模型的色調、風格和領域專業知識,而無需進一步涉及微調等自訂措施。我們建議您在考慮對其他資料微調模型之前,先花時間提示詞工程設計。目標是為模型提供足夠的上下文和指引,以便它可以在看不見或有限的資料案例中推廣和執行良好。

零樣本學習

零樣本學習涉及訓練模型,以概括並對看不見的課程或任務進行預測。若要在零樣本學習環境中執行提示詞工程,我們建議您建構提示,明確提供目標工作和所需輸出格式的相關資訊。例如,如果您想要在模型在訓練期間看不到的一組類別上使用零樣本文字分類的基礎模型,則一個設計良好的提示可能是:"Classify the following text as either sports, politics, or entertainment: [input text]." 透過明確指定目標類別和預期的輸出格式,您可以引導模型即使在看不見的類別上也能做出準確的預測。

小樣本學習

小樣本學習涉及訓練具有有限資料量的模型,以用於新課程或任務。小樣本學習環境中的提示詞工程專注於設計提示,以有效使用有限的可用訓練資料。例如,如果您使用基礎模型進行影像分類工作,而且只有一些新影像類別的範例,您可以設計一個提示,其中包括可用的已標示範例,以及目標類別的預留位置。例如,提示可能是:"[image 1], [image 2], and [image 3] are examples of [target class]. Classify the following image as [target class]"。透過合併有限的標籤範例並明確指定目標類別,您可以引導模型一般化並進行準確的預測,即使在訓練資料最少的情況下也一樣。

支援的推論參數

變更推論參數也可能會影響提示的回應。雖然您可以嘗試在提示中加入盡可能多的特異性和上下文,但您也可以嘗試使用支援的推論參數。以下是一些常見支援的推論參數範例:

推論參數 描述

max_new_tokens

基礎模型回應的最大輸出長度。有效值:整數,範圍:正整數。

temperature

控制輸出中的隨機性。較高的溫度會導致輸出序列包含低概率字詞,而溫度越低,則輸出序列具有高概率字詞。如果temperature=0,則響應僅由最高概率的單詞組成(貪婪解碼)。有效值:浮點數,範圍:正浮點數。

top_p

在文本生成的每個步驟中,模型從可能的最小的單詞集中抽樣,累積概率為top_p。有效值:浮動,範圍:0.0,1.0。

return_full_text

如果True,則輸入文字是產生輸出文字的一部分。有效值:布林值,預設值:假。

如需基礎模型推論的詳細資訊,請參閱使用JumpStartModel類別部署公開可用的基礎模型

如果迅速的工程設計不足以根據特定的業務需求、領域特定語言、目標任務或其他需求調整基礎模型,您可以考慮在其他資料上微調模型,或使用 Repeed 擴增一代 (RAG),利用歸檔知識來源的增強內容來增強模型架構。如需詳細資訊,請參閱 微調基礎模型擷取增強世代