本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Studio 中建立自動模型評估任務
Studio 中可用的精靈會引導您選擇要評估的模型、選擇任務類型、選擇指標和資料集,以及設定任何必要的資源。下列主題說明如何格式化選用的自訂輸入資料集、設定您的環境,以及在 Studio 中建立模型評估任務。
若要使用您自己的自訂提示資料集,它必須是 jsonlines
檔案,其中每一行都是有效的 JSON 物件。每個 JSON 物件必須包含單一提示。
為了協助確保您選取的 JumpStart 模型效能良好,SageMaker Clarify 會自動將所有提示資料集格式化為最適合您選擇的模型評估維度的格式。對於內建提示資料集,SageMaker Clarify 也會使用額外的說明文字來增強您的提示。若要查看 SageMaker Clarify 將如何修改提示,請在您已新增至模型評估任務的評估維度下選擇提示範本。若要查看如何修改提示範本的範例,請參閱提示範本範例。
切換可讓您關閉或開啟 SageMaker Clarify 為內建資料集提供的自動提示範本支援。關閉自動提示範本允許,您可以指定自己的自訂提示範本,這些範本將套用至資料集中的所有提示。
若要了解 UI 中自訂資料集可用的金鑰,請參閱下列任務清單。
-
model_input
– 表示下列任務的輸入時必填。-
您的模型應該在開放式產生、毒性和準確性任務中回應 的提示。
-
您的模型應該在問題回答和事實知識任務中回答的問題。
-
模型應在文字摘要任務中摘要的文字。
-
模型應該在分類任務中分類的文字。
-
您希望模型在語意穩健性任務中擾動的文字。
-
-
target_output
– 為指出對模型進行下列任務評估的回應而必須。-
問題回答、準確性、語意穩健性和事實評估任務的答案。
-
為了準確性和語意穩健性任務,請使用 分隔可接受的答案
<OR>
。評估接受逗號分隔的任何答案為正確。例如,如果您想要接受UK
或England
或United Kingdom
作為可接受的答案target_output="UK<OR>England<OR>United Kingdom"
,請使用 。
-
-
(選用)
category
– 產生針對每個類別報告的評估分數。 -
sent_less_input
– 表示包含較少的提示刻板化任務偏差的提示時必填。 -
sent_more_input
– 表示提示中包含更多提示刻板化任務偏差的必要項目。
事實知識評估需要同時詢問問題,以及檢查模型回應的答案。使用 索引鍵model_input
搭配問題中包含的值,以及 索引鍵target_output
搭配答案中包含的值,如下所示:
{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}
上一個範例是單一有效的 JSON 物件,在jsonlines
輸入檔案中組成一個記錄。每個 JSON 物件都會以請求的形式傳送至您的模型。若要提出多個請求,請包含多行。下列資料輸入範例適用於使用選擇性 category
索引鍵進行評估的問答任務。
{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}
如果您在 UI 中評估演算法,則會為您的輸入資料集設定下列預設值:
-
評估使用的記錄數量已修正。演算法會從輸入資料集隨機取樣此數量的請求。
-
若要變更此數字:如使用
fmeval
程式庫自訂工作流程中所述使用fmeval
程式庫,並將 參數設定為num_records
所需的範例數量,或-1
指定整個資料集。評估的記錄預設數量為100
準確性、提示刻板印象、毒性、分類和語意穩健性任務。事實知識任務的預設記錄數目為300
。
-
-
如先前在
target_output
參數中所述的目標輸出分隔符號會在 UI<OR>
中設定為 。-
若要使用另一個分隔符號分隔可接受的答案:如使用程式
fmeval
庫自訂工作流程中所述使用fmeval
程式庫,並將 參數設定為target_output_delimiter
所需的分隔符號。
-
-
您必須使用可供模型評估的文字型 JumpStart 語言模型。這些模型有數個資料輸入組態參數,這些參數會自動傳遞至 FMeval 程序。
-
若要使用其他類型的模型:使用
fmeval
程式庫來定義輸入資料集的資料組態。
-
若要執行大型語言模型 (LLM) 的自動評估,您必須將環境設定為具有執行評估的正確許可。然後,您可以使用 UI 引導您完成工作流程中的步驟,並執行評估。下列各節說明如何使用 UI 執行自動評估。
必要條件
-
若要在 Studio UI 中執行模型評估,您的 AWS Identity and Access Management (IAM) 角色和任何輸入資料集都必須具有正確的許可。如果您沒有 SageMaker AI 網域或 IAM 角色,請遵循中的步驟Amazon SageMaker AI 設定指南。
設定 S3 儲存貯體的許可
建立您的網域和角色之後,請使用下列步驟來新增評估模型所需的許可。
在 https://console.aws.amazon.com/sagemaker/
:// 開啟 Amazon SageMaker AI 主控台。 -
在導覽窗格中,
S3
在頁面頂端的搜尋列中輸入 。 -
在服務下選擇 S3。
-
從導覽窗格中選擇儲存貯體。
-
在一般用途儲存貯體區段的名稱下,選擇要用來存放自訂提示資料集的 Amazon S3 儲存貯體名稱,以及希望儲存模型評估任務結果的位置。您的 Amazon S3 儲存貯體必須與 AWS 區域 Studio 執行個體位於相同的 中。如果您沒有 Amazon S3 儲存貯體,請執行下列動作。
-
選取建立儲存貯體以開啟新的建立儲存貯體頁面。
-
在一般組態區段的 AWS 區域下,選取 AWS 基礎模型所在的區域。
-
在儲存貯體名稱下的輸入方塊中命名您的 S3 儲存貯體。
-
接受所有預設選項。
-
選取建立儲存貯體。
-
在一般用途儲存貯體區段的名稱下,選取您建立的 S3 儲存貯體名稱。
-
-
選擇許可索引標籤標籤。
-
捲動至視窗底部的跨來源資源共用 (CORS) 區段。選擇編輯。
-
若要將 CORS 許可新增至儲存貯體,請將下列程式碼複製到輸入方塊中。
[ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
-
選擇 Save changes (儲存變更)。
將許可新增至您的 IAM 政策
-
在頁面頂端的搜尋列中,輸入
IAM
。 -
在服務下,選取身分與存取管理 (IAM)。
-
從導覽窗格中選擇政策。
-
選擇 建立政策。當政策編輯器開啟時,選擇 JSON。
-
選擇 Next (下一步)。
-
確保政策編輯器中顯示下列許可。您也可以將下列項目複製並貼到政策編輯器中。
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
-
選擇 Next (下一步)。
-
在政策詳細資訊區段中的政策名稱下,輸入政策名稱。您也可以選擇輸入描述。當您將政策名稱指派給角色時,您會搜尋該政策名稱。
-
選擇 建立政策。
將許可新增至您的 IAM 角色
-
在導覽窗格中,選擇 Roles (角色)。輸入您要使用的角色名稱。
-
在角色名稱下選取角色的名稱。主視窗會變更以顯示角色的相關資訊。
-
在許可政策區段中,選擇新增許可旁的向下箭頭。
-
從出現的選項中,選擇連接政策。
-
從出現的政策清單中,搜尋您在步驟 5 中建立的政策。選取政策名稱旁的核取方塊。
-
選擇動作旁的向下箭頭。
-
從出現的選項中,選取連接。
-
搜尋您建立的角色名稱。選取名稱旁的核取方塊。
-
選擇新增許可。頁面頂端的橫幅應說明政策已成功連接至角色。
-
.
建立自動模型評估任務時,您可以選擇可用的文字型 JumpStart 模型,也可以使用先前部署到端點的文字型 JumpStart 模型。
若要建立自動模型評估任務,請使用下列程序。
在 Studio 中啟動自動模型評估任務。
在 https://console.aws.amazon.com/sagemaker/
:// 開啟 Amazon SageMaker AI 主控台。 -
在頁面頂端的搜尋列中,輸入
SageMaker AI
。 -
在服務下,選取 Amazon SageMaker AI。
-
從導覽窗格中選擇 Studio。
-
在選取網域下展開向下箭頭之後,從入門區段中選擇您的網域。
-
在選取使用者設定檔下展開向下箭頭之後,從入門區段中選擇您的使用者設定檔。
-
選擇開啟 Studio 以開啟 Studio 的登陸頁面。
-
從主要導覽窗格中選擇任務。
-
然後選擇模型評估。
設定評估任務
-
接著,選擇評估模型。
-
在步驟 1:指定任務詳細資訊執行下列動作:
-
輸入模型評估的名稱。此名稱可協助您在提交模型評估任務之後識別該任務。
-
輸入描述,將更多內容新增至名稱。
-
選擇 Next (下一步)。
-
-
在步驟 2:設定評估執行下列動作:
-
在評估類型下,選擇自動。
-
然後,選擇將模型新增至評估
-
在新增模型模型中,您可以選擇使用預先訓練的 Jumpstart 基礎模型或 SageMaker AI 端點。如果您已部署 JumpStart 模型,請選擇 SageMaker AI 端點,否則請選擇預先訓練的 Jumpstart 基礎模型。
-
然後選擇 Save (儲存)。
-
(選用) 新增模型後,選擇提示範本,根據您選取的模型查看提示的預期輸入格式。如需如何設定資料集提示範本的詳細資訊,請參閱提示詞範本。
若要使用預設提示範本,請完成下列步驟:
開啟 使用資料集提供的預設提示範本。
(選用) 針對每個資料集,檢閱 Clarify 提供的提示。
選擇 Save (儲存)。
若要使用自訂提示範本,請完成下列步驟:
關閉 使用資料集提供的預設提示範本。
如果 Clarify 顯示預設提示,您可以自訂或移除它並提供您自己的提示。您必須在提示範本中包含
$model_input
變數。選擇 Save (儲存)。
-
然後,在任務類型下選擇任務類型。
如需任務類型和相關評估維度的詳細資訊,請參閱 中的自動評估在模型評估任務中使用提示資料集和可用的評估維度 。
-
在評估指標區段中,選擇評估維度。Description 下方的文字方塊包含有關維度的其他內容。
選取任務之後,與任務相關聯的指標會出現在指標下。在本節中,執行下列動作。
-
從評估維度下方的向下箭頭中選取評估維度。
-
選擇評估資料集。您可以選擇使用自己的資料集或使用內建資料集。如果您想要使用自己的資料集來評估模型,則必須以 FMEval 可以使用的方式格式化模型。它還必須位於 S3 儲存貯體中,該儲存貯體具有上設定您的環境一節中參考的 CORS 許可。如需如何格式化自訂資料集的詳細資訊,請參閱使用自訂輸入資料集。
-
輸入您要儲存輸出評估結果的 S3 儲存貯體位置。此檔案採用 jsonlines (.jsonl) 格式。
-
使用下列參數在處理器組態區段中設定您的處理器:
-
使用執行個體計數來指定您要用來執行模型的運算執行個體數量。如果您使用超過 個
1
執行個體,您的模型會在平行執行個體中執行。 -
使用執行個體類型選擇您要用來執行模型的運算執行個體類型。如需執行個體類型的詳細資訊,請參閱可與 Studio Classic 搭配使用的執行個體類型。
-
使用磁碟區 KMS 金鑰指定您的 AWS Key Management Service (AWS KMS) 加密金鑰。SageMaker AI 使用您的 AWS KMS 金鑰來加密來自模型和 Amazon S3 儲存貯體的傳入流量。如需金鑰的詳細資訊,請參閱 AWS Key Management Service。
-
使用輸出 KMS 金鑰指定傳出流量的 AWS KMS 加密金鑰。
-
使用 IAM 角色指定預設處理器的存取和許可。輸入您在 中設定的 IAM 角色 設定您的環境
-
-
指定模型和條件後,請選擇下一步。主視窗會跳至步驟 5 檢閱和儲存。
-
檢閱並執行您的評估任務
-
檢閱您為評估選擇的所有參數、模型和資料。
-
選擇建立資源來執行您的評估。
-
若要檢查您的任務狀態,請前往 頁面上模型評估區段的頂端。