建立使用人力工作者的模型評估任務 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立使用人力工作者的模型評估任務

重要

允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂IAM政策也必須授予許可,才能將標籤新增至這些資源。需要將標籤新增至資源的許可,因為 Studio 和 Studio Classic 會自動標記他們建立的任何資源。如果IAM政策允許 Studio 和 Studio Classic 建立資源,但不允許標記,則嘗試建立資源時可能會發生「AccessDenied」錯誤。如需詳細資訊,請參閱提供標記 SageMaker資源的許可

AWS Amazon 的受管政策 SageMaker 提供建立 SageMaker 資源的許可,已包含在建立這些資源時新增標籤的許可。

若要建立使用人工工作者的模型評估任務,您必須設定您的環境,才能擁有正確的許可。然後,您可以使用 Studio 中的模型評估任務精靈來選取您要使用的模型,然後定義要在模型評估任務中使用的參數和人力。

當任務完成時,您可以檢視報告,以了解您的人力資源如何評估您選擇的模型。結果也會儲存在 Amazon S3 中作為jsonlines輸出檔案。

在使用人工工作者的模型評估任務中,您能夠從託管於 外部的模型 SageMaker 和託管於 外部的模型帶來推論資料 AWS。如需進一步了解,請參閱 在使用人類工作者的模型評估任務中使用您自己的推論資料

當您完成任務時,結果會儲存在建立任務時指定的 Amazon S3 儲存貯體中。若要了解如何解譯結果,請參閱 了解模型評估任務的結果

必要條件

若要在 Amazon SageMaker Studio UI 中執行模型評估,您的 AWS Identity and Access Management (IAM) 角色和任何輸入資料集都必須具有正確的許可。如果您沒有 SageMaker 網域或IAM角色,請遵循 中的步驟Amazon 設定指南 SageMaker

設定您的許可

下一節說明如何建立 Amazon S3 儲存貯體,以及如何指定正確的跨來源資源共用 (CORS) 許可。

建立 Amazon S3 儲存貯體並指定CORS許可
  1. 在 開啟 Amazon SageMaker 主控台https://console.aws.amazon.com/sagemaker/

  2. 在導覽窗格中,S3在頁面頂端的搜尋列中輸入 。

  3. 服務 下選擇 S3

  4. 從導覽窗格中選擇儲存貯體

  5. 一般用途儲存貯體區段的名稱 下,選擇要用來在主控台中存放模型輸入和輸出的 S3 儲存貯體名稱。如果您沒有 S3 儲存貯體,請執行下列動作。

    1. 選取建立儲存貯體以開啟新的建立儲存貯體頁面。

    2. 一般組態區段AWS 中的區域 下,選取 AWS 基礎模型所在的區域。

    3. 在儲存貯體名稱 下的輸入方塊中命名 S3 儲存貯體

    4. 接受所有預設選項。

    5. 選取建立儲存貯體

    6. 一般用途儲存貯體區段的名稱 下,選取您建立的 S3 儲存貯體名稱。

  6. 選擇許可索引標籤標籤。

  7. 捲動至視窗底部的跨來源資源共用 (CORS) 區段。選擇編輯

  8. 以下是您必須新增至 Amazon S3 儲存貯體的最低必要CORS政策。將下列項目複製並貼到輸入方塊中。

    [ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ]
  9. 選擇 Save changes (儲存變更)。

將許可新增至您的IAM政策

您可能想要考慮連接到IAM角色的許可層級。

如果您想要將現有政策連接至您的IAM角色,您可以略過此處設定的指示,並繼續遵循 將許可新增至IAM角色 下的指示。

下列指示會建立自訂IAM政策,此政策針對具有最低許可的服務量身打造。

  1. 在 開啟 Amazon SageMaker 主控台https://console.aws.amazon.com/sagemaker/

  2. 在頁面頂端的搜尋列中,輸入 IAM

  3. 服務 下,選取身分和存取管理 (IAM)

  4. 從導覽窗格中選擇政策

  5. 選擇 建立政策。當政策編輯器開啟時,選擇 JSON

  6. 確保下列許可出現在政策編輯器 中。您也可以將下列項目複製並貼到政策編輯器 中。

    { "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::{input_bucket}/*", "arn:aws:s3:::{input_bucket}", "arn:aws:s3:::{output_bucket}/*", "arn:aws:s3:::{output_bucket}", "arn:aws:s3:::jumpstart-cache-prod-{region}/*", "arn:aws:s3:::jumpstart-cache-prod-{region}" ] }, { "Effect": "Allow", "Action": [ "sagemaker:CreateEndpoint", "sagemaker:DeleteEndpoint", "sagemaker:CreateEndpointConfig", "sagemaker:DeleteEndpointConfig" ], "Resource": [ "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*", "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*" ], "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeProcessingJob", "sagemaker:DescribeEndpoint", "sagemaker:InvokeEndpoint" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeInferenceComponent", "sagemaker:AddTags", "sagemaker:CreateModel", "sagemaker:DeleteModel" ], "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*", "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeFlowDefinition", "sagemaker:StartHumanLoop", "sagemaker:DescribeHumanLoop" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams" ], "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData" ], "Resource":"*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:GetPublicKey", "kms:Decrypt", "kms:Encrypt" ], "Resource": [ "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}" ] }, { "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}", "Condition": { "StringEquals": { "aws:PrincipalAccount": [ "account-id" ] } } }] }
  7. 選擇 Next (下一步)

  8. 在政策詳細資訊區段,在政策名稱 下輸入政策名稱。您也可以輸入選用描述。當您將此政策名稱指派給角色時,您會搜尋該政策名稱。

  9. 選擇 建立政策

將許可新增至您的IAM角色
  1. 在 開啟 Amazon SageMaker 主控台https://console.aws.amazon.com/sagemaker/

  2. 在頁面頂端的搜尋列中,輸入 IAM

  3. 服務 下,選取身分和存取管理 (IAM)

  4. 在導覽窗格中,選擇 Roles (角色)

  5. 如果您要建立新的角色:

    1. 選擇建立角色

    2. 選取受信任實體步驟中,在受信任實體類型下選擇自訂信任政策

    3. 自訂信任政策編輯器中,在新增主體旁邊選擇新增

    4. 新增主體快顯方塊中,在主體類型下,從選項下拉式清單中選取AWS 服務

    5. {ServiceName} ARN取代 下sagemaker

    6. 選擇新增主體

    7. 選擇 Next (下一步)

    8. (選用) 在許可政策下,選取要新增至角色的政策。

    9. (選用) 在設定許可界限下 - 選用選擇您的許可界限設定。

    10. 選擇 Next (下一步)

    11. 名稱上,檢閱和建立步驟,在角色詳細資訊下填入您的角色名稱描述

    12. (選用) 在新增標籤 - 選用,您可以選擇新增標籤並輸入索引鍵值 - 選用對來新增標籤

    13. 檢閱您的設定。

    14. 選擇建立角色

  6. 如果您要將政策新增至現有角色:

    1. 選取角色名稱 下的角色名稱。主視窗會變更以顯示角色的相關資訊。

    2. 許可政策區段中,選擇新增許可 旁的向下箭頭。

    3. 從出現的選項中,選擇連接政策

    4. 從出現的政策清單中,搜尋並選取您在新增許可至IAM政策下建立的政策,然後選取政策名稱旁的核取方塊。如果您未建立自訂IAM政策,請搜尋並選取 AWS 所提供 AmazonSageMakerFullAccessAmazonS3FullAccess政策旁的核取方塊。您可能想要考慮連接到IAM角色的許可層級。自訂IAM政策的指示較不寬鬆,而後者較寬鬆。如需AmazonSageMakerFullAccess政策的詳細資訊,請參閱 AmazonSageMakerFullAccess

    5. 選擇新增許可。頁面頂端的橫幅應說明政策已成功連接至角色。 完成後。

將信任政策新增至您的IAM角色

下列信任政策使其成為管理員可以允許 SageMaker 擔任角色。您需要將政策新增至您的IAM角色。請使用下列步驟執行此操作。

  1. 在 開啟 Amazon SageMaker 主控台https://console.aws.amazon.com/sagemaker/

  2. 在頁面頂端的搜尋列中,輸入 IAM

  3. 服務 下,選取身分和存取管理 (IAM)

  4. 在導覽窗格中,選擇 Roles (角色)

  5. 在角色名稱 下選取角色的名稱。主視窗會變更以顯示角色的相關資訊。

  6. 選擇信任關係索引標籤。

  7. 選擇編輯信任政策

  8. 確保下列政策顯示在編輯信任政策 下。您也可以將下列項目複製並貼到編輯器中。

    { "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": [ "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
  9. 選擇更新政策。頁面頂端的橫幅應說明信任政策已更新。 完成後。

您可以使用 中可用的文字型模型建立人工評估任務, JumpStart 也可以使用先前部署到端點的 JumpStart 模型。

若要啟動 JumpStart
  1. 在 開啟 Amazon SageMaker 主控台https://console.aws.amazon.com/sagemaker/

  2. 在頁面頂端的搜尋列中,輸入 SageMaker

  3. 服務 下,選取 Amazon SageMaker

  4. 從導覽窗格中選擇 Studio

  5. 在展開選取網域 下的向下箭頭後,從開始使用區段中選擇您的網域。

  6. 在展開選取使用者設定檔 下的向下箭頭後,從開始使用區段中選擇您的使用者設定檔

  7. 選擇開啟 Studio 以開啟 Studio 的登陸頁面。

  8. 從導覽窗格中選擇任務

設定評估任務
  1. 在模型評估首頁上,選擇評估模型

  2. 指定任務詳細資訊。

    1. 輸入模型評估的評估名稱。此名稱可協助您在提交模型評估任務後識別該任務。

    2. 輸入描述,將更多內容新增至名稱。

    3. 選擇 Next (下一步)

  3. 設定評估

    1. 選擇評估類型 下,選取人類 旁的選項按鈕。

    2. 選擇您要評估的模型 (選擇) 下,選擇將模型新增至評估 。每次評估最多可以評估兩個模型。

      1. 若要使用預先訓練的 JumpStart 模型,請選擇預先訓練JumpStart 的基礎模型 。如果您想要使用 JumpStart先前部署到端點的模型,請選擇具有 JumpStart基礎模型的端點。

      2. 如果模型需要法律協議,請勾選核取方塊以確認您同意。

      3. 如果您想要新增另一個模型,請重複上一個步驟。

    3. 若要變更模型在推論期間的行為方式,請設定參數

      集合參數包含推論參數清單,這些參數會影響模型輸出的隨機程度、模型輸出的長度,以及模型接下來會選擇哪些字詞。

    4. 接下來,選取任務類型 。您可以選取下列任何項目:

      • 文字摘要

      • 問題回答 (Q&A)

      • 文字分類

      • 開放式世代

      • Custom (自訂)

    5. 評估指標區段中,選擇評估維度,然後在描述 下的文字方塊中輸入有關維度的其他內容。您可以從下列維度中選擇:

      • Fluency – 測量產生文字的語言品質。

      • 一致性 – 測量所產生文字的組織和結構。

      • 毒性 – 測量產生的文字的有害性。

      • 準確性 – 指示產生的文字的準確性。

      • 您可以為工作團隊定義 名稱和描述的自訂評估維度。

        若要新增自訂評估維度,請執行下列動作:

        • 選擇新增評估維度

        • 在包含提供評估維度 的文字方塊中,輸入自訂維度的名稱。

        • 在包含提供此評估維度描述的文字方塊中,輸入描述,以便您的工作團隊了解如何評估您的自訂維度。

      在這些指標下,每個指標都是報告指標,您可以從選擇指標類型向下箭頭中選擇。如果您有兩個模型要評估,您可以選擇比較或個別報告指標。如果您有一個模型要評估,您只能選擇個別報告指標。您可以為上述每個指標選擇下列報告指標類型。

      • (比較) Likert 量表 - 比較 – 人工評估者會根據您的指示,在 5 點 Likert 量表的兩個回應之間指出其偏好。最終報告結果將顯示為評估者對整個資料集的偏好強度評分的直方圖。在指示中定義 5 點量表的重點,讓您的評估者知道如何根據您的期望評定回應。在儲存在 Amazon S3 中的JSON輸出中,此選項表示為ComparisonLikertScale鍵值對 "evaluationResults":"ComparisonLikertScale"

      • (比較) 選擇按鈕 – 允許人工評估器指出其偏好的回應,而不是另一個回應。評估者會根據您的指示,使用選項按鈕在兩個回應之間指出其偏好設定。最終報告中的結果會以每個模型的工作者偏好的回應百分比顯示。在指示中清楚說明您的評估方法。在儲存在 Amazon S3 中的JSON輸出中,此選項表示為ComparisonChoice鍵值對 "evaluationResults":"ComparisonChoice"

      • (比較) 順序排名 – 允許人工評估者1根據您的指示,從 開始,依序將偏好的回應排序至提示。最終報告中的結果將以評估者在整個資料集中的排名直方圖顯示。定義 排名在指示中的1意義。在儲存在 Amazon S3 中的JSON輸出中ComparisonRank,此選項表示為鍵值對 "evaluationResults":"ComparisonRank"

      • (個別) 向上/向下移動 – 允許人工評估器根據您的指示,將模型的每個回應評為可接受或不可接受的。最終報告中的結果將以每個模型獲得拇指向上的評估者評分總數的百分比顯示。您可以使用此評分方法來評估一個或多個模型。如果您在包含兩個模型的評估中使用此功能,則每個模型回應都會向工作團隊顯示向上或向下的拇指,而最終報告會個別顯示每個模型的彙總結果。在指示中定義可接受作為拇指向上或拇指向下評分的項目。在儲存在 Amazon S3 中的JSON輸出中,此選項表示為ThumbsUpDown鍵值對 "evaluationResults":"ThumbsUpDown"

      • (個別) Likert 量表 - 個別 – 允許人工評估者根據您的指示,在 5 點 Likert 量表上指出他們核准模型回應的程度。最終報告中的結果將以評估者在整個資料集上 5 點評分的長條圖顯示。您可以使用此規模來評估包含一或多個模型的評估。如果您在包含多個模型的評估中選擇此評分方法,則每個模型回應的 5 點 Likert 量表將呈現給您的工作團隊,而最終報告將個別顯示每個模型的彙總結果。在指示中定義 5 點量表上的重點,讓您的評估者了解如何根據您的期望評定回應。在儲存在 Amazon S3 中的JSON輸出中IndividualLikertScale,此選項表示為鍵值對 "evaluationResults":"IndividualLikertScale"

    6. 選擇提示資料集 。此資料集是必要的,您的人力工作團隊將使用此資料集來評估模型的回應。將 S3 URI 提供給 Amazon S3 儲存貯體,其中包含輸入資料集檔案 URI的 S3 下方文字方塊中的提示資料集。您的資料集必須是 jsonlines 格式,並包含下列金鑰,以識別 UI 將使用哪些部分的資料集來評估模型:

      • prompt – 您希望模型產生回應的請求。

      • (選用) category – - 提示的類別標籤。category 金鑰用於分類提示,以便您稍後可以按類別篩選評估結果,以更深入了解評估結果。它不會參與評估本身,而且工作者不會在評估 UI 上看到它。

      • (選用) referenceResponse – 人工評估者的參考答案。參考答案不會由工作者評分,但可以根據您的指示,用來了解哪些回應是可接受或不可接受的。

      • (選用) responses – 用於指定來自 外部 SageMaker 或外部模型的推論 AWS。

        此物件需要兩個額外的金鑰值對"modelIdentifier,這是識別模型的字串,"text"也是模型的推論。

        如果您在自訂提示資料集的任何輸入中指定"responses"金鑰,則必須在所有輸入中指定金鑰。

      • 下列json程式碼範例顯示自訂提示資料集中接受的鍵值對。如果提供回應金鑰,則必須勾選自攜推論核取方塊。如果核取,則每個提示都必須指定responses金鑰。下列範例可用於問題和答案案例。

        { "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier": "meta-textgeneration-llama-codellama-7b", "text": "The capital of Aurillac is Cantal." } ] }
    7. 在選擇 S3 位置以儲存評估結果 下的文字方塊中輸入您要將輸出評估結果儲存的 S3 儲存貯體位置。寫入此 S3 位置的輸出檔案格式為 JSON,結尾為副檔名.json

    8. 注意

      如果您想要在模型評估任務中包含自己的推論資料,您只能使用單一模型。

      (選用) 選擇自有推論下的核取方塊,以指出提示資料集包含 responses金鑰。如果您將 responses 金鑰指定為任何提示的一部分,則它必須存在於所有提示中。

    9. 使用下列參數在處理器組態區段中設定處理器:

      • 使用執行個體計數指定要用來執行模型的運算執行個體數目。如果您使用超過 個1執行個體,您的模型將在平行執行個體中執行。

      • 使用執行個體類型來選擇您要用來執行模型的運算執行個體類型。 AWS 具有針對運算和記憶體最佳化的一般運算執行個體和執行個體。如需執行個體類型的詳細資訊,請參閱 可用於 Studio Classic 的執行個體類型

      • 如果您想要 SageMaker 使用自己的 AWS Key Management Service (AWS KMS) 加密金鑰,而不是預設的 AWS 受管服務金鑰,請切換 以選取磁碟區KMS金鑰 下的開啟,然後輸入 AWS KMS 金鑰。 SageMaker 將使用 AWS KMS 金鑰加密儲存磁碟區上的資料。如需金鑰的詳細資訊,請參閱 AWS Key Management Service

      • 如果您想要 SageMaker 使用自己的 AWS Key Management Service (AWS KMS) 加密金鑰,而非預設 AWS 的受管服務金鑰,請切換以選取輸出KMS金鑰下的開啟,然後輸入 AWS KMS 金鑰。 SageMaker 將使用您的 AWS KMS 金鑰來加密處理任務輸出。

      • 使用 IAM角色來指定預設處理器的存取和許可。輸入您在 區段中設定IAM的角色 在此執行人工評估區段中設定您的IAM角色

    10. 指定模型和條件後,選取下一步

您的工作團隊由正在評估模型的人員組成。建立工作團隊後,工作團隊會持續無限期,您無法變更其屬性。以下說明如何開始使用您的工作團隊。

設定您的工作團隊
  1. 在選取團隊輸入文字方塊中選擇現有團隊或建立新團隊

  2. 在組織名稱 中指定組織的名稱。此欄位只會在您建立帳戶中的第一個工作團隊時出現。

  3. 指定聯絡人電子郵件 。您的工作者將使用此電子郵件與您溝通您將提供給他們的評估任務。此欄位只會在您建立帳戶中的第一個工作團隊時出現。

  4. 指定團隊名稱 。您稍後無法變更此名稱。

  5. 為將評估您的大型語言模型 () 的每位人工工作者指定電子郵件地址清單LLM。當您為團隊指定電子郵件地址時,只有在新加入工作團隊時,才會通知他們有新任務。如果您將相同的團隊用於後續任務,則必須手動通知他們。

  6. 然後,指定每個提示的工作者數量

為您的工作團隊提供指示
  1. 向您的人力資源提供詳細說明,以便他們可以根據您的指標和標準評估您的模型。主視窗中的範本會顯示您可以提供的範例指示。如需如何提供指示的詳細資訊,請參閱建立良好的工作者指示

  2. 若要將人工評估中的偏差降至最低,請選取隨機化回應位置 旁的核取方塊。

  3. 選取下一步

您可以檢閱您為人力任務所做的選擇摘要。如果您必須變更任務,請選擇一個以返回先前的選擇。

提交您的評估任務請求並檢視任務進度
  1. 若要提交評估任務請求,請選擇建立資源

  2. 若要查看所有任務的狀態,請在導覽窗格中選擇任務。然後選擇模型評估 。評估狀態顯示為已完成 失敗 進行中

    也會顯示下列項目:

    • 要在 SageMaker 和 Amazon Bedrock 中執行模型評估的筆記本範例。

    • 連結至模型評估程序的其他資訊,包括文件、影片、新聞和部落格。

    • URL 您的私人工作者入口網站也可以使用 。

  3. 選取名稱下的模型評估,以檢視評估摘要。

    • 摘要提供有關任務狀態、您在哪個模型上執行的評估任務類型,以及執行時間的資訊。在摘要之後,人類評估分數會依指標排序和摘要。

檢視您使用人類工作者建立評估任務模型的報告卡
  1. 若要查看任務的報告,請在導覽窗格中選擇任務

  2. 然後選擇模型評估 。模型評估首頁之一,使用 資料表尋找模型評估任務。一旦任務狀態變更為已完成,您就可以檢視報告卡。

  3. 將模型評估任務的名稱選擇為其報告卡。

當您建立使用人工工作者的模型評估任務時,您可以選擇攜帶自己的推論資料,並讓人工工作者將推論資料與您部署到端點的其他 JumpStart 模型或 JumpStart 模型所產生的資料進行比較。

本主題說明推論資料所需的格式,以及如何將資料新增至模型評估工作的簡化程序。

選擇提示資料集 。此資料集是必要的,您的人力工作團隊將使用此資料集來評估模型的回應。將 S3 URI 提供給 Amazon S3 儲存貯體,其中包含您在文字方塊中的提示資料集。選擇 S3 位置以儲存評估結果。您的資料集必須為 .jsonl 格式。每個記錄都必須是有效的JSON物件,並包含下列必要金鑰:

  • prompt – 包含要傳入模型之文字的JSON物件。

  • (選用) category – - 提示的類別標籤。category 金鑰用於分類提示,以便您稍後可以按類別篩選評估結果,以更深入了解評估結果。它不會參與評估本身,而且工作者不會在評估 UI 上看到它。

  • (選用) referenceResponse – 包含人工評估者的參考答案的JSON物件。參考答案不會由工作者評分,但可以根據您的指示,用來了解哪些回應是可接受或不可接受的。

  • responses – 用於從 外部 SageMaker 或外部的模型指定個別推論 AWS。

    此物件需要其他索引鍵值對"modelIdentifier,該索引鍵值對是識別模型的字串,而"text"該索引鍵值對是模型的推論。

    如果您在自訂提示資料集的任何輸入中指定"responses"金鑰,則必須在所有輸入中指定金鑰。

下列json程式碼範例顯示自訂提示資料集中可接受的鍵值對,其中包含您自己的推論資料。

{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b" , "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }

若要開始啟動 Studio,請在主要導覽中的任務下選擇模型評估

將您自己的推論資料新增至人工模型評估任務。
  1. 步驟 1:指定任務詳細資訊,新增模型評估任務的名稱,以及選用的描述。

  2. 步驟 2:設定評估選擇人為

  3. 接下來,在選擇您要評估的模型 (選擇) 下,您可以選擇要使用的模型。您可以使用已部署的 JumpStart 模型,也可以選擇預先訓練的 Jumpstart 基礎模型

  4. 然後,選擇任務類型

  5. 接下來,您可以新增評估指標

  6. 接下來,在提示資料集下,選擇 自有推論 下的核取方塊,以指出您的提示中有回應金鑰。

  7. 然後繼續設定模型評估任務。

若要進一步了解如何儲存來自使用人工工作者之模型評估任務的回應,請參閱 了解人工評估任務的結果