建立使用人力的模型評估任務 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立使用人力的模型評估任務

必要條件

若要完成以下程序,您必須執行下列動作。

  1. 您必須能在 Amazon Bedrock 中存取模型。

  2. 您必須擁有 Amazon Bedrock 服務角色。如果您尚未建立服務角色,可以在設定模型評估任務時,在 Amazon 基岩主控台中建立該角色。附加的政策必須授與模型評估任務中使用的任何 S3 儲存貯體的存取權,以及任務中指定之任何模型的 ARN。它也必須在sagemaker:StartHumanLoop政策中定義sagemaker:StopHumanLoopsagemaker:DescribeHumanLoopsagemaker:DescribeFlowDefinition SageMaker IAM 動作。服務角色也必須將 Amazon Bedrock定義為角色信任政策中的服務主體。如需進一步了解,請參閱服務角色

  3. 您必須具有 Amazon SageMaker 服務角色。如果您尚未建立服務角色,可以在設定模型評估任務時,在 Amazon 基岩主控台中建立該角色。附加的政策必須授予下列資源及 IAM 動作的存取權。模型評估任務中使用的任何 S3 儲存貯體。角色的信任原則必須 SageMaker 定義為服務主體。如需進一步了解,請參閱所需的許可

  4. 存取 Amazon Bedrock 主控台的使用者、群組或角色,必須具有存取所需 Amazon S3 儲存貯體的必要許可權。

  5. 輸出 Amazon S3 儲存貯體和任何自訂提示資料集儲存貯體都必須新增所需的 CORS 許可。若要進一步了解必要的 CORS 許可,請參閱 S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可權

在使用人工的模型評估工作中,您最多可以評估和比較兩個模型的回應。您可以從建議的指標清單中選擇,或使用您自己定義的指標。您最多可以有 20 個使用人工的模型評估工作進行中的 AWS 帳戶 每個 AWS 區域。

您必須針對您使用的每個指標定義評分方法。評分方法定義了您的人類工作者如何評估他們從您選擇的模型中看到的回應。若要深入瞭解不同可用的評分方法,以及如何為員工建立高品質指示,請參閱在 Amazon Bedrock 中建立和管理工作團隊

使用 Amazon Bedrock 主控台檢視模型評估任務結果

模型評估任務完成後,結果會存放在您指定的 Amazon S3 儲存貯體中。如果您以任何方式修改結果的位置,則主控台不會再顯示模型評估報告卡。

若要建立使用人力的模型評估任務
  1. 開啟 Amazon Bedrock 主控台:https://console.aws.amazon.com/bedrock/home

  2. 在導覽窗格中,選擇模型評估

  3. 在「建立評估卡」的「人類:攜帶您自己的團隊」下選擇「建立以人為本的評估」。

  4. 指定任務詳細資訊頁面上,提供下列資訊:

    1. 評估名稱 — 為模型評估任務指定一個描述任務的名稱。此名稱會顯示在您的模型評估任務清單中。名稱在中必須是唯一 AWS 帳戶 的 AWS 區域。

    2. 描述 (選用) — 提供選擇性描述。

  5. 然後選擇下一步

  6. 設定評估頁面上提供下列資訊。

    1. 模型 — 您可以選擇要在模型評估任務中使用的最多兩個模型。

      若要進一步了解 Amazon Bedrock 中的可用機型,請參閱 管理對 Amazon 基礎基礎模型的存取

    2. (選擇性) 若要變更所選模型的推論組態,請選擇「更新」(update)。

      變更推論組態會變更所選模型產生的回應。若要進一步了解可用推論參數,請參閱 基礎模型的推論參數

    3. 任務類型 — 選擇您希望模型在模型評估任務期間嘗試執行的任務類型。模型的所有指示都必須包含在提示詞本身中。任務類型不會控制模型的回應。

    4. 評估指標 — 建議的指標清單會根據您選取的指標而變更。對於每個建議的指標,您必須選取評分方法。每個模型評估任務最多可以擁有 10 個評估指標。

    5. (選擇性) 選擇「新增量度」以新增量度。您必須定義指標描述評分方法

    6. 在 [資料集] 卡中,您必須提供下列資訊。

      1. 選擇提示資料集 — 指定提示資料集檔案的 S3 URI,或選擇瀏覽 S3 查看可用的 S3 儲存貯體。自訂提示資料集中最多可有 1000 個提示。

      2. 評估結果目標 — 您必須指定要儲存模型評估任務結果的目錄 S3 URI,或選擇瀏覽 S3 以查看可用的 S3 儲存貯體。

    7. (選擇性) AWS KMS 金鑰 — 提供您要用來加密模型評估工作之客戶管理金鑰的 ARN。

    8. Amazon 基岩 IAM 角色-許可卡中,您必須執行以下操作。若要進一步了解模型評估所需的許可,請參閱 建立模型評估工作所需的權限和 IAM 服務角色

      1. 若要使用現有的 Amazon 基岩服務角色,請選擇使用現有角色。否則,請使用「建立新角色」來指定新 IAM 服務角色的詳細資料。

      2. 服務角色名稱中,指定 IAM 服務角色的名稱。

      3. 準備就緒後,選擇建立角色以建立新的 IAM 服務角色。

  7. 然後選擇下一步

  8. 許可卡片中,指定下列項目。若要進一步了解模型評估所需的許可,請參閱 建立模型評估工作所需的權限和 IAM 服務角色

  9. 人工工作流程 IAM 角色 — 指定具有必要許可的 SageMaker服務角色。

  10. 工作團隊卡片中,指定下列項目。

    人力工作者通知要求

    當您將新進人力工作者加入至模型評估任務時,他們會自動收到邀請他們參與模型評估任務的電子郵件。當您將現有的人力新增至模型評估任務時,您必須通知並提供工作者入口網站 URL 以進行模型評估任務。現有工作者不會收到自動電子郵件通知,告知他們已加入至新的模型評估任務。

    1. 使用選取團隊下拉式清單,指定建立新工作團隊或現有工作團隊的名稱。

    2. (選用) 每個提示的工作者數目 — 更新評估每個提示的工作者數目。在您選取的工作者人數檢閱了每個提示的回應後,該提示及其回應就會從工作團隊流傳中移除。最終結果報告會包含每名工作者的所有評分。

    3. (選用) 現有工作者電子郵件 — 選擇此選項可複製包含工作者入口網站 URL 的電子郵件範本。

    4. (選用) 新工作者電子郵件 — 選擇此選項可檢視新工作者自動收到的電子郵件。

      重要

      眾所周知,大型語言模型偶爾會產生幻覺,並產生有毒或令人反感的內容。在此評估期間,您的員工可能會顯示有毒或令人反感的資料。確保您採取適當的步驟進行培訓,並在評估工作之前通知他們。他們可以在存取人力評估工具時拒絕和發布任務,或在評估期間休息。

  11. 然後選擇下一步

  12. 提供指示頁面上,使用文字編輯器提供完成任務的指示。您可以預覽工作團隊用來評估回應的評估 UI,包括指標、評分方法和指示。此預覽以您為此任務建立的組態為基礎。

  13. 然後選擇下一步

  14. 檢閱和建立頁面上,可以檢視已在先前步驟中選取的選項摘要。

  15. 若要開始進行模型評估任務,請選擇建立

成功啟動任務後,狀態會變更為進行中。當任務完成後,狀態會變更為已完成。當模型評估工作仍在進行中時,您可以選擇在工作團隊評估所有模型的回應之前停止工作。若要這樣做,請在模型評估登陸頁面上選擇 [停止評估]。這會將模型評估工作的「狀態」 變更為「停止」。成功停止模型評估工作後,您可以刪除模型評估工作。

若要了解如何評估、檢視和下載模型評估任務的結果,請參閱 模型評估任務結果