本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
整合 Amazon SageMaker 模型與 Amazon QuickSight
注意
您不需要任何機器學習 (ML) 的技術經驗,即可編寫使用 Amazon 中由 ML 提供功能的分析和儀表板。 QuickSight
您可以使用 Amazon SageMaker 機器學習模型來增強您的 Amazon QuickSight 企業版資料。您可以對從 Amazon QuickSight 支援的任何資料來源SPICE匯入中存放的資料執行推論。如需支援的資料來源的完整清單,請參閱 支援的資料來源。
將 Amazon QuickSight 與 SageMaker 模型搭配使用可節省您管理資料移動和撰寫程式碼所花費的時間。這些結果針對評估模型,以及 (當您滿意結果時) 用於與決策制定者分享都很有用。您可以在建立模型後立即開始。這樣做可以顯示您的資料科學家預先建立的模型,並可讓您將資料科學套用於資料集。然後,您可以在預測儀表板中分享這些深入解析。使用 Amazon QuickSight 無伺服器方法,流程可無縫擴展,因此您無需擔心推論或查詢容量。
Amazon QuickSight 支 SageMaker 援使用回歸和分類演算法的模型。您可以套用此功能,取得幾乎所有商業使用案例的預測。有些範例包括預測客戶流失的可能性、員工流失、評分銷售潛在客戶,以及評估信用風險。若要使用 Amazon QuickSight 提供預測,輸入和輸出的 SageMaker 模型資料都必須採用表格格式。在多類別或多標籤的分類使用案例中,每個輸出資料欄都必須包含單一值。Amazon QuickSight 不支持單個列內的多個值。
主題
SageMaker 整合的運作方式
一般來說,此程序的運作方式如下:
-
Amazon QuickSight 管理員為 Amazon 添加了許可 QuickSight 以訪問 SageMaker。若要這麼做,請從「管理」 QuickSight 頁面開啟「安全性與權限」設定。轉到QuickSight訪問AWS服務,然後添加 SageMaker。
當您新增這些許可時,Amazon QuickSight 會新增至 AWS Identity and Access Management (IAM) 角色,該角色可讓您存取列出AWS帳戶中所有 SageMaker 模型的權限。它也提供執行名稱前置詞為之 SageMaker 工作的權限。
quicksight-auto-generated-
-
我們建議您連接到具有推論管線的 SageMaker 模型,因為它會自動執行資料預先處理。如需詳細資訊,請參閱SageMaker 開發人員指南中的部署推論管線。
-
識別資料和您要一起使用的預先訓練模型之後,模型的擁有者會建立並提供結構描述檔案。這個 JSON 檔案是與 SageMaker. 它提供有關欄位、資料類型、資料欄順序、輸出和模型預期之設定的中繼資料。選用設定元件提供要用於任務的執行個體大小和計算執行個體的計數。
如果您是建置該模型的資料科學家,請使用下列格式建立此資料結構描述檔案。如果您是模型的使用者,請向模型的擁有者取得結構描述檔案。
-
在 Amazon 中 QuickSight,您首先要使用要進行預測的資料建立新資料集。如果您正在上傳檔案,您可以在上傳設定畫面上新增 SageMaker 模型。否則,您可以在資料準備頁面上新增模型。
在繼續之前,請確認資料集和模型之間的對應。
-
將資料匯入資料集之後,輸出欄位會包含從中傳回的資料 SageMaker。這些欄位的使用方式與您使用其他欄位的方式相同,請遵循 使用指引 中所述的指導方針。
當您執行 SageMaker 整合時,Amazon 會將請求 QuickSight 傳遞 SageMaker 給使用推論管道執行批次轉換任務。Amazon QuickSight 開始佈建和部署您AWS帳戶中所需的執行個體。當處理完成時,這些執行個體會被關閉並終止。運算容量只有在處理模型時才會產生成本。
為了讓您更容易識別它們,Amazon 使用前綴 QuickSight 命名其所有任 SageMaker 務
quicksight-auto-generated-
。 -
推斷的輸出會儲存在 SPICE 中,並附加到資料集。一旦推論完成,您就可以使用資料集來利用預測資料建立視覺效果和儀表板。
-
每次儲存資料集時,都會開始重新整理資料。您可以重新整理 SPICE 資料集,以手動開始資料的重新整理程序,或者您可以將它排程為定期執行。在每次資料重新整理期間,系統會自動呼叫 SageMaker 批次轉換,以使用新資料更新輸出欄位。
您可以使用 Amazon QuickSight SPICE 擷取 API 操作來控制資料重新整理程序。如需有關使用這些 API 操作的詳細資訊,請參閱 Amazon QuickSight API 參考資料。
產生的成本 (整合本身無額外成本)
使用此功能本身不需支付額外的費用。您的成本包括下列各項:
-
透過模型部署的成本 SageMaker,只有在模型執行時才會產生。儲存資料集 (在建立或編輯資料集之後) 或重新整理資料之後,就會開始資料擷取程序。這個程序包括呼叫資料集是 SageMaker 否有推斷欄位。費用是在您的 QuickSight 訂閱所在的相同AWS帳戶中產生的。
-
您的 QuickSight 訂閱費用如下:
-
在 QuickSight (SPICE)中將數據存儲在內存計算引擎中的成本。如果您要新增資料至 SPICE,您可能需要購買足夠的 SPICE 容量來容納它。
-
QuickSight 建立資料集的作者或管理員的訂閱。
-
P ay-per-session 收取檢視者 (讀者) 存取互動式儀表板的費用。
-
使用指引
在 Amazon 中 QuickSight,下列使用準則適用於此企業版功能:
-
模型的處理會發生在 SPICE 中。因此,它僅套用至儲存在 SPICE 中的資料集。該程序目前支援每個資料集最多 5 億個資料列。
-
只有 QuickSight 管理員或作者可以使用 ML 模型擴充資料集。讀者只能在他們是儀表板的一部分時檢視結果。
-
每個資料集僅可以使用確切一個 ML 模型。
-
輸出欄位不能用來計算新欄位。
-
資料集不能依與模型整合的欄位篩選。換句話說,如果您的資料集欄位目前映射至 ML 模型,則您無法依該欄位篩選。
在中 SageMaker,下列使用準則適用於您搭配 Amazon QuickSight 使用的預先訓練模型:
-
建立模型時,請將其與適當 IAM 角色的 Amazon Resource Name (ARN) 產生關聯。 SageMaker 模型的 IAM 角色需要能夠存取 Amazon 使用的 Amazon S3 儲存貯 QuickSight 體。
-
確定您的模型支援輸入和輸出的 .csv 檔案。確定您的資料是表格格式。
-
提供包含模型相關中繼資料的結構描述檔案,包括輸入和輸出欄位的清單。目前,您必須手動建立此結構描述檔案。
-
考量完成推論所需的時間,這取決於許多因素。其中包括模型的複雜性、資料量以及定義的計算容量。完成推論可能需要幾分鐘到幾個小時。Amazon 將所有資料擷取和推論任務 QuickSight 上限為 10 小時。若要減少執行推論所需的時間,請考慮增加執行個體大小或執行個體的數量。
-
目前,您只能使用批次轉換來整合 SageMaker,而不能使用即時資料。您無法使用 SageMaker 端點。
定義結構描述檔案
在將 SageMaker 模型與 Amazon QuickSight 資料搭配使用之前,請先建立包含 Amazon 處理模型所 QuickSight 需的中繼資料的 JSON 結構描述檔案。Amazon 作 QuickSight 者或管理員會在設定資料集時上傳結構描述檔案。
結構描述欄位的定義如下。除非在下列說明中有指定,否則所有欄位均為必填欄位。屬性區分大小寫。
- inputContentType
-
該 SageMaker 模型期望的輸入數據的內容類型。此項目唯一支援的值是
"text/csv"
。 QuickSight 不包含您新增至輸入檔案的任何標頭名稱。 - outputContentType
-
您要使用的 SageMaker 模型所產生的輸出內容類型。此項目唯一支援的值是
"text/csv"
。 - input
-
模型預期在輸入資料中的功能清單。 QuickSight 以完全相同的順序產生輸入資料。此清單包含下列屬性:
-
name:資料欄的名稱。如果可能的話,請使其與 QuickSight 資料集中對應資料欄的名稱相同。此屬性限制為 100 個字元。
-
type:此資料欄的資料類型。此屬性會採用值
"INTEGER"
、"STRING"
和"DECIMAL"
。 -
nullable:(選用) 欄位的可為 Null 性。預設值為
true
。如果設定nullable
為false
,則在呼叫之前 QuickSight 刪除不包含此值的列 SageMaker。這樣做有助於避免在缺少所需數據 SageMaker 時導致失敗。
-
- output
-
SageMaker 模型產生的輸出資料行清單。 QuickSight預期這些欄位的順序完全相同。此清單包含下列屬性:
-
name — 此名稱會成為在中建立之對應新欄的預設名稱 QuickSight。您可以覆寫在中指定的名稱 QuickSight。此屬性限制為 100 個字元。
-
type:此資料欄的資料類型。此屬性會採用值
"INTEGER"
、"STRING"
和"DECIMAL"
。
-
- instanceTypes
-
SageMaker 可佈建以執行轉換工作的 ML 執行個體類型清單。該列表提供給用 QuickSight 戶可供選擇。此清單僅限於支援的類型 SageMaker。如需支援類型的詳細資訊,請參閱SageMaker開發人員指南TransformResources中的。
- defaultInstanceType
-
(選擇性) 在 SageMaker 精靈中顯示為預設選項的執行個體類型 QuickSight。在
instanceTypes
中包含此執行個體類型。 - instanceCount
-
(選擇性) 執行處理計數定義 SageMaker 要佈建的選取執行處理數目,以執行轉換工作。此值必須為正整數。
- description
-
此欄位為擁有 SageMaker 模型的人員提供一個位置,以便與中使用此模型的人員進行通訊 QuickSight。使用此欄位可提供有關成功使用此模型的提示。例如,此欄位可以包含有關選取有效的執行個體類型,以根據資料集大小從
instanceTypes
中的清單中選擇的資訊。此欄位限制為 1,000 個字元。 - version
-
結構描述的版本,例如 "
1.0"
。
下列範例會顯示結構描述檔案中 JSON 的結構。
{ "inputContentType": "CSV", "outputContentType": "CSV", "input": [ { "name": "buying", "type": "STRING" }, { "name": "maint", "type": "STRING" }, { "name": "doors", "type": "INTEGER" }, { "name": "persons", "type": "INTEGER" }, { "name": "lug_boot", "type": "STRING" }, { "name": "safety", "type": "STRING" } ], "output": [ { "name": "Acceptability", "type": "STRING" } ], "description": "Use ml.m4.xlarge instance for small datasets, and ml.m4.4xlarge for datasets over 10 GB", "version": "1.0", "instanceCount": 1, "instanceTypes": [ "ml.m4.xlarge", "ml.m4.4xlarge" ], "defaultInstanceType": "ml.m4.xlarge" }
結構描述檔案的結構與所提供範例中使用的模型種類有關 SageMaker。
將 SageMaker 模型新增至資 QuickSight 料集
使用下列程序,您可以將預先訓練的 SageMaker 模型新增至資料集,以便在分析和儀表板中使用預測性資料。
開始之前,請先準備好下列項目:
-
您要用來建置資料集的資料。
-
您要用來擴充資料集的 SageMaker 模型名稱。
-
模型的結構描述。此結構描述包括欄位名稱對應和資料類型。如果它還包含執行個體類型和要使用的執行個體數量的建議設定,這會很有幫助。
若要擴充您的 Amazon QuickSight 資料集 SageMaker
-
從開始頁面建立新的資料集,方法是選擇資料,然後選擇新增資料集。
您也可以編輯現有的資料集。
-
在資料準備畫面 SageMaker上選擇擴充方式。
-
對於 Select your model (選取您的模型),選擇下列設定:
-
模型 — 選擇要用來推斷欄位的 SageMaker 模型。
-
名稱:提供模型的描述名稱。
-
結構描述:上傳為模型提供的 JSON 結構描述檔案。
-
進階設定 — 根據您的資料集 QuickSight建議選取的預設值。您可以使用特定的執行期設定來平衡任務的速度和成本。若要這麼做,請輸入執行個體類型的 SageMaker ML 執行個體類型,以及 Count 的執行個體數目。
選擇 Next (下一步) 繼續。
-
-
對於「檢閱」輸入,請檢閱對應至資料集的欄位。 QuickSight 會嘗試將結構描述中的欄位自動對應至資料集中的欄位。如果對應需要調整,您可以在此處進行變更。
選擇 Next (下一步) 繼續。
-
針對檢閱輸出,請檢視新增至您的資料集的欄位。
選擇 Save and prepare data (儲存並準備資料) 以確認您的選擇。
-
若要重新整理資料,請選擇要檢視詳細資料的資料集。然後選擇 Refresh Now (立即重新整理) 以手動重新整理資料,或選擇 Schedule refresh (排程重新整理) 以設定定期的重新整理間隔。在每次資料重新整理期間,系統會自動執行 SageMaker 批次轉換工作,以更新具有新資料的輸出欄位。