本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
為 Amazon Redshift 進行概念證明(POC)
Amazon Redshift 是一種熱門的雲端資料倉儲,提供全受管雲端服務,可與組織的 Amazon 簡易儲存服務資料湖、即時串流、機器學習 (ML) 工作流程、交易工作流程等整合。以下各節將引導您完成在 Amazon Redshift 上進行概念驗證 (POC) 的過程。此處的資訊可協助您為 POC 設定目標,並利用可自動佈建和設定 POC 服務的工具。
注意
如需以 PDF 格式提供此資訊的副本,請在亞馬遜紅移資源頁面上選擇執行您自己的 Redshift
執行 Amazon Redshift 的 POC 時,您可以測試、證明和採用各種功能,包括 best-in-class 安全功能、彈性擴展、輕鬆整合和擷取,以及靈活的分散式資料架構選項。
請按照以下步驟進行成功的 POC。
步驟 1:設定 POC 的範圍
執行 POC 時,您可以選擇使用自己的資料,也可以選擇使用基準測試資料集。當您選擇自己的資料時,您可以針對資料執行自己的查詢。使用基準測試資料,範例查詢會隨基準提供。如果您還沒準備好使用自己的資料進行 POC,請參閱使用範例資料集以取得更多詳細資訊。
一般而言,我們建議您將兩週的資料用於 Amazon Redshift POC。
通過執行以下操作開始:
確定您的業務和功能需求,然後向後工作。常見的範例包括:更快的效能、更低的成本、測試新的工作負載或功能,或 Amazon Redshift 與其他資料倉儲之間的比較。
設定成為 POC 成功標準的特定目標。例如,通過更快的性能,列出您希望加速的前五個進程的列表,並包括當前的運行時間以及所需的運行時間。這些可以是報告、查詢、ETL 程序、資料擷取或您目前的痛點。
確定運行測試所需的特定範圍和工件。您需要哪些資料集才能遷移或持續導入 Amazon Redshift,以及執行測試以根據成功標準進行測量需要哪些查詢和程序? 有兩種方式可以進行:
攜帶您自己的資料
要測試您自己的數據,請提出測試成功標準所需的最小可行數據成品列表。例如,如果您目前的資料倉儲有 200 個資料表,但您要測試的報表只需要 20 個資料表,則只需使用較小的資料表子集,就可以更快地執行 POC。
使用範例資料集
如果您沒有準備好自己的資料集,您仍然可以使用業界標準的基準資料集 (例如 TPC-DS 或 TPC-
H ) 開始在 Amazon Redshift 上執行 POC,並執行範例基準測試查詢來利用 Amazon Redshift 的強大功能。您可以在建立 Amazon Redshift 資料倉儲之後,從您的資料倉儲中存取這些資料集。如需如何存取這些資料集和範例查詢的詳細指示,請參閱步驟 2:啟動 Amazon Redshift。
步驟 2:啟動 Amazon Redshift
Amazon Redshift 透過快速、簡單且安全的大規模雲端資料倉儲,加快您獲得洞見的時間。您可以在 Redshift 無伺服器主控台
設定 Amazon Redshift 無伺服器
第一次使用 Redshift 無伺服器時,主控台會引導您完成啟動倉儲所需的步驟。您也可能有資格獲得帳戶中 Redshift 無伺服器用量的抵免額度。如需有關選擇免費試用的詳細資訊,請參閱 Amazon Redshift 免費試用版
如果您之前已在帳戶中啟動 Redshift 無伺服器,請按照 Amazon Redshift 管理指南中的命名空間建立工作群組中的步驟進行操作。倉儲可用之後,您可以選擇載入 Amazon Redshift 中提供的範例資料。如需使用 Amazon Redshift 查詢編輯器 v2 載入資料的相關資訊,請參閱 Amazon Redshift 管理指南中的載入範例資料。
如果您要使用自己的資料而不是載入範例資料集,請參閱步驟 3:載入資料。
步驟 3:載入資料
啟動 Redshift 無伺服器之後,下一步就是載入 POC 的資料。無論您要上傳簡單的 CSV 檔案、從 S3 擷取半結構化資料,還是直接串流資料,Amazon Redshift 都能提供彈性,讓您能夠快速輕鬆地將資料從來源移至 Amazon Redshift 表格。
選擇下列其中一種方法來載入資料。
上傳本機檔案
若要快速擷取和分析,您可以使用 Amazon Redshift 查詢編輯器 v2 輕鬆地從本機桌面載入資料檔案。它具有處理各種格式的文件,例如 CSV,JSON,AVRO,實木複合地板,ORC 等的能力。若要讓身為管理員的使用者能夠使用查詢編輯器 v2 從本機桌面載入資料,您必須指定通用的 Amazon S3 儲存貯體,而且使用者帳戶必須設定適當的許可。您可以使用查詢編輯器 V2 在 Amazon Redshift 中輕鬆安全地追蹤資料載入以取得
加載 Amazon S3 文件
若要將資料從 Amazon S3 儲存貯體載入 Amazon Redshift,請先使用 COPY 命令,指定來源 Amazon S3 位置,並將 Amazon Redshift 表作為目標。確保已正確設定 IAM 角色和許可,以允許 Amazon Redshift 存取指定的 Amazon S3 儲存貯體。遵循教學課程:從 Amazon S3 載入資料以取得 step-by-step 指導。您也可以在查詢編輯器 v2 中選擇「載入資料」選項,直接從 S3 儲存貯體載入資料。
持續資料擷取
自動複製 (處於預覽狀態) 是 COPY 命令的延伸,可自動從 Amazon S3 儲存貯體連續載入資料。當您建立複製任務時,Amazon Redshift 會偵測在指定路徑中建立新的 Amazon S3 檔案時,然後自動載入這些檔案,而無需您介入。Amazon Redshift 會追蹤載入的檔案,以確認檔案只載入一次。如需如何建立複製工作的指示,請參閱 COPYJOB(預覽)
注意
自動複製目前處於預覽狀態,僅在特定 AWS 區域的佈建叢集中受支援。若要建立自動複製的預覽叢集,請參閱從 Amazon S3 載入具有連續檔案擷取的資料表 (預覽)。
載入串流資料
串流擷取提供低延遲、高速的串流資料擷取功能,從 Amazon Kinesis Data Streams
步驟 4:分析您的資料
在建立 Redshift 無伺服器工作群組和命名空間並載入資料之後,您可以從 Redshift
使用 Amazon Redshift 查詢編輯器 v2 進行查詢
您可以從 Amazon Redshift 主控台存取查詢編輯器 v2。請參閱使用 Amazon Redshift 查詢編輯器 v2 簡化資料分析
或者,如果你想運行一個負載測試作為你的 POC 的一部分,你可以通過以下步驟來安裝和運行 Apache JMeter 的做到這一點。
運行使用阿帕奇 JMeter 的負載測試
若要執行負載測試以模擬「N」使用者同時向 Amazon Redshift 提交查詢,您可以使用 Apache JMeter
若要安裝和設定 Apache JMeter 以針對 Redshift 無伺服器工作群組執行,請遵循使用分析自動化工具組自動化 Amazon Redshift 負載測試
完成自訂 SQL 陳述式並完成測試計劃之後,請針對 Redshift 無伺服器工作群組儲存並執行測試計劃。若要監視測試進度,請開啟 Redshift 無伺服器主控台
對於效能測量結果,請選擇 Redshift 無伺服器主控台上的「資料庫效能」索引標籤,以監視「資料庫連線」和「CPU 使用率」等指標。您可以在此檢視圖表以監控使用的 RPU 容量,並觀察 Redshift Serverless 如何在工作群組上執行負載測試時自動擴展以滿足並行工作負載需求。
資料庫連線是另一個有用的測量結果,可在執行負載測試時監視,以瞭解工作群組在指定時間如何處理多個並行連線,以滿足日益增加的工作負載需求。
步驟 5:最佳化
Amazon Redshift 透過提供各種組態和功能來支援個別使用案例,讓成千上萬的使用者每天處理 EB 的資料,並強化其分析工作負載。在這些選項之間進行選擇時,客戶正在尋找可協助他們判斷最佳資料倉儲組態以支援 Amazon Redshift 工作負載的工具。
試駕
您可以使用「試