本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon DynamoDB 與 Apache Hive 整合,Apache Hive 是在 Amazon 上執行的資料倉儲應用程式EMR。Hive 可以在 DynamoDB 資料表中讀取和寫入資料,讓您能夠:
-
使用SQL類似 的語言 (HiveQL) 查詢即時 DynamoDB 資料。
-
將資料從 DynamoDB 資料表複製到 Amazon S3 儲存貯體,反之亦然。
-
將資料從 DynamoDB 資料表複製到 Hadoop 分散式檔案系統 (HDFS),反之亦然。
-
在 DynamoDB 資料表上執行聯結操作。
主題
概觀
Amazon EMR 是一項服務,可讓您輕鬆快速且符合成本效益地處理大量資料。若要使用 Amazon EMR,您可以啟動執行 Hadoop 開放原始碼架構的 Amazon EC2執行個體受管叢集。Hadoop 是實作 MapReduce 演算法的分散式應用程式,任務會映射到叢集中的多個節點。每個節點會與其他節點平行處理其指定的工作。最後,在單個節點上會減少輸出,產生最終結果。
您可以選擇啟動 Amazon EMR叢集,使其持續或暫時性:
-
持續性叢集會一直執行,直到您將其關閉為止。持續性叢集非常適合用於資料分析、資料倉儲或任何其他互動式用途。
-
暫時性叢集執行的時間足以處理任務流程,然後自動關閉。暫時性叢集非常適合用於定期處理任務,如執行指令碼。
如需有關 Amazon EMR架構和管理的資訊,請參閱 Amazon EMR管理指南。
當您啟動 Amazon EMR叢集時,您可以指定 Amazon EC2執行個體的初始數量和類型。您還可以指定要在叢集上執行的其他分散式應用程式 (除了 Hadoop 本身)。這些應用程式包含 Hue、Mahout、Pig、Spark。
如需 Amazon 的應用程式相關資訊EMR,請參閱 Amazon EMR版本指南。
根據叢集組態,您可能具有下列一或多種節點類型:
-
領導者節點 — 管理叢集,協調原始資料的 MapReduce 可執行檔和子集分佈到核心和任務執行個體群組。該節點也會追蹤每個已執行任務的狀態,並監控執行個體群組的運作狀態。一個叢集中只有一個領導節點。
-
核心節點 — 使用 Hadoop 分散式檔案系統 () 執行 MapReduce 任務並存放資料HDFS。
-
任務節點 (選用) — 執行 MapReduce 任務。