將資料擷取到 Amazon 的不同方式 EMR - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將資料擷取到 Amazon 的不同方式 EMR

Amazon EMR提供多種方式將資料取得到叢集。最常見的方法是將資料上傳至 Amazon S3,並使用 Amazon 的內建功能將資料EMR載入叢集。您也可以使用 DistributedCache Hadoop 的 功能,可將檔案從分散式檔案系統傳輸到本機檔案系統。Amazon 提供的 Hive 實作 EMR(Hive 0.7.1.1 版及更新版本) 包含功能,可用於在 DynamoDB 和 Amazon EMR叢集之間匯入和匯出資料。如果您有要處理的大量現場部署資料,您會發現 AWS Direct Connect 服務很有用。