設定 Amazon EMR叢集輸出的位置 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 Amazon EMR叢集輸出的位置

Amazon EMR叢集最常見的輸出格式為文字檔案,可以是壓縮或未壓縮。一般而言,這些是寫入至 Amazon S3 儲存貯體的。此儲存貯體必須在叢集啟動前建立。當您啟動叢集時,指定 S3 儲存貯體做為輸出位置。

如需詳細資訊,請參閱下列主題:

建立並設定 Amazon S3 儲存貯體

Amazon EMR(Amazon EMR) 使用 Amazon S3 來存放輸入資料、日誌檔案和輸出資料。Amazon S3 將這些儲存位置視為儲存貯體。儲存貯體具有某些限制條件,以符合 Amazon S3 和 DNS 要求。如需詳細資訊,請參閱《Amazon Simple Storage Service 開發人員指南》中的儲存貯體限制與局限

若要建立 Amazon S3 儲存貯體,請遵循《Amazon Simple Storage Service 開發人員指南》中的建立儲存貯體頁面上的指示進行操作。

注意

如果您在建立儲存貯體精靈中啟用日誌記錄,則僅啟用儲存貯體存取日誌而非叢集日誌。

注意

如需指定區域特定儲存貯體的詳細資訊,請參閱 Amazon Simple Storage Service 開發人員指南中的儲存貯體和區域,以及 的 AWS SDKs可用區域端點

建立儲存貯體之後,您可以在其上設定適當的許可。通常,您會授予自己 (擁有者) 讀取和寫入存取權。強烈建議您在設定儲存貯體時遵循 Amazon S3 的安全最佳實務

所需的 Amazon S3 儲存貯體必須先存在,您才能夠建立叢集。您必須將所需指令碼和叢集中參考的資料上傳至 Amazon S3。下表說明了資料、指令碼和日誌檔案位置的範例。

資訊 Amazon S3 上的位置範例
指令碼或程式 s3://amzn-s3-demo-bucket1/script/MapperScript.py
日誌檔案 s3://amzn-s3-demo-bucket1/logs
輸入資料 s3://amzn-s3-demo-bucket1/input
輸出資料 s3://amzn-s3-demo-bucket1/output