本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定 Amazon EMR叢集輸出的位置
Amazon EMR叢集最常見的輸出格式為文字檔案,可以是壓縮或未壓縮。一般而言,這些是寫入至 Amazon S3 儲存貯體的。此儲存貯體必須在叢集啟動前建立。當您啟動叢集時,指定 S3 儲存貯體做為輸出位置。
如需詳細資訊,請參閱下列主題:
建立並設定 Amazon S3 儲存貯體
Amazon EMR(Amazon EMR) 使用 Amazon S3 來存放輸入資料、日誌檔案和輸出資料。Amazon S3 將這些儲存位置視為儲存貯體。儲存貯體具有某些限制條件,以符合 Amazon S3 和 DNS 要求。如需詳細資訊,請參閱《Amazon Simple Storage Service 開發人員指南》中的儲存貯體限制與局限。
若要建立 Amazon S3 儲存貯體,請遵循《Amazon Simple Storage Service 開發人員指南》中的建立儲存貯體頁面上的指示進行操作。
注意
如果您在建立儲存貯體精靈中啟用日誌記錄,則僅啟用儲存貯體存取日誌而非叢集日誌。
注意
如需指定區域特定儲存貯體的詳細資訊,請參閱 Amazon Simple Storage Service 開發人員指南中的儲存貯體和區域,以及 的 AWS SDKs可用區域端點
建立儲存貯體之後,您可以在其上設定適當的許可。通常,您會授予自己 (擁有者) 讀取和寫入存取權。強烈建議您在設定儲存貯體時遵循 Amazon S3 的安全最佳實務。
所需的 Amazon S3 儲存貯體必須先存在,您才能夠建立叢集。您必須將所需指令碼和叢集中參考的資料上傳至 Amazon S3。下表說明了資料、指令碼和日誌檔案位置的範例。
資訊 | Amazon S3 上的位置範例 |
---|---|
指令碼或程式 |
s3://amzn-s3-demo-bucket1/script/MapperScript.py
|
日誌檔案 |
s3://amzn-s3-demo-bucket1/logs
|
輸入資料 |
s3://amzn-s3-demo-bucket1/input
|
輸出資料 |
s3://amzn-s3-demo-bucket1/output
|