本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定 Amazon EMR叢集輸出的位置
Amazon EMR叢集最常見的輸出格式為文字檔案,可以是壓縮或未壓縮。一般而言,這些是寫入至 Amazon S3 儲存貯體的。此儲存貯體必須在叢集啟動前建立。當您啟動叢集時,指定 S3 儲存貯體做為輸出位置。
如需詳細資訊,請參閱下列主題:
建立並設定 Amazon S3 儲存貯體
Amazon EMR(Amazon EMR) 使用 Amazon S3 來存放輸入資料、日誌檔案和輸出資料。Amazon S3 將這些儲存位置視為儲存貯體。儲存貯體有特定限制,以符合 Amazon S3 和DNS要求。如需詳細資訊,請參閱《Amazon Simple Storage Service 開發人員指南》中的儲存貯體限制與局限。
若要建立 Amazon S3 儲存貯體,請遵循《Amazon Simple Storage Service 開發人員指南》中的建立儲存貯體頁面上的指示進行操作。
注意
如果您在建立儲存貯體精靈中啟用日誌記錄,則僅啟用儲存貯體存取日誌而非叢集日誌。
注意
如需指定區域特定儲存貯體的詳細資訊,請參閱《Amazon Simple Storage Service 開發人員指南》中的儲存貯體和區域,以及 的 AWS SDKs可用區域端點
建立儲存貯體之後,您可以在其上設定適當的許可。通常,您會授予自己 (擁有者) 讀取和寫入存取權。強烈建議您在設定儲存貯體時遵循 Amazon S3 的安全最佳實務。
所需的 Amazon S3 儲存貯體必須先存在,您才能夠建立叢集。您必須將所需指令碼和叢集中參考的資料上傳至 Amazon S3。下表說明了資料、指令碼和日誌檔案位置的範例。
資訊 | Amazon S3 上的位置範例 |
---|---|
指令碼或程式 |
s3://amzn-s3-demo-bucket1/script/MapperScript.py
|
日誌檔案 |
s3://amzn-s3-demo-bucket1/logs
|
輸入資料 |
s3://amzn-s3-demo-bucket1/input
|
輸出資料 |
s3://amzn-s3-demo-bucket1/output
|