本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon 建置二進位檔 EMR
您可以使用 Amazon EMR作為建置環境來編譯程式,以便在叢集中使用。您搭配 Amazon 使用的程式,EMR必須在執行與 Amazon 相同版本 Linux 的系統上編譯EMR。若為 32 位元版本,應在 32 位元的裝置上編譯,或開啟 32 位元的跨編譯選項。若為 64 位元版本,則需在 64 位元的裝置上編譯,或開啟 64 位元的跨編譯選項。如需EC2執行個體版本的詳細資訊,請參閱 Amazon EMR管理指南 中的規劃和設定EC2執行個體。支援的程式設計語言包含 C++、Python 及 C#。
下表概述使用 Amazon 建置和測試應用程式所涉及的步驟EMR。
1 | 連接至您的叢集主節點。 |
2 | 複製來源檔案到主節點。 |
3 | 建置二進位檔並進行必要的最佳化。 |
4 | 將二進位檔從主節點複製到 Amazon S3。 |
各步驟的詳細資訊請見以下幾節。
連接至叢集主節點
-
請遵循 Amazon EMR管理指南 中的使用 連線至主節點SSH的指示。
複製來源檔案到主節點
-
將來源檔案置於 Amazon S3 儲存貯體內。若要了解如何建立 儲存貯體和如何將資料移至 Amazon S3,請參閱《Amazon Simple Storage Service 使用者指南》https://docs.aws.amazon.com/AmazonS3/latest/gsg/。
-
輸入類似以下內容的命令,在 Hadoop 叢集上建立一個來源檔案專用的資料夾:
mkdir
SourceFiles
-
輸入類似以下內容的命令,將來源檔案從 Amazon S3 複製到主節點:
hadoop fs -get
s3://amzn-s3-demo-bucket/SourceFiles
SourceFiles
建置二進位檔並進行必要的最佳化
建置二進位檔的方式取決於多種因素。請按照您所使用的特定建置工具的說明,開始建立和設定您的環境。您可以使用 Hadoop 系統規格的命令來取得叢集資訊,以判斷該如何安裝建置環境。
辨識系統規格
-
請使用以下命令來確認您要用來建構二進位檔的架構。
-
若要查看 Debian 版本,請輸入以下命令:
master$ cat /etc/issue
輸出結果類似如下。
Debian GNU/Linux 5.0
-
若要檢視公有DNS名稱和處理器大小,請輸入下列命令:
master$ uname -a
輸出結果類似如下。
Linux domU-12-31-39-17-29-39.compute-1.internal 2.6.21.7-2.fc8xen #1 SMP Fri Feb 15 12:34:28 EST 2008 x86_64 GNU/Linux
-
若要查看處理器速度,請輸入以下命令:
master$ cat /proc/cpuinfo
輸出結果類似如下。
processor : 0 vendor_id : GenuineIntel model name : Intel(R) Xeon(R) CPU E5430 @ 2.66GHz flags : fpu tsc msr pae mce cx8 apic mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall nx lm constant_tsc pni monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr cda lahf_lm ...
-
二進位檔建置完成後,就可以將檔案複製到 Amazon S3。
若要將二進位檔從主節點複製到 Amazon S3
-
請輸入以下命令,將二進位檔複製到您的 Amazon S3 儲存貯體:
hadoop fs -put BinaryFiles
s3://amzn-s3-demo-bucket/BinaryDestination