本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Apache Pig
Apache Pig 是一種在 Hadoop 上執行的開放原始碼 Apache 程式庫,其提供指令碼語言,您可使用這個語言來轉換大型資料集,無需使用 Java 之類的低層級電腦語言來編寫複雜的程式碼。程式庫使用SQL類似 的命令,以稱為 Pig Latin 的語言編寫,並根據定向非循環圖形 (DAGs) 或 MapReduce 程式將這些命令轉換為 Tez 任務。Pig 可處理各種格式的結構化和非結構化資料。如需 Pig 的詳細資訊,請參閱 http://pig.apache.org/
您可以互動方式或批次模式執行 Pig 命令。若要以互動方式使用 Pig,請建立與主節點的SSH連線,並使用 Grunt Shell 提交命令。若要以批次模式中使用 Pig,您會撰寫 Pig 指令碼、將它們上傳至 Amazon S3,然後提交作為叢集的步驟。如需將工作提交至叢集的詳細資訊,請參閱 Amazon EMR管理指南 中的將工作提交至叢集。
當您使用 Pig 將輸出寫入 Amazon S3 中的HCatalog資料表時,請將 mapred.output.direct.NativeS3FileSystem
和 mapred.output.direct.EmrFileSystem
屬性設定為 來停用 Amazon EMR直接寫入false
。如需詳細資訊,請參閱使用 HCatalog。在 Pig 指令碼中,您可以使用 SET mapred.output.direct.NativeS3FileSystem false
和 SET mapred.output.direct.EmrFileSystem false
命令。
下表列出 Amazon EMR 7.x 系列最新版本中包含的 Pig 版本,以及 Amazon 搭配 Pig EMR 安裝的元件。
如需此版本中與 Pig 一起安裝的元件版本,請參閱 7.3.0 版元件版本 。
Amazon EMR發行標籤 | Pig 版本 | 與 Pig 一起搭配安裝的元件 |
---|---|---|
emr-7.3.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
下表列出 Amazon EMR 6.x 系列最新版本中包含的 Pig 版本,以及 Amazon 搭配 Pig EMR 安裝的元件。
如需此版本中與 Pig 一起搭配安裝的元件版本,請參閱發行版本 6.15.0 元件版本。
Amazon EMR發行標籤 | Pig 版本 | 與 Pig 一起搭配安裝的元件 |
---|---|---|
emr-6.15.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
下表列出 Amazon EMR 5.x 系列最新版本中包含的 Pig 版本,以及 Amazon 搭配 Pig EMR 安裝的元件。
如需此版本中與 Pig 一起安裝的元件版本,請參閱版本 5.36.2 元件版本 。
Amazon EMR發行標籤 | Pig 版本 | 與 Pig 一起搭配安裝的元件 |
---|---|---|
emr-5.36.2 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn |