Apache Pig - Amazon EMR

Apache Pig

Apache Pig はオープンソースの Apache ライブラリで、Hadoop 上で稼動し、大規模なデータセットを複雑なコードを記述することなく Java などの低レベルコンピュータ言語で変換するのに使用できるスクリプト言語を提供します。ライブラリは、Pig Latin と呼ばれる言語で記述された SQL のようなコマンドを受け付け、Directed Acyclic Graphs (DAG) や MapReduce プログラムに基づいてこれらのコマンドを Tez ジョブに変換します。Pig は多様な形式の構造化データと非構造化データで機能します。Pig の詳細については、http://pig.apache.org/ を参照してください。

Pig コマンドは、インタラクティブに実行するか、バッチモードで実行できます。Pig をインタラクティブに使用するには、マスターノードへの SSH 接続を作成し、Grunt シェルを使用してコマンドを送信します。Pig をバッチモードで使用するには、Pig スクリプトを記述し、Amazon S3 にアップロードして、クラスターステップとして送信します。クラスターへの作業の送信の詳細については、「Amazon EMR 管理ガイド」の「クラスターへの作業の送信」を参照してください。

Pig を使用して Amazon S3 の HCatalog テーブルに出力を書き込む場合は、mapred.output.direct.NativeS3FileSystem プロパティと mapred.output.direct.EmrFileSystem プロパティを false に設定して、Amazon EMR の直接書き込み機能を無効にしてください。詳細については、「HCatalog の使用」を参照してください。Pig スクリプト内で、SET mapred.output.direct.NativeS3FileSystem false および SET mapred.output.direct.EmrFileSystem false コマンドを使用できます。

次の表は、Amazon EMR 7.x シリーズの最新リリースに含まれている Pig のバージョンと、Amazon EMR で Pig と共にインストールされるコンポーネントを示しています。

このリリースで Pig と共にインストールされるコンポーネントのバージョンについては、「Release 7.3.0 Component Versions」を参照してください。

emr-7.3.0 の Pig バージョン情報
Amazon EMR リリースラベル Pig のバージョン Pig でインストールされるコンポーネント

emr-7.3.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている Pig のバージョンと、Amazon EMR で Pig と共にインストールされるコンポーネントを示しています。

このリリースで Pig と共にインストールされるコンポーネントのバージョンについては、「リリース 6.15.0 コンポーネントバージョン」を参照してください。

emr-6.15.0 の Pig バージョン情報
Amazon EMR リリースラベル Pig のバージョン Pig でインストールされるコンポーネント

emr-6.15.0

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker

次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている Pig のバージョンと、Amazon EMR で Pig と共にインストールされるコンポーネントを示しています。

このリリースで Pig と共にインストールされるコンポーネントのバージョンについては、「Release 5.36.2 Component Versions」を参照してください。

emr-5.36.2 の Pig バージョン情報
Amazon EMR リリースラベル Pig のバージョン Pig でインストールされるコンポーネント

emr-5.36.2

Pig 0.17.0

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn