Apache Pig
Apache Pig はオープンソースの Apache ライブラリで、Hadoop 上で稼動し、大規模なデータセットを複雑なコードを記述することなく Java などの低レベルコンピュータ言語で変換するのに使用できるスクリプト言語を提供します。ライブラリは、Pig Latin と呼ばれる言語で記述された SQL のようなコマンドを受け付け、Directed Acyclic Graphs (DAG) や MapReduce プログラムに基づいてこれらのコマンドを Tez ジョブに変換します。Pig は多様な形式の構造化データと非構造化データで機能します。Pig の詳細については、http://pig.apache.org/
Pig コマンドは、インタラクティブに実行するか、バッチモードで実行できます。Pig をインタラクティブに使用するには、マスターノードへの SSH 接続を作成し、Grunt シェルを使用してコマンドを送信します。Pig をバッチモードで使用するには、Pig スクリプトを記述し、Amazon S3 にアップロードして、クラスターステップとして送信します。クラスターへの作業の送信の詳細については、「Amazon EMR 管理ガイド」の「クラスターへの作業の送信」を参照してください。
Pig を使用して Amazon S3 の HCatalog テーブルに出力を書き込む場合は、mapred.output.direct.NativeS3FileSystem
プロパティと mapred.output.direct.EmrFileSystem
プロパティを false
に設定して、Amazon EMR の直接書き込み機能を無効にしてください。詳細については、「HCatalog の使用」を参照してください。Pig スクリプト内で、SET mapred.output.direct.NativeS3FileSystem false
および SET mapred.output.direct.EmrFileSystem false
コマンドを使用できます。
次の表は、Amazon EMR 7.x シリーズの最新リリースに含まれている Pig のバージョンと、Amazon EMR で Pig と共にインストールされるコンポーネントを示しています。
このリリースで Pig と共にインストールされるコンポーネントのバージョンについては、「Release 7.3.0 Component Versions」を参照してください。
Amazon EMR リリースラベル | Pig のバージョン | Pig でインストールされるコンポーネント |
---|---|---|
emr-7.3.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている Pig のバージョンと、Amazon EMR で Pig と共にインストールされるコンポーネントを示しています。
このリリースで Pig と共にインストールされるコンポーネントのバージョンについては、「リリース 6.15.0 コンポーネントバージョン」を参照してください。
Amazon EMR リリースラベル | Pig のバージョン | Pig でインストールされるコンポーネント |
---|---|---|
emr-6.15.0 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn, tez-on-worker |
次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている Pig のバージョンと、Amazon EMR で Pig と共にインストールされるコンポーネントを示しています。
このリリースで Pig と共にインストールされるコンポーネントのバージョンについては、「Release 5.36.2 Component Versions」を参照してください。
Amazon EMR リリースラベル | Pig のバージョン | Pig でインストールされるコンポーネント |
---|---|---|
emr-5.36.2 |
Pig 0.17.0 |
emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, pig-client, tez-on-yarn |