Amazon EMR クラスター出力の場所を設定する - Amazon EMR

Amazon EMR クラスター出力の場所を設定する

Amazon EMR クラスターの最も一般的な出力形式は、圧縮または非圧縮形式のテキストファイルです。一般に、これらは Simple Storage Service (Amazon S3) バケットに書き込まれます。このバケットは、クラスターを起動する前に作成しておく必要があります。クラスターの起動時に、出力場所として S3 バケットを指定します。

詳細については、以下の各トピックを参照してください。

Amazon S3 バケットの作成と設定

Amazon EMR (Amazon EMR) は、Simple Storage Service (Amazon S3) を使用して入力データ、ログファイル、および出力データを保存します。Simple Storage Service (Amazon S3) は、これらのストレージロケーションをバケットとして参照します。バケットには、Simple Storage Service (Amazon S3) と DNS の要件に従って一定の制約と制限があります。詳細については、「Amazon Simple Storage Service デベロッパーガイド」の「バケットの制約と制限」を参照してください。

Simple Storage Service (Amazon S3) バケットを作成するには、「Amazon Simple Storage Service デベロッパーガイド」の「バケットの作成」の手順に従います。

注記

[Create a Bucket] (バケットの作成) ウィザードでロギングを有効にした場合、有効になるのはバケットアクセスログのみで、クラスターログは有効にはなりません。

注記

リージョン固有のバケットの指定については、「Amazon Simple Storage Service デベロッパーガイド」の「バケットとリージョン」および「AWS SDKで使用可能なリージョンエンドポイント」を参照してください。

バケットを作成したら、そこに適切なアクセス許可を設定できます。通常、お客様自身 (所有者) に読み取りと書き込みのアクセス権限を付与します。バケットを設定するには、「Amazon S3 のセキュリティベストプラクティス」に従うことを強くお勧めします。

クラスターを作成するには、必要な Simple Storage Service (Amazon S3) バケットが存在していなければなりません。クラスターで参照される必要なスクリプトまたはデータはすべて、Simple Storage Service (Amazon S3) にアップロードする必要があります。次の表では、サンプルデータ、スクリプト、およびログファイルの場所について説明しています。

情報 Simple Storage Service (Amazon S3) の場所の例
スクリプトまたはプログラム s3://amzn-s3-demo-bucket1/script/MapperScript.py
ログファイル s3://amzn-s3-demo-bucket1/logs
入力データ s3://amzn-s3-demo-bucket1/input
出力データ s3://amzn-s3-demo-bucket1/output