列データ形式の COPY
COPY では、次の列形式で Amazon S3 からデータをロードできます。
-
ORC
-
Parquet
列データ形式からの COPY の使用例については、「COPY の例」を参照してください。
COPY では、列形式のデータがサポートされますが、以下の考慮事項があります。
-
Amazon S3 バケットは、Amazon Redshift データベースと同じ AWS リージョンに存在する必要があります。
-
VPC エンドポイントを介して Amazon S3 データにアクセスするには、「Amazon Redshift 管理ガイド」の「拡張 VPC のルーティングで Amazon Redshift Spectrum を使用する」の説明に沿って、IAM ポリシーと IAM ロールを使用してアクセスを設定します。
-
COPY では、圧縮エンコードは自動的に適用されません。
-
以下の COPY パラメータのみサポートされています。
-
ORC または Parquet ファイルからコピーする場合は ACCEPTINVCHARS。
-
-
ロード中に COPY でエラーが発生すると、コマンドは失敗します。ACCEPTANYDATE および MAXERROR は、列データ型ではサポートされていません。
エラーメッセージは、SQL クライアントに送信されます。一部のエラーは、STL_LOAD_ERRORS と STL_ERROR に記録されます。
-
COPY は列データファイルで発生した列と同じ順序でターゲットテーブルの列に値を挿入します。ターゲットテーブルの列数とデータファイルの列数が一致する必要があります。
-
COPY オペレーションに指定したファイルに以下のいずれかの拡張子が含まれている場合、データを圧縮解除するためにパラメータを追加する必要はありません。
.gz
.snappy
.bz2
Parquet および ORC ファイル形式からの COPY では、Redshift Spectrum とバケットアクセスが使用されます。これらの形式で COPY を使用するには、Amazon S3 の署名付き URL の使用をブロックする IAM ポリシーがないことを確認してください。Amazon Redshift によって生成された署名付き URL は 1 時間有効です。これにより、Amazon Redshift は Amazon S3 バケットからすべてのファイルをロードするのに十分な時間を確保できます。列指向形式から COPY でスキャンしたファイルごとに、一意の署名付き URL が生成されます。
s3:signatureAge
アクションを含むバケットポリシーの場合は、値を少なくとも 3,600,000 ミリ秒に設定してください。詳細については、拡張された VPC のルーティングで Amazon Redshift Spectrum を使用するを参照してください。