Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Differenze nell'DistCp utilità S3 rispetto alle versioni AMI precedenti di Amazon EMR
DistCp Versioni S3 supportate in Amazon EMR
Le seguenti versioni di S3 sono supportate nelle DistCp versioni AMI di Amazon EMR. DistCpLe versioni S3 successive alla 1.0.7 si trovano direttamente nei cluster. Utilizza il file JAR in /home/hadoop/lib
per le caratteristiche più recenti.
Versione | Descrizione | Data di rilascio |
---|---|---|
1.0.8 | Aggiunge le opzioni --appendToLastFile , --requirePreviousManifest e --storageClass . |
3 gennaio 2014 |
1.0.7 | Aggiunge l'opzione --s3ServerSideEncryption . |
2 maggio 2013 |
1.0.6 | Aggiunge l'opzione --s3Endpoint . |
6 agosto 2012 |
1.0.5 | Migliora la capacità di specificare quale versione di DistCp S3 eseguire. | 27 giugno 2012 |
1.0.4 | Migliora l'opzione --deleteOnSuccess . |
19 giugno 2012 |
1.0.3 | Aggiunge supporto per le opzioni --numberFiles e --startingIndex . |
12 giugno 2012 |
1.0.2 | Migliora la denominazione di file quando si utilizzano gruppi. | 6 giugno 2012 |
1.0.1 | Versione iniziale di DistCp S3. | 19 gennaio 2012 |
Aggiungi una fase di DistCp copia S3 a un cluster
Per aggiungere una fase di DistCp copia S3 a un cluster in esecuzione, digita il seguente comando, sostituiscilo j-3GYXXXXXX9IOK
con il tuo ID del cluster e sostituiscilo amzn-s3-demo-bucket
con il nome del bucket Amazon S3.
Nota
I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).
aws emr add-steps --cluster-id
j-3GYXXXXXX9IOK
\ --steps Type=CUSTOM_JAR
,Name="S3DistCp step"
,Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar
,\ Args=["--s3Endpoint
,s3-eu-west-1.amazonaws.com
",\ "--src
,s3://amzn-s3-demo-bucket/logs/j-3GYXXXXXX9IOJ/node/
",\ "--dest
,hdfs:///output
",\ "--srcPattern
,.*[a-zA-Z,]+
"]
Esempio Carica i CloudFront log di Amazon in HDFS
Questo esempio carica CloudFront i log di Amazon in HDFS aggiungendo un passaggio a un cluster in esecuzione. Cambia inoltre il formato di compressione da Gzip (l'impostazione predefinita in CloudFront) in LZO. Ciò è utile in quanto i dati compressi con LZO possono essere suddivisi in più mappe non appena vengono decompressi, senza quindi attendere il completamento della compressione, come avviene con Gzip. Di conseguenza, si ha un miglioramento delle prestazioni durante l'analisi dei dati con Amazon EMR. L'esempio migliora le prestazioni anche mediante l'utilizzo dell'espressione regolare specificata nell'opzione --groupBy
per combinare tutti i log di una determinata ora in un singolo file. I cluster Amazon EMR sono più efficienti quando si elaborano alcuni file voluminosi compressi con LZO anziché molti file di piccole dimensioni compressi con Gzip. Per suddividere i file LZO, è necessario indicizzarli e utilizzare la libreria di terza parte hadoop-lzo.
Per caricare CloudFront i log di Amazon in HDFS, digita il seguente comando, sostituiscilo j-3GYXXXXXX9IOK
con il tuo ID del cluster e sostituiscilo amzn-s3-demo-bucket
con il nome del tuo bucket Amazon S3.
Nota
I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).
aws emr add-steps --cluster-id
j-3GYXXXXXX9IOK
\ --steps Type=CUSTOM_JAR
,Name="S3DistCp step"
,Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar
,\ Args=["--src
,s3://amzn-s3-demo-bucket/cf
","--dest
,hdfs:///local
",\ "--groupBy
,.*XABCD12345678.([0-9]+-[0-9]+-[0-9]+-[0-9]+).*
",\ "--targetSize
,128
", "--outputCodec
,lzo
","--deleteOnSuccess
"]
Supponiamo che l'esempio precedente sia eseguito sui file di log di CloudFront seguenti.
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.HLUS3JKx.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.I9CNAZrg.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.YRRwERSA.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.dshVLXFE.gz
s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.LpLfuShd.gz
S3 DistCp copia, concatena e comprime i file nei due file seguenti, in cui il nome del file è determinato dalla corrispondenza effettuata dall'espressione regolare.
hdfs:///local/2012-02-23-01.lzo
hdfs:///local/2012-02-23-02.lzo