Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Differenze nell'DistCp utilità S3 rispetto alle versioni AMI precedenti di Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Differenze nell'DistCp utilità S3 rispetto alle versioni AMI precedenti di Amazon EMR

DistCp Versioni S3 supportate in Amazon EMR

Le seguenti versioni di S3 sono supportate nelle DistCp versioni AMI di Amazon EMR. DistCpLe versioni S3 successive alla 1.0.7 si trovano direttamente nei cluster. Utilizza il file JAR in /home/hadoop/lib per le caratteristiche più recenti.

Versione Descrizione Data di rilascio
1.0.8 Aggiunge le opzioni --appendToLastFile, --requirePreviousManifest e --storageClass. 3 gennaio 2014
1.0.7 Aggiunge l'opzione --s3ServerSideEncryption. 2 maggio 2013
1.0.6 Aggiunge l'opzione --s3Endpoint. 6 agosto 2012
1.0.5 Migliora la capacità di specificare quale versione di DistCp S3 eseguire. 27 giugno 2012
1.0.4 Migliora l'opzione --deleteOnSuccess. 19 giugno 2012
1.0.3 Aggiunge supporto per le opzioni --numberFiles e --startingIndex. 12 giugno 2012
1.0.2 Migliora la denominazione di file quando si utilizzano gruppi. 6 giugno 2012
1.0.1 Versione iniziale di DistCp S3. 19 gennaio 2012

Aggiungi una fase di DistCp copia S3 a un cluster

Per aggiungere una fase di DistCp copia S3 a un cluster in esecuzione, digita il seguente comando, sostituiscilo j-3GYXXXXXX9IOK con il tuo ID del cluster e sostituiscilo amzn-s3-demo-bucket con il nome del bucket Amazon S3.

Nota

I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--s3Endpoint,s3-eu-west-1.amazonaws.com",\ "--src,s3://amzn-s3-demo-bucket/logs/j-3GYXXXXXX9IOJ/node/",\ "--dest,hdfs:///output",\ "--srcPattern,.*[a-zA-Z,]+"]
Esempio Carica i CloudFront log di Amazon in HDFS

Questo esempio carica CloudFront i log di Amazon in HDFS aggiungendo un passaggio a un cluster in esecuzione. Cambia inoltre il formato di compressione da Gzip (l'impostazione predefinita in CloudFront) in LZO. Ciò è utile in quanto i dati compressi con LZO possono essere suddivisi in più mappe non appena vengono decompressi, senza quindi attendere il completamento della compressione, come avviene con Gzip. Di conseguenza, si ha un miglioramento delle prestazioni durante l'analisi dei dati con Amazon EMR. L'esempio migliora le prestazioni anche mediante l'utilizzo dell'espressione regolare specificata nell'opzione --groupBy per combinare tutti i log di una determinata ora in un singolo file. I cluster Amazon EMR sono più efficienti quando si elaborano alcuni file voluminosi compressi con LZO anziché molti file di piccole dimensioni compressi con Gzip. Per suddividere i file LZO, è necessario indicizzarli e utilizzare la libreria di terza parte hadoop-lzo.

Per caricare CloudFront i log di Amazon in HDFS, digita il seguente comando, sostituiscilo j-3GYXXXXXX9IOK con il tuo ID del cluster e sostituiscilo amzn-s3-demo-bucket con il nome del tuo bucket Amazon S3.

Nota

I caratteri di continuazione della riga Linux (\) sono inclusi per questioni di leggibilità. Possono essere rimossi o utilizzati nei comandi Linux. Per Windows, rimuovili o sostituiscili con un accento circonflesso (^).

aws emr add-steps --cluster-id j-3GYXXXXXX9IOK \ --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--src,s3://amzn-s3-demo-bucket/cf","--dest,hdfs:///local",\ "--groupBy,.*XABCD12345678.([0-9]+-[0-9]+-[0-9]+-[0-9]+).*",\ "--targetSize,128", "--outputCodec,lzo","--deleteOnSuccess"]

Supponiamo che l'esempio precedente sia eseguito sui file di log di CloudFront seguenti.

s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.HLUS3JKx.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-01.I9CNAZrg.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.YRRwERSA.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.dshVLXFE.gz s3://amzn-s3-demo-bucket/cf/XABCD12345678.2012-02-23-02.LpLfuShd.gz

S3 DistCp copia, concatena e comprime i file nei due file seguenti, in cui il nome del file è determinato dalla corrispondenza effettuata dall'espressione regolare.

hdfs:///local/2012-02-23-01.lzo hdfs:///local/2012-02-23-02.lzo

Argomento successivo:

Novità

Argomento precedente:

Spark
PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.