Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Trasferisci i dati in S3 Express One Zone con EMR Serverless
Con le versioni 7.2.0 e successive di Amazon EMR, puoi usare EMR Serverless con la classe di storage Amazon S3 Express One Zone per migliorare le prestazioni durante l'esecuzione di job e carichi di lavoro. S3 Express One Zone è una classe di storage Amazon S3 a zona singola ad alte prestazioni che offre un accesso ai dati coerente a una cifra in millisecondi per la maggior parte delle applicazioni sensibili alla latenza. Al momento del suo rilascio, S3 Express One Zone offre lo storage di oggetti cloud con la latenza più bassa e le prestazioni più elevate in Amazon S3.
Prerequisiti
-
Autorizzazioni S3 Express One Zone: quando S3 Express One Zone esegue inizialmente un'azione come o su un oggetto S3
GET
,LIST
la classe di storage chiama per tuo conto.PUT
CreateSession
La tua policy IAM deve consentire l'autorizzazione in modo ches3express:CreateSession
S3A il connettore può richiamare l'CreateSession
API. Per un esempio di policy con questa autorizzazione, consulta Nozioni di base su S3 Express One Zone. -
S3A connettore: per configurare Spark per accedere ai dati da un bucket Amazon S3 che utilizza la classe di storage S3 Express One Zone, devi utilizzare il connettore Apache Hadoop S3A. Per utilizzare il connettore, assicurati che tutti gli S3 URIs utilizzino lo
s3a
schema. In caso contrario, puoi modificare l'implementazione del file system che utilizzi per gli schemis3
es3n
.
Per modificare lo schema s3
, specifica le seguenti configurazioni del cluster:
[ { "Classification": "core-site", "Properties": { "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
Per modificare lo schema s3n
, specifica le seguenti configurazioni del cluster:
[ { "Classification": "core-site", "Properties": { "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
Nozioni di base su S3 Express One Zone
Segui questi passaggi per iniziare a usare S3 Express One Zone.
-
Crea un endpoint VPC. Aggiungi l'endpoint
com.amazonaws.us-west-2.s3express
all'endpoint VPC. -
Segui Guida introduttiva ad Amazon EMR Serverless per creare un'applicazione con etichetta di rilascio Amazon EMR 7.2.0 o successiva.
-
Configura la tua applicazione per utilizzare l'endpoint VPC appena creato, un gruppo di sottoreti privato e un gruppo di sicurezza.
-
Aggiungi l'
CreateSession
autorizzazione al tuo ruolo di esecuzione del lavoro.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": "*", "Action": [ "s3express:CreateSession" ] } ] }
-
Esegui il tuo lavoro. Tieni presente che devi utilizzare lo
S3A
schema per accedere ai bucket S3 Express One Zone.aws emr-serverless start-job-run \ --application-id
<application-id>
\ --execution-role-arn<job-role-arn>
\ --name<job-run-name>
\ --job-driver '{ "sparkSubmit": { "entryPoint": "s3a://<DOC-EXAMPLE-BUCKET>
/scripts/wordcount.py", "entryPointArguments":["s3a://<DOC-EXAMPLE-BUCKET>
/emr-serverless-spark/output"], "sparkSubmitParameters": "--conf spark.executor.cores=4 --conf spark.executor.memory=8g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=2 --conf spark.hadoop.fs.s3a.change.detection.mode=none --conf spark.hadoop.fs.s3a.endpoint.region={<AWS_REGION>
} --conf spark.hadoop.fs.s3a.select.enabled=false --conf spark.sql.sources.fastS3PartitionDiscovery.enabled=false }'