Usa Amazon Athena Federated Query - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa Amazon Athena Federated Query

Se disponi di dati in origini diverse da Amazon S3, puoi utilizzare Athena Federated Query per eseguire query locali sui dati o compilare pipeline che estraggono i dati da più origini dati e archiviarli in Amazon S3. Con Athena Federated Query, puoi eseguire SQL query su dati archiviati in origini dati relazionali, non relazionali, a oggetti e personalizzate.

Athena utilizza connettori di origine dati che funzionano AWS Lambda per eseguire query federate. Un connettore origine dati è una parte di codice in grado di effettuare la conversione tra l'origine dati di destinazione e Athena. Puoi pensare a un connettore come a un'estensione del motore di query di Athena. Esistono connettori di origine dati Athena predefiniti per fonti di dati come Amazon Logs, CloudWatch Amazon DynamoDB, Amazon DocumentDB e Amazon e fonti di dati relazionali conformi come My e JDBC Postgre con licenza RDS Apache 2.0. SQL SQL È inoltre possibile utilizzare Athena Query Federation SDK per scrivere connettori personalizzati. Per scegliere, configurare e distribuire un connettore origine dati nell'account, puoi utilizzare le console Athena e Lambda o AWS Serverless Application Repository. Dopo aver distribuito i connettori di origine dati, il connettore viene associato a un catalogo che è possibile specificare nelle SQL query. È possibile combinare SQL istruzioni provenienti da più cataloghi e estendere più fonti di dati con una singola query.

Quando una query viene inviata rispetto a un'origine dati, Athena richiama il connettore corrispondente per identificare le parti delle tabelle che devono essere lette, gestisce il parallelismo ed esegue il push down dei predicati del filtro. In base all'utente che invia la query, i connettori possono fornire o limitare l'accesso a elementi di dati specifici. I connettori utilizzano Apache Arrow come il formato per restituire i dati richiesti in una query, che consente l'implementazione dei connettori in linguaggi quali C, C++, Java, Python e Rust. Poiché i connettori vengono elaborati in Lambda, possono essere utilizzati per accedere ai dati da qualsiasi origine dati sul cloud o in locale che sia accessibile da Lambda.

Per scrivere il tuo connettore di origine dati, puoi utilizzare Athena Query Federation SDK per personalizzare uno dei connettori predefiniti forniti e gestiti da Amazon Athena. Puoi modificare una copia del codice sorgente dal GitHub repository e quindi utilizzare lo strumento di pubblicazione Connector per creare il tuo pacchetto. AWS Serverless Application Repository

Nota

Gli sviluppatori di terze parti potrebbero aver utilizzato Athena Query Federation SDK per scrivere connettori di sorgenti dati. Per problemi di supporto o di licenza relativi a questi connettori di origini dati, contattare il provider di connettori. Questi connettori non sono testati o supportati da AWS.

Per un elenco dei connettori origine dati scritti e testati da Athena, consulta Connettori di origine dati disponibili.

Per informazioni sulla scrittura di un connettore di origine dati personalizzato, vedi Esempio di connettore Athena attivo. GitHub

Considerazioni e limitazioni

  • Versioni del motore: Athena Federated Query è supportata solo su Athena engine versione 2 e successive. Per ulteriori informazioni sulle versioni del motore Athena, consulta Controllo delle versioni del motore di Athena.

  • Visualizzazioni: puoi creare ed eseguire query sulle viste su origini dati federate. Le viste federate vengono archiviate nella fonte di dati sottostante AWS Glue e non nella stessa. Per ulteriori informazioni, consulta Interroga le viste federate.

  • Identificatori delimitati: gli identificatori delimitati (noti anche come identificatori tra virgolette) iniziano e terminano con virgolette doppie («). Attualmente, gli identificatori delimitati non sono supportati per le query federate in Athena.

  • Operazioni di scrittura: le operazioni di scrittura come INSERT INTO non sono supportate. Il tentativo di eseguire questa operazione potrebbe generare il messaggio di errore This operation is currently not supported for external catalogs (Questa operazione non è attualmente supportata per i cataloghi esterni).

  • Prezzi — Per informazioni sui prezzi, consulta Prezzi di Amazon Athena.

  • JDBCdriver: per utilizzare il JDBC driver con query federate o un metastore Hive esterno, includetelo nella stringa di connessione. MetadataRetrievalMethod=ProxyAPI JDBC Per informazioni sul driver, vedere. JDBC Connettiti ad Amazon Athena con JDBC

  • Secrets Manager: per utilizzare la funzionalità Athena Federated Query con AWS Secrets Manager, devi configurare un endpoint VPC privato Amazon per Secrets Manager. Per ulteriori informazioni, consulta Creare un endpoint VPC privato di Secrets Manager nella Guida per l'AWS Secrets Manager utente.

Autorizzazioni richieste

I connettori origine dati potrebbero richiedere l'accesso alle risorse seguenti per funzionare correttamente. Se utilizzi un connettore predefinito, controlla le informazioni relative al connettore per assicurarti di averlo configurato correttamenteVPC. Inoltre, assicurati che i principali IAM che eseguono le query e creano i connettori dispongano dei privilegi per le operazioni richieste. Per ulteriori informazioni, consulta Consenti l'accesso ad Athena Federated Query: politiche di esempio .

  • Amazon S3 — Oltre a scrivere i risultati delle query nella posizione dei risultati della query Athena in Amazon S3, i connettori di dati scrivono anche in un bucket di spill in Amazon S3. Sono richieste connettività e autorizzazioni a questa posizione Amazon S3. Ti consigliamo di utilizzare la crittografia spill to disk per ogni connettore e la configurazione del ciclo di vita di S3 per far scadere i dati fuoriusciti che non sono più necessari.

  • Athena — Le origini dati necessitano di connettività ad Athena e viceversa per controllare lo stato delle query e prevenire l'overscan.

  • AWS Glue Data Catalog — Sono necessarie connettività e autorizzazioni se il connettore utilizza il catalogo dati per metadati supplementari o primari.

  • Amazon ECR — Le funzioni Lambda del connettore di origine dati utilizzano ECR un'immagine Amazon da un repository AmazonECR. L'utente che distribuisce il connettore deve disporre delle autorizzazioni e. ecr:BatchGetImage ecr:GetDownloadUrlForLayer Per ulteriori informazioni, consulta le ECRautorizzazioni di Amazon nella AWS Lambda Developer Guide.

Video

Guarda i video seguenti per sapere di più sull'utilizzo di Athena Federated Query.

Video: analisi dei risultati di una query federata in Amazon Athena in Amazon QuickSight

Il video seguente mostra come analizzare i risultati di una query federata Athena in Amazon. QuickSight

Video: Game Analytics Pipeline

Il video seguente mostra come distribuire una Data Pipeline scalabile serverless per l'acquisizione, l'archiviazione e l'analisi dei dati di telemetria da giochi e servizi utilizzando le query federate di Amazon Athena.