Fase 1: Definisci l'ambito del POC Fase 2: Avvia Amazon Redshift Fase 3: Caricare i dati Fase 4: Analizza i tuoi dati Fase 5: Ottimizzazione

Esegui un proof of concept (POC) per Amazon Redshift

Amazon Redshift è un popolare data warehouse su cloud, che offre un servizio basato sul cloud completamente gestito che si integra con il data lake Amazon Simple Storage Service di un'organizzazione, flussi di lavoro in tempo reale, flussi di lavoro di machine learning (ML), flussi di lavoro transazionali e molto altro. Le seguenti sezioni ti guidano nel processo di creazione di un proof of concept (POC) su Amazon Redshift. Le informazioni qui riportate ti aiutano a fissare obiettivi per il tuo POC e sfruttano gli strumenti in grado di automatizzare il provisioning e la configurazione dei servizi per il tuo POC.

Nota

Per una copia di queste informazioni in formato PDF, scegli il link Esegui il tuo POC Redshift nella pagina delle risorse di Amazon Redshift.

Quando esegui un POC di Amazon Redshift, esegui test, dimostri e adotti funzionalità che vanno best-in-class dalle funzionalità di sicurezza, alla scalabilità elastica, alla facilità di integrazione e inserimento e alle opzioni flessibili di architettura dei dati decentralizzata.

Mostra una descrizione delle fasi del flusso di proof of concept.

Segui questi passaggi per condurre un POC di successo.

Fase 1: Definisci l'ambito del POC

Mostra che la fase relativa all'ambito è la fase corrente del flusso di dimostrazione del concetto.

Quando si esegue un POC, è possibile scegliere di utilizzare i propri dati oppure utilizzare set di dati di benchmarking. Quando scegli i tuoi dati, esegui le tue query sui dati. Con i dati di benchmarking, insieme al benchmark vengono fornite interrogazioni di esempio. Vedi Utilizzare set di dati di esempio per maggiori dettagli se non sei ancora pronto a condurre un POC con i tuoi dati.

In generale, consigliamo di utilizzare due settimane di dati per un POC Amazon Redshift.

Inizia effettuando le seguenti operazioni:

Identifica i requisiti aziendali e funzionali, quindi procedi a ritroso. Esempi comuni sono: prestazioni più veloci, costi inferiori, test di un nuovo carico di lavoro o funzionalità o confronto tra Amazon Redshift e un altro data warehouse.
Stabilisci obiettivi specifici che diventino i criteri di successo per il POC. Ad esempio, partendo da prestazioni più elevate, crea un elenco dei primi cinque processi che desideri accelerare e includi i tempi di esecuzione correnti insieme al tempo di esecuzione richiesto. Questi possono essere report, interrogazioni, processi ETL, acquisizione di dati o qualsiasi altro sia il vostro attuale problema.
Identifica l'ambito e gli artefatti specifici necessari per eseguire i test. Di quali set di dati hai bisogno per migrare o importare continuamente in Amazon Redshift e quali query e processi sono necessari per eseguire i test di misurazione in base ai criteri di successo? Ci sono due modi per effettuare questa operazione:
Porta i tuoi dati
- Per testare i tuoi dati, crea l'elenco minimo valido di artefatti di dati necessario per verificare i tuoi criteri di successo. Ad esempio, se il data warehouse corrente ha 200 tabelle, ma i report che desideri testare ne richiedono solo 20, il POC può essere eseguito più velocemente utilizzando solo il sottoinsieme di tabelle più piccolo.
Utilizza set di dati di esempio
- Se non disponi di set di dati personalizzati, puoi comunque iniziare a creare un POC su Amazon Redshift utilizzando i set di dati di benchmark standard del settore come TPC-DS o TPC-H ed eseguire query di benchmarking di esempio per sfruttare la potenza di Amazon Redshift. È possibile accedere a questi set di dati dall'interno del data warehouse Amazon Redshift dopo la creazione. Per istruzioni dettagliate su come accedere a questi set di dati e alle query di esempio, consulta. Fase 2: Avvia Amazon Redshift

Fase 2: Avvia Amazon Redshift

Dimostra che la fase di lancio di Amazon Redshift è la fase attuale del flusso di proof of concept.

Amazon Redshift accelera i tempi di acquisizione delle informazioni con un data warehousing cloud rapido, facile e sicuro su larga scala. Puoi iniziare rapidamente avviando il tuo warehouse sulla console Redshift Serverless e passare dai dati agli approfondimenti in pochi secondi. Con Redshift Serverless, puoi concentrarti sul raggiungimento dei tuoi risultati di business senza preoccuparti della gestione del tuo data warehouse.

Configura Amazon Redshift Serverless

La prima volta che utilizzi Redshift Serverless, la console ti guida attraverso i passaggi necessari per avviare il tuo warehouse. Potresti anche avere diritto a un credito per l'utilizzo di Redshift Serverless nel tuo account. Per ulteriori informazioni sulla scelta di una prova gratuita, consultare Prova gratuita di Amazon Redshift. Segui i passaggi indicati nella Creazione di un data warehouse con Redshift Serverless nella Guida introduttiva di Amazon Redshift per creare un data warehouse con Redshift Serverless. Se non disponi di un set di dati da caricare, la guida contiene anche passaggi su come caricare un set di dati di esempio.

Se hai già avviato Redshift Serverless nel tuo account, segui i passaggi in Creazione di un gruppo di lavoro con uno spazio dei nomi nella Amazon Redshift Management Guide. Una volta che il tuo magazzino sarà disponibile, puoi scegliere di caricare i dati di esempio disponibili in Amazon Redshift. Per informazioni sull'utilizzo di Amazon Redshift Query Editor v2 per caricare i dati, consulta Loading sample data nella Amazon Redshift Management Guide.

Se intendi importare i tuoi dati anziché caricare il set di dati di esempio, consulta. Fase 3: Caricare i dati

Fase 3: Caricare i dati

Mostra che la fase di caricamento è la fase corrente del flusso di dimostrazione del concetto.

Dopo aver avviato Redshift Serverless, il passaggio successivo consiste nel caricare i dati per il POC. Che tu stia caricando un semplice file CSV, importando dati semistrutturati da S3 o trasmettendo dati direttamente in streaming, Amazon Redshift offre la flessibilità necessaria per spostare rapidamente e facilmente i dati nelle tabelle Amazon Redshift dalla fonte.

Scegli uno dei seguenti metodi per caricare i dati.

Carica un file locale

Per un'acquisizione e un'analisi rapide, puoi utilizzare Amazon Redshift Query Editor v2 per caricare facilmente i file di dati dal desktop locale. Ha la capacità di elaborare file in vari formati come CSV, JSON, AVRO, PARQUET, ORC e altri. Per consentire ai tuoi utenti, in qualità di amministratore, di caricare dati da un desktop locale utilizzando l'editor di query v2, devi specificare un bucket Amazon S3 comune e l'account utente deve essere configurato con le autorizzazioni appropriate. Puoi seguire il caricamento dei dati reso semplice e sicuro in Amazon Redshift utilizzando Query Editor V2 come guida. step-by-step

Caricare un file Amazon S3

Per caricare dati da un bucket Amazon S3 in Amazon Redshift, inizia a utilizzare il comando COPY, specificando la posizione Amazon S3 di origine e la tabella Amazon Redshift di destinazione. Assicurati che i ruoli e le autorizzazioni IAM siano configurati correttamente per consentire ad Amazon Redshift l'accesso al bucket Amazon S3 designato. Segui il tutorial: Caricamento dei dati da Amazon S3 come guida. step-by-step Puoi anche scegliere l'opzione Carica dati nell'editor di query v2 per caricare direttamente i dati dal tuo bucket S3.

Inserimento continuo dei dati

Autocopy (in anteprima) è un'estensione del comando COPY e automatizza il caricamento continuo dei dati dai bucket Amazon S3. Quando crei un processo di copia, Amazon Redshift rileva quando vengono creati nuovi file Amazon S3 in un percorso specificato e quindi li carica automaticamente senza il tuo intervento. Amazon Redshift tiene traccia dei file caricati per verificare che vengano caricati una sola volta. Per istruzioni su come creare lavori di copia, consulta COPYJOB(anteprima)

Nota

La copia automatica è attualmente in anteprima e supportata solo in cluster predisposti in determinati casi. Regioni AWS Per creare un cluster di anteprima per la copia automatica, consulta. Caricamento di tabelle con inserimento continuo di file da Amazon S3 (anteprima)

Carica i tuoi dati di streaming

L'ingestione di streaming consente l'inserimento a bassa latenza e alta velocità di dati di flusso da Amazon Kinesis Data Streams e Amazon Managed Streaming for Apache Kafka in Amazon Redshift. L'inserimento dello streaming di Amazon Redshift utilizza una vista materializzata, che viene aggiornata direttamente dallo stream utilizzando l'aggiornamento automatico. La vista materializzata viene mappata all'origine dati del flusso. Puoi eseguire filtri e aggregazioni sui dati del flusso come parte della definizione della vista materializzata. Per step-by-step indicazioni su come caricare dati da uno stream, consulta la sezione Guida introduttiva ad Amazon Kinesis Data Streams o Guida introduttiva ad Amazon Managed Streaming for Apache Kafka.

Fase 4: Analizza i tuoi dati

Mostra che la fase di analisi è la fase corrente del flusso di dimostrazione del concetto.

Dopo aver creato il gruppo di lavoro e lo spazio dei nomi Redshift Serverless e aver caricato i dati, puoi eseguire immediatamente le query aprendo l'editor di query v2 dal pannello di navigazione della console Redshift Serverless. È possibile utilizzare l'editor di query v2 per testare la funzionalità delle query o le prestazioni delle query rispetto ai propri set di dati.

Esegui query con Amazon Redshift Query Editor v2

Puoi accedere all'editor di query v2 dalla console Amazon Redshift. Consulta Semplifica l'analisi dei dati con Amazon Redshift Query Editor v2 per una guida completa su come configurare, connettere ed eseguire query con Query Editor v2.

In alternativa, se desideri eseguire un test di carico come parte del tuo POC, puoi farlo seguendo i seguenti passaggi per installare ed eseguire Apache JMeter.

Esegui un test di carico utilizzando Apache JMeter

Per eseguire un test di carico per simulare «N» utenti che inviano query contemporaneamente ad Amazon Redshift, puoi utilizzare Apache JMeter, uno strumento open source basato su Java.

Per installare e configurare Apache JMeter per l'esecuzione sul tuo gruppo di lavoro Redshift Serverless, segui le istruzioni in Automatizza i test di carico di Amazon Redshift con Analytics Automation Toolkit. AWS Utilizza il toolkit AWS Analytics Automation (AAA), un'utilità open source per l'implementazione dinamica delle soluzioni Redshift, per avviare automaticamente queste risorse. Se hai caricato i tuoi dati in Amazon Redshift, assicurati di eseguire l'opzione Step #5 — Customize SQL, per assicurarti di fornire le istruzioni SQL appropriate che desideri testare sulle tue tabelle. Prova ognuna di queste istruzioni SQL una sola volta utilizzando l'editor di query v2 per assicurarti che vengano eseguite senza errori.

Dopo aver completato la personalizzazione delle istruzioni SQL e la finalizzazione del piano di test, salva ed esegui il piano di test sul gruppo di lavoro Redshift Serverless. Per monitorare l'avanzamento del test, apri la console Redshift Serverless, vai a Monitoraggio delle query e del database, scegli la scheda Cronologia delle query e visualizza le informazioni sulle tue query.

Per le metriche delle prestazioni, scegli la scheda Prestazioni del database sulla console Redshift Serverless, per monitorare metriche come le connessioni al database e l'utilizzo della CPU. Qui puoi visualizzare un grafico per monitorare la capacità RPU utilizzata e osservare come Redshift Serverless si ridimensiona automaticamente per soddisfare le richieste simultanee di carichi di lavoro mentre il test di carico è in esecuzione sul tuo gruppo di lavoro.

Esempio di grafico che mostra la capacità RPU media utilizzata.

Le connessioni al database sono un'altra metrica utile da monitorare durante l'esecuzione del test di carico per vedere come il gruppo di lavoro gestisce numerose connessioni simultanee in un dato momento per soddisfare le crescenti richieste di carico di lavoro.

Grafico di esempio che mostra le connessioni al database.

Fase 5: Ottimizzazione

Mostra che la fase di ottimizzazione è la fase corrente del flusso di dimostrazione del concetto.

Amazon Redshift consente a decine di migliaia di utenti di elaborare exabyte di dati ogni giorno e potenziare i propri carichi di lavoro di analisi offrendo una varietà di configurazioni e funzionalità per supportare casi d'uso individuali. Quando scelgono tra queste opzioni, i clienti cercano strumenti che li aiutino a determinare la configurazione di data warehouse più ottimale per supportare il carico di lavoro di Amazon Redshift.

Prova su strada

Puoi utilizzare Test Drive per riprodurre automaticamente il carico di lavoro esistente su potenziali configurazioni e analizzare gli output corrispondenti per valutare l'obiettivo ottimale verso cui migrare il carico di lavoro. Per informazioni sull'utilizzo di Test Drive per valutare diverse configurazioni Amazon Redshift, consulta Trova la configurazione Amazon Redshift migliore per il tuo carico di lavoro utilizzando Redshift Test Drive.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Best practice

Best practice per la progettazione di tabelle

Esegui un proof of concept (POC) per Amazon Redshift

Nota

Fase 1: Definisci l'ambito del POC

Porta i tuoi dati

Utilizza set di dati di esempio

Fase 2: Avvia Amazon Redshift

Configura Amazon Redshift Serverless

Fase 3: Caricare i dati

Carica un file locale

Caricare un file Amazon S3

Inserimento continuo dei dati

Nota

Carica i tuoi dati di streaming

Fase 4: Analizza i tuoi dati

Esegui query con Amazon Redshift Query Editor v2

Esegui un test di carico utilizzando Apache JMeter

Fase 5: Ottimizzazione

Prova su strada