Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui un proof of concept (POC) per Amazon Redshift
Amazon Redshift è un popolare data warehouse su cloud, che offre un servizio basato sul cloud completamente gestito che si integra con il data lake Amazon Simple Storage Service di un'organizzazione, flussi di lavoro in tempo reale, flussi di lavoro di machine learning (ML), flussi di lavoro transazionali e molto altro. Le seguenti sezioni ti guidano nel processo di creazione di un proof of concept (POC) su Amazon Redshift. Le informazioni qui riportate ti aiutano a fissare obiettivi per il tuo POC e sfruttano gli strumenti in grado di automatizzare il provisioning e la configurazione dei servizi per il tuo POC.
Nota
Per una copia di queste informazioni in formato PDF, scegli il link Esegui il tuo POC Redshift nella pagina delle risorse di Amazon
Quando esegui un POC di Amazon Redshift, esegui test, dimostri e adotti funzionalità che vanno best-in-class dalle funzionalità di sicurezza, alla scalabilità elastica, alla facilità di integrazione e inserimento e alle opzioni flessibili di architettura dei dati decentralizzata.
Segui questi passaggi per condurre un POC di successo.
Fase 1: Definisci l'ambito del POC
Quando si esegue un POC, è possibile scegliere di utilizzare i propri dati oppure utilizzare set di dati di benchmarking. Quando scegli i tuoi dati, esegui le tue query sui dati. Con i dati di benchmarking, insieme al benchmark vengono fornite interrogazioni di esempio. Vedi Utilizzare set di dati di esempio per maggiori dettagli se non sei ancora pronto a condurre un POC con i tuoi dati.
In generale, consigliamo di utilizzare due settimane di dati per un POC Amazon Redshift.
Inizia effettuando le seguenti operazioni:
Identifica i requisiti aziendali e funzionali, quindi procedi a ritroso. Esempi comuni sono: prestazioni più veloci, costi inferiori, test di un nuovo carico di lavoro o funzionalità o confronto tra Amazon Redshift e un altro data warehouse.
Stabilisci obiettivi specifici che diventino i criteri di successo per il POC. Ad esempio, partendo da prestazioni più elevate, crea un elenco dei primi cinque processi che desideri accelerare e includi i tempi di esecuzione correnti insieme al tempo di esecuzione richiesto. Questi possono essere report, interrogazioni, processi ETL, acquisizione di dati o qualsiasi altro sia il vostro attuale problema.
Identifica l'ambito e gli artefatti specifici necessari per eseguire i test. Di quali set di dati hai bisogno per migrare o importare continuamente in Amazon Redshift e quali query e processi sono necessari per eseguire i test di misurazione in base ai criteri di successo? Ci sono due modi per effettuare questa operazione:
Porta i tuoi dati
Per testare i tuoi dati, crea l'elenco minimo valido di artefatti di dati necessario per verificare i tuoi criteri di successo. Ad esempio, se il data warehouse corrente ha 200 tabelle, ma i report che desideri testare ne richiedono solo 20, il POC può essere eseguito più velocemente utilizzando solo il sottoinsieme di tabelle più piccolo.
Utilizza set di dati di esempio
Se non disponi di set di dati personalizzati, puoi comunque iniziare a creare un POC su Amazon Redshift utilizzando i set di dati di benchmark standard del settore come
TPC-DS o TPC-H ed eseguire query di benchmarking di esempio per sfruttare la potenza di Amazon Redshift. È possibile accedere a questi set di dati dall'interno del data warehouse Amazon Redshift dopo la creazione. Per istruzioni dettagliate su come accedere a questi set di dati e alle query di esempio, consulta. Fase 2: Avvia Amazon Redshift
Fase 2: Avvia Amazon Redshift
Amazon Redshift accelera i tempi di acquisizione delle informazioni con un data warehousing cloud rapido, facile e sicuro su larga scala. Puoi iniziare rapidamente avviando il tuo warehouse sulla console Redshift Serverless
Configura Amazon Redshift Serverless
La prima volta che utilizzi Redshift Serverless, la console ti guida attraverso i passaggi necessari per avviare il tuo warehouse. Potresti anche avere diritto a un credito per l'utilizzo di Redshift Serverless nel tuo account. Per ulteriori informazioni sulla scelta di una prova gratuita, consultare Prova gratuita di Amazon Redshift
Se hai già avviato Redshift Serverless nel tuo account, segui i passaggi in Creazione di un gruppo di lavoro con uno spazio dei nomi nella Amazon Redshift Management Guide. Una volta che il tuo magazzino sarà disponibile, puoi scegliere di caricare i dati di esempio disponibili in Amazon Redshift. Per informazioni sull'utilizzo di Amazon Redshift Query Editor v2 per caricare i dati, consulta Loading sample data nella Amazon Redshift Management Guide.
Se intendi importare i tuoi dati anziché caricare il set di dati di esempio, consulta. Fase 3: Caricare i dati
Fase 3: Caricare i dati
Dopo aver avviato Redshift Serverless, il passaggio successivo consiste nel caricare i dati per il POC. Che tu stia caricando un semplice file CSV, importando dati semistrutturati da S3 o trasmettendo dati direttamente in streaming, Amazon Redshift offre la flessibilità necessaria per spostare rapidamente e facilmente i dati nelle tabelle Amazon Redshift dalla fonte.
Scegli uno dei seguenti metodi per caricare i dati.
Carica un file locale
Per un'acquisizione e un'analisi rapide, puoi utilizzare Amazon Redshift Query Editor v2 per caricare facilmente i file di dati dal desktop locale. Ha la capacità di elaborare file in vari formati come CSV, JSON, AVRO, PARQUET, ORC e altri. Per consentire ai tuoi utenti, in qualità di amministratore, di caricare dati da un desktop locale utilizzando l'editor di query v2, devi specificare un bucket Amazon S3 comune e l'account utente deve essere configurato con le autorizzazioni appropriate. Puoi seguire il caricamento dei dati reso semplice e sicuro in Amazon Redshift utilizzando Query Editor V2
Caricare un file Amazon S3
Per caricare dati da un bucket Amazon S3 in Amazon Redshift, inizia a utilizzare il comando COPY, specificando la posizione Amazon S3 di origine e la tabella Amazon Redshift di destinazione. Assicurati che i ruoli e le autorizzazioni IAM siano configurati correttamente per consentire ad Amazon Redshift l'accesso al bucket Amazon S3 designato. Segui il tutorial: Caricamento dei dati da Amazon S3 come guida. step-by-step Puoi anche scegliere l'opzione Carica dati nell'editor di query v2 per caricare direttamente i dati dal tuo bucket S3.
Inserimento continuo dei dati
Autocopy (in anteprima) è un'estensione del comando COPY e automatizza il caricamento continuo dei dati dai bucket Amazon S3. Quando crei un processo di copia, Amazon Redshift rileva quando vengono creati nuovi file Amazon S3 in un percorso specificato e quindi li carica automaticamente senza il tuo intervento. Amazon Redshift tiene traccia dei file caricati per verificare che vengano caricati una sola volta. Per istruzioni su come creare lavori di copia, consulta COPYJOB(anteprima)
Nota
La copia automatica è attualmente in anteprima e supportata solo in cluster predisposti in determinati casi. Regioni AWS Per creare un cluster di anteprima per la copia automatica, consulta. Caricamento di tabelle con inserimento continuo di file da Amazon S3 (anteprima)
Carica i tuoi dati di streaming
L'ingestione di streaming consente l'inserimento a bassa latenza e alta velocità di dati di flusso da Amazon Kinesis Data Streams e Amazon Managed Streaming for Apache Kafka in Amazon
Fase 4: Analizza i tuoi dati
Dopo aver creato il gruppo di lavoro e lo spazio dei nomi Redshift Serverless e aver caricato i dati, puoi eseguire immediatamente le query aprendo l'editor di query v2 dal pannello di navigazione della console Redshift Serverless.
Esegui query con Amazon Redshift Query Editor v2
Puoi accedere all'editor di query v2 dalla console Amazon Redshift. Consulta Semplifica l'analisi dei dati con Amazon Redshift Query Editor v2
In alternativa, se desideri eseguire un test di carico come parte del tuo POC, puoi farlo seguendo i seguenti passaggi per installare ed eseguire Apache JMeter.
Esegui un test di carico utilizzando Apache JMeter
Per eseguire un test di carico per simulare «N» utenti che inviano query contemporaneamente ad Amazon Redshift, puoi utilizzare Apache JMeter, uno strumento open source basato su Java
Per installare e configurare Apache JMeter per l'esecuzione sul tuo gruppo di lavoro Redshift Serverless, segui le istruzioni in Automatizza i test di carico di Amazon Redshift con Analytics Automation Toolkit
Dopo aver completato la personalizzazione delle istruzioni SQL e la finalizzazione del piano di test, salva ed esegui il piano di test sul gruppo di lavoro Redshift Serverless. Per monitorare l'avanzamento del test, apri la console Redshift Serverless
Per le metriche delle prestazioni, scegli la scheda Prestazioni del database sulla console Redshift Serverless, per monitorare metriche come le connessioni al database e l'utilizzo della CPU. Qui puoi visualizzare un grafico per monitorare la capacità RPU utilizzata e osservare come Redshift Serverless si ridimensiona automaticamente per soddisfare le richieste simultanee di carichi di lavoro mentre il test di carico è in esecuzione sul tuo gruppo di lavoro.
Le connessioni al database sono un'altra metrica utile da monitorare durante l'esecuzione del test di carico per vedere come il gruppo di lavoro gestisce numerose connessioni simultanee in un dato momento per soddisfare le crescenti richieste di carico di lavoro.
Fase 5: Ottimizzazione
Amazon Redshift consente a decine di migliaia di utenti di elaborare exabyte di dati ogni giorno e potenziare i propri carichi di lavoro di analisi offrendo una varietà di configurazioni e funzionalità per supportare casi d'uso individuali. Quando scelgono tra queste opzioni, i clienti cercano strumenti che li aiutino a determinare la configurazione di data warehouse più ottimale per supportare il carico di lavoro di Amazon Redshift.
Prova su strada
Puoi utilizzare Test Drive