Aperto CSV SerDe per l'elaborazione CSV - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Aperto CSV SerDe per l'elaborazione CSV

Utilizzate Open CSV SerDe per creare tabelle Athena da dati separati da virgole (). CSV

Nome della libreria di serializzazione

Il nome della libreria di serializzazione per Open CSV SerDe è. org.apache.hadoop.hive.serde2.OpenCSVSerde Per informazioni sul codice sorgente, consulta la CSV SerDedocumentazione di Apache.

Usare Open CSV SerDe

Per utilizzarlo SerDe, specifica il nome completo della classe dopoROW FORMAT SERDE. Specificate anche i delimitatori interniSERDEPROPERTIES, come nell'esempio seguente.

... ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( "separatorChar" = ",", "quoteChar" = "`", "escapeChar" = "\\" )

Ignora le intestazioni

Per ignorare le intestazioni nei dati quando si definisce una tabella, è possibile utilizzare la proprietà skip.header.line.count, come nell'esempio seguente.

TBLPROPERTIES ("skip.header.line.count"="1")

Per alcuni esempi, consulta le istruzioni CREATE TABLE in Interrogazione dei log di VPC flusso di Amazon e Interrogazione dei log di Amazon CloudFront .

Considerazioni sui dati di tipo stringa

L'Open CSV SerDe presenta le seguenti caratteristiche per i dati di tipo stringa:

  • Utilizza doppie virgolette (") come virgolette predefinite e consente di specificare separatore, virgolette e caratteri di escape, ad esempio:

    WITH SERDEPROPERTIES ("separatorChar" = ",", "quoteChar" = "`", "escapeChar" = "\\" )
  • Non puoi scappare \t o \n direttamente. Per utilizzarli come caratteri di escape, utilizza "escapeChar" = "\\". Per vedere un esempio, consulta Example: Escaping \t or \n.

  • Open non CSV SerDe supporta interruzioni di riga incorporate nei CSV file.

Considerazioni per i dati non di stringa

Per tipi di dati diversi daSTRING, Open si CSV SerDe comporta come segue:

  • Riconosce i tipi di dati BOOLEAN, BIGINT, INT e DOUBLE.

  • Non riconosce valori vuoti o nulli nelle colonne definite come un tipo di dati numerici, lasciandoli come string. Una soluzione alternativa è creare la colonna con i valori nulli comestring e quindi utilizzare CAST per convertire il campo in una query per un tipo di dati numerico, fornendo un valore predefinito 0 per i valori nulli. Per ulteriori informazioni, consulta Quando eseguo una query sui CSV dati in Athena, viene visualizzato l'errore HIVE _ BAD _DATA: Errore nell'analisi del valore del AWS campo nel Knowledge Center.

  • Per le colonne specificate con il tipo di timestamp dati nell'CREATE TABLEistruzione, riconosce TIMESTAMP i dati se sono specificati nel formato UNIX numerico in millisecondi, ad esempio. 1579059880000 Per vedere un esempio, consulta Example: Using the TIMESTAMP type and DATE type specified in the UNIX numeric format.

    • L'Open non CSV SerDe supporta il java.sql.Timestamp formato conforme TIMESTAMP a JDBC -compliant, ad esempio (precisione a 9 cifre decimali). "YYYY-MM-DD HH:MM:SS.fffffffff"

  • Per le colonne specificate con il tipo di dati DATE nell'istruzione CREATE TABLE, riconosce i valori come date se i valori rappresentano il numero di giorni trascorsi dal 1° gennaio 1970. Ad esempio, il valore 18276 in una colonna con il tipo di dati date viene eseguito come 2020-01-15 quando viene interrogato. In questo UNIX formato, si considera che ogni giorno abbia 86.400 secondi.

  • Per convertire ulteriormente le colonne nel tipo desiderato in una tabella, è possibile creare una vista della tabella e utilizzare CAST per convertirle nel tipo desiderato.

Esempi

Esempio: interrogazione di dati semplici CSV

L'esempio seguente presuppone che i CSV dati siano salvati nella posizione s3://amzn-s3-demo-bucket/mycsv/ con i seguenti contenuti:

"a1","a2","a3","a4" "1","2","abc","def" "a","a1","abc3","ab4"

Utilizza un'istruzione CREATE TABLE per creare una tabella Athena basata sui dati. Fate riferimento OpenCSVSerde (notate la «d» in minuscolo) dopo ROW FORMAT SERDE e specificate il separatore di caratteri, il carattere di virgoletta e il carattere di escape inWITH SERDEPROPERTIES, come nell'esempio seguente.

CREATE EXTERNAL TABLE myopencsvtable ( col1 string, col2 string, col3 string, col4 string ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( 'separatorChar' = ',', 'quoteChar' = '"', 'escapeChar' = '\\' ) STORED AS TEXTFILE LOCATION 's3://amzn-s3-demo-bucket/mycsv/';

Crea una query di tutti i valori nella tabella:

SELECT * FROM myopencsvtable;

La query restituisce i seguenti valori:

col1 col2 col3 col4 ----------------------------- a1 a2 a3 a4 1 2 abc def a a1 abc3 ab4
Esempio: utilizzo del TIMESTAMP tipo e del DATE tipo specificati nel formato UNIX numerico

Considerare le tre seguenti colonne di dati separati da virgole. I valori in ciascuna colonna sono racchiusi tra virgolette doppie.

"unixvalue creationdate 18276 creationdatetime 1579059880000","18276","1579059880000"

L'istruzione seguente crea una tabella in Athena dal percorso del bucket Amazon S3.

CREATE EXTERNAL TABLE IF NOT EXISTS testtimestamp1( `profile_id` string, `creationdate` date, `creationdatetime` timestamp ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' LOCATION 's3://amzn-s3-demo-bucket'

Esegui quindi la seguente query:

SELECT * FROM testtimestamp1

La query restituisce il seguente risultato, mostrando i dati di data e ora:

profile_id creationdate creationdatetime unixvalue creationdate 18276 creationdatetime 1579146280000 2020-01-15 2020-01-15 03:44:40.000
Esempio: Escaping\ t o\n

Tieni in considerazione i seguenti dati di verifica:

" \\t\\t\\n 123 \\t\\t\\n ",abc " 456 ",xyz

La seguente istruzione crea una tabella in Athena, specificando "escapeChar" = "\\".

CREATE EXTERNAL TABLE test1 ( f1 string, s2 string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ("separatorChar" = ",", "escapeChar" = "\\") LOCATION 's3://amzn-s3-demo-bucket/dataset/test1/'

Esegui quindi la seguente query:

SELECT * FROM test1;

Restituisce questo risultato, utilizzando correttamente \t o \n come caratteri di escape:

f1 s2 \t\t\n 123 \t\t\n abc 456 xyz