cingolato API - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

cingolato API

Il crawler API descrive i tipi di dati del AWS Glue crawler, oltre a quelli API per creare, eliminare, aggiornare ed elencare i crawler.

Tipi di dati

Struttura dei crawler

Specifica un programma crawler che esamina un'origine dati e usa i classificatori per cercare di determinarne lo schema. Se l'esito è positivo, il crawler registra i metadati riguardanti l'origine dati in AWS Glue Data Catalog.

Campi
  • Name— UTF -8 stringhe, lunghe non meno di 1 o più di 255 byte, corrispondenti a. Single-line string pattern

    Il nome del crawler.

  • Role— UTF -8 stringhe.

    L'Amazon Resource Name (ARN) di un IAM ruolo utilizzato per accedere alle risorse dei clienti, come i dati di Amazon Simple Storage Service (Amazon S3).

  • Targets: un oggetto CrawlerTargets.

    Raccolta di destinazioni da sottoporre al crawling.

  • DatabaseName— UTF -8 stringhe.

    Il nome del database di catalogo in cui viene archiviato l'output del crawler.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Descrizione del crawler.

  • Classifiers— Un array di UTF -8 stringhe.

    Un elenco di UTF -8 stringhe che specificano i classificatori personalizzati associati al crawler.

  • RecrawlPolicy: un oggetto RecrawlPolicy.

    Una policy che specifica se eseguire nuovamente il crawling dell'intero set di dati o solo delle cartelle aggiunte dall'ultima esecuzione del crawler.

  • SchemaChangePolicy: un oggetto SchemaChangePolicy.

    La policy che specifica i comportamenti di aggiornamento ed eliminazione per il crawler.

  • LineageConfiguration: un oggetto LineageConfiguration.

    Una configurazione che specifica se la derivazione dei dati è abilitata per il crawler.

  • State— UTF -8 stringhe (valori validi: | |). READY RUNNING STOPPING

    Indica se il crawler è in esecuzione o se una sessione è in sospeso.

  • TablePrefix— UTF -8 stringhe, lunghe non più di 128 byte.

    Il prefisso aggiunto ai nomi delle tabelle create.

  • Schedule: un oggetto Pianificazione.

    Per i crawler pianificati, la pianificazione dell'esecuzione del crawler.

  • CrawlElapsedTime: numero (lungo).

    Se il crawler è in esecuzione, contiene il tempo totale trascorso dall'inizio dell'ultimo crawling.

  • CreationTime: timestamp.

    L'ora di creazione del crawler.

  • LastUpdated: timestamp.

    L'ora dell'ultimo aggiornamento del crawler.

  • LastCrawl: un oggetto LastCrawlInfo.

    Lo stato dell'ultimo crawling ed eventualmente le informazioni sull'errore, se presente.

  • Version: numero (lungo).

    La versione del crawler.

  • Configuration— UTF -8 stringhe.

    Le informazioni di configurazione del crawler. Questa JSON stringa con versione consente agli utenti di specificare aspetti del comportamento di un crawler. Per ulteriori informazioni, consulta la pagina Impostazione delle opzioni di configurazione del crawler.

  • CrawlerSecurityConfiguration— UTF -8 stringhe, lunghe non più di 128 byte.

    Il nome della struttura SecurityConfiguration che questo crawler deve utilizzare.

  • LakeFormationConfiguration: un oggetto LakeFormationConfiguration.

    Speciifica se il crawler deve utilizzare le AWS Lake Formation credenziali per il crawler anziché le credenziali del ruolo. IAM

Struttura della pianificazione

Oggetto di pianificazione che utilizza una dichiarazione cron per pianificare un evento.

Campi
  • ScheduleExpression— -8 stringheUTF.

    Espressione cron usata per specificare la pianificazione (consulta Pianificazioni basate sul tempo per processi e crawler. Ad esempio, per eseguire qualcosa ogni giorno alle UTC 12:15, devi specificare:cron(15 12 * * ? *).

  • State— UTF -8 stringhe (valori validi: SCHEDULED | NOT_SCHEDULED |TRANSITIONING).

    Lo stato della pianificazione.

CrawlerTargets struttura

Specifica gli archivi dati da sottoporre al crawling.

Campi
  • S3Targets: una matrice di oggetti S3Target.

    Specifica le destinazioni di Amazon Simple Storage Service (Amazon S3).

  • JdbcTargets: una matrice di oggetti JdbcTarget.

    Specifica destinazioni JDBC.

  • MongoDBTargets: una matrice di oggetti M ongoDBTarget.

    Specifica destinazioni Amazon DocumentDB o MongoDB.

  • DynamoDBTargets: una matrice di oggetti D ynamoDBTarget.

    Specifica le destinazioni di Amazon DynamoDB.

  • CatalogTargets: una matrice di oggetti CatalogTarget.

    Speciifica gli AWS Glue Data Catalog obiettivi.

  • DeltaTargets: una matrice di oggetti DeltaTarget.

    Specifica le destinazioni dell'archivio dati Delta.

  • IcebergTargets: una matrice di oggetti IcebergTarget.

    Specifica le destinazioni del datastore Apache Iceberg.

  • HudiTargets: una matrice di oggetti HudiTarget.

    Specifica le destinazioni del datastore Apache Hudi.

Struttura S3Target

Specifica un archivio dati in Amazon Simple Storage Service (Amazon S3).

Campi
  • Path— UTF -8 stringhe.

    Il percorso della destinazione Amazon S3.

  • Exclusions— Un array di UTF -8 stringhe.

    Elenco di modelli globali utilizzati per l'esclusione dal crawling. Per ulteriori informazioni, consulta la sezione relativa alla catalogazione delle tabelle con un crawler.

  • ConnectionName— UTF -8 corde.

    Il nome di una connessione che consente a un job o a un crawler di accedere ai dati in Amazon S3 all'interno di un ambiente Amazon Virtual Private Cloud (Amazon). VPC

  • SampleSize: numero (intero).

    Imposta il numero di file in ogni cartella foglia da sottoporre al crawling durante il crawling di file di esempio in un set di dati. Se non è impostato, tutti i file vengono sottoposti al crawling. Un valore valido è un numero intero compreso tra 1 e 249.

  • EventQueueArn— -8 stringheUTF.

    Un Amazon valido SQSARN. Ad esempio arn:aws:sqs:region:account:sqs.

  • DlqEventQueueArn— UTF -8 corde.

    Una lettera morta valida per SQS ARN Amazon. Ad esempio arn:aws:sqs:region:account:deadLetterQueue.

Struttura S3 DeltaCatalogTarget

Speciifica una destinazione che scrive su un'origine dati Delta Lake nel AWS Glue Data Catalog.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • TableObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il nome della tabella del database in cui scrivere.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database in cui scrivere.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica le opzioni di connessione aggiuntive per il connettore.

  • SchemaChangePolicy: un oggetto CatalogSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

Struttura S3 DeltaDirectTarget

Speciifica una destinazione che scrive su un'origine dati Delta Lake in. Amazon S3

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • PathObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il percorso Amazon S3 dell'origine dati Delta Lake su cui scrivere.

  • CompressionObbligatorio: UTF -8 stringa (valori validi: uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • FormatObbligatorio: UTF -8 stringhe (valori validi: json="JSON" csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | |delta="DELTA").

    Specifica il formato di output dei dati per la destinazione.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica le opzioni di connessione aggiuntive per il connettore.

  • SchemaChangePolicy: un oggetto DirectSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

JdbcTarget struttura

Speciifica un archivio JDBC dati da sottoporre a scansione.

Campi
  • ConnectionName— UTF -8 stringhe.

    Il nome della connessione da utilizzare per connettersi alla JDBC destinazione.

  • Path— UTF -8 stringhe.

    Il percorso del JDBC bersaglio.

  • Exclusions— Un array di UTF -8 stringhe.

    Elenco di modelli globali utilizzati per l'esclusione dal crawling. Per ulteriori informazioni, consulta la sezione relativa alla catalogazione delle tabelle con un crawler.

  • EnableAdditionalMetadata— Un array di UTF -8 stringhe.

    Specifica un valore di RAWTYPES o COMMENTS per abilitare metadati aggiuntivi nelle risposte della tabella. RAWTYPES fornisce il tipo di dati a livello nativo. COMMENTS fornisce commenti associati a una colonna o a una tabella del database.

    Se non hai bisogno di metadati aggiuntivi, lascia il campo vuoto.

Struttura M ongoDBTarget

Specifica un archivio dati Amazon DocumentDB o MongoDB da sottoporre al crawling.

Campi
  • ConnectionName— UTF -8 corde.

    Il nome della connessione da usare per connettersi alla destinazione Amazon DocumentDB o MongoDB.

  • Path— UTF -8 corde.

    Il percorso della destinazione Amazon DocumentDB o MongoDB (database/raccolta).

  • ScanAll: booleano.

    Indica se eseguire la scansione di tutti i registri o campionare le righe della tabella. La scansione di tutti i registri può richiedere molto tempo quando la tabella non è una tabella di throughput elevato.

    Un valore di true significa analizzare tutti i registri, mentre un valore di false significa campionare i registri. Se non viene specificato alcun valore, il valore di default è true.

ynamoDBTarget Struttura a D.

Specifica una tabella Amazon DynamoDB per eseguire il crawling.

Campi
  • Path— UTF -8 corde.

    Nome della tabella DynamoDB di cui eseguire il crawling.

  • scanAll: booleano.

    Indica se eseguire la scansione di tutti i registri o campionare le righe della tabella. La scansione di tutti i registri può richiedere molto tempo quando la tabella non è una tabella di throughput elevato.

    Un valore di true significa analizzare tutti i registri, mentre un valore di false significa campionare i registri. Se non viene specificato alcun valore, il valore di default è true.

  • scanRate: numero (doppio).

    La percentuale di unità di capacità di lettura configurate da utilizzare dal AWS Glue crawler. L'unità di capacità di lettura è un termine definito da DynamoDB ed è un valore numerico che funge da limitatore di velocità per il numero di letture che possono essere eseguite su tale tabella al secondo.

    I valori validi sono null o un valore compreso tra 0,1 e 1,5. Un valore null viene utilizzato quando l'utente non fornisce un valore e il valore predefinito è 0,5 dell'unità di capacità di lettura massima configurata (per le tabelle con provisioning) o 0,25 dell'unità di capacità di lettura massima configurata (per le tabelle che utilizzano la modalità on demand).

DeltaTarget struttura

Specifica un archivio dati Delta per eseguire la scansione di una o più tabelle Delta.

Campi
  • DeltaTables— Un array di UTF -8 stringhe.

    Un elenco dei percorsi Amazon S3 alle tabelle Delta.

  • ConnectionName— UTF -8 corde.

    Il nome della connessione da usare per connettersi alla destinazione della tabella Delta.

  • WriteManifest: booleano.

    Specifica se scrivere i file manifest sul percorso della tabella Delta.

  • CreateNativeDeltaTable: booleano.

    Specifica se il crawler creerà tabelle native per consentire l'integrazione con i motori di query che supportano l'interrogazione diretta del log delle transazioni Delta.

IcebergTarget struttura

Specifica un'origine dati Apache Iceberg in cui sono archiviate le tabelle Iceberg all'interno di Amazon S3.

Campi
  • Paths— Un array di UTF -8 stringhe.

    Uno o più Amazon S3 percorsi che contengono le cartelle di metadati Iceberg come. s3://bucket/prefix

  • ConnectionName— UTF -8 stringhe.

    Il nome della connessione da utilizzare per connettersi alla destinazione Iceberg.

  • Exclusions— Un array di UTF -8 stringhe.

    Elenco di modelli globali utilizzati per l'esclusione dal crawling. Per ulteriori informazioni, consulta la sezione relativa alla catalogazione delle tabelle con un crawler.

  • MaximumTraversalDepth: numero (intero).

    La profondità massima dei Amazon S3 percorsi che il crawler può attraversare per scoprire la cartella di metadati Iceberg nel percorso. Amazon S3 Viene utilizzata per limitare il tempo di esecuzione del crawler.

HudiTarget struttura

Specifica un'origine dati Apache Hudi.

Campi
  • Paths— Un array di UTF -8 stringhe.

    Un array di stringhe di Amazon S3 posizione per Hudi, ognuna delle quali indica la cartella principale in cui risiedono i file di metadati per una tabella Hudi. La cartella Hudi può trovarsi in una cartella figlia della principale.

    Il crawler scansionerà tutte le cartelle al di sotto del percorso di una cartella Hudi.

  • ConnectionNameUTF— -8 stringhe.

    Il nome della connessione da utilizzare per connettersi alla destinazione Hudi. Se i tuoi file Hudi sono archiviati in bucket che richiedono VPC l'autorizzazione, puoi impostarne le proprietà di connessione qui.

  • Exclusions— Un array di UTF -8 stringhe.

    Elenco di modelli globali utilizzati per l'esclusione dal crawling. Per ulteriori informazioni, consulta la sezione relativa alla catalogazione delle tabelle con un crawler.

  • MaximumTraversalDepth: numero (intero).

    La profondità massima dei Amazon S3 percorsi che il crawler può attraversare per scoprire la cartella di metadati Hudi nel percorso. Amazon S3 Viene utilizzata per limitare il tempo di esecuzione del crawler.

CatalogTarget struttura

Speciifica un AWS Glue Data Catalog obiettivo.

Campi
  • DatabaseNameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Il nome del database da sincronizzare.

  • TablesObbligatorio: un array di UTF -8 stringhe, almeno 1 stringa.

    Elenco di tabelle da sincronizzare.

  • ConnectionName— UTF -8 stringhe.

    Il nome della connessione per una tabella di Catalogo dati supportata da Amazon S3 come destinazione del crawling quando si utilizza un tipo di connessione Catalog abbinato a un tipo di connessione NETWORK.

  • EventQueueArn— UTF -8 corde.

    Un Amazon valido SQSARN. Ad esempio arn:aws:sqs:region:account:sqs.

  • DlqEventQueueArn— UTF -8 corde.

    Una lettera morta valida per SQS ARN Amazon. Ad esempio arn:aws:sqs:region:account:deadLetterQueue.

CrawlerMetrics struttura

I parametri di un determinato crawler.

Campi
  • CrawlerName— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il nome del crawler.

  • TimeLeftSeconds: numero (doppio), non superiore a None (Nessuno).

    Il tempo stimato che rimane per completare un crawling in esecuzione.

  • StillEstimating: booleano.

    True se il crawler sta ancora valutando il tempo necessario per completare la sessione.

  • LastRuntimeSeconds: numero (doppio), non superiore a None (Nessuno).

    La durata in secondi della sessione più recente del crawler.

  • MedianRuntimeSeconds: numero (doppio), non superiore a None (Nessuno).

    La durata media in secondi delle sessioni del crawler.

  • TablesCreated: numero (intero), non superiore a Nessuno.

    Il numero di tabelle create dal crawler.

  • TablesUpdated: numero (intero), non superiore a Nessuno.

    Il numero di tabelle aggiornate dal crawler.

  • TablesDeleted: numero (intero), non superiore a Nessuno.

    Il numero di tabelle eliminate dal crawler.

CrawlerHistory struttura

Contiene le informazioni per l'esecuzione di un crawler.

Campi
  • CrawlId— UTF -8 corde.

    Un UUID identificatore per ogni scansione.

  • State— UTF -8 stringhe (valori validi: RUNNING | | COMPLETED FAILED |STOPPED).

    Lo stato del crawling.

  • StartTime: timestamp.

    La data e l'ora in cui è stata avviata l'esecuzione del crawler.

  • EndTime: timestamp.

    La data e l'ora in cui è terminato il crawling.

  • Summary— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Un riepilogo dell'esecuzione per la scansione specifica. JSON Contiene le tabelle e le partizioni del catalogo che sono state aggiunte, aggiornate o eliminate.

  • ErrorMessage: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Se si è verificato un errore, il messaggio di errore è associato al crawling.

  • LogGroup— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 512 byte, corrispondente a. Log group string pattern

    Il gruppo di log associato al crawler.

  • LogStream— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 512 byte, corrispondente a. Log-stream string pattern

    Il flusso di log associato all'esecuzione del crawler.

  • MessagePrefix— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il prefisso per un CloudWatch messaggio relativo a questo crawl.

  • DPUHour: numero (doppio), non superiore a None (Nessuno).

    Il numero di unità di elaborazione dati (DPU) utilizzate in ore per la scansione.

CrawlsFilter struttura

Un elenco di campi, comparatori e valori che puoi utilizzare per filtrare le esecuzioni del crawler per un crawler specificato.

Campi
  • FieldName— UTF -8 stringhe (valori validi: CRAWL_ID STATE | START_TIME | | END_TIME |DPU_HOUR).

    Una chiave utilizzata per filtrare le esecuzioni del crawler per un crawler specificato. I valori validi per ciascuno dei nomi di campo sono:

    • CRAWL_ID: Una stringa che rappresenta l'UUIDidentificatore per un crawl.

    • STATE: una stringa che rappresenta lo stato del crawling.

    • START_TIME e END_TIME: il timestamp epoch in millisecondi.

    • DPU_HOUR: Il numero di ore dell'unità di elaborazione dati (DPU) utilizzate per la scansione.

  • FilterOperator— UTF -8 stringhe (valori validi: GT | | GE | LT | LE | EQ |NE).

    Un comparatore definito che opera sul valore. Gli operatori disponibili sono:

    • GT: maggiore di.

    • GE: maggiore o uguale a.

    • LT: minore di.

    • LE: minore o uguale a.

    • EQ: uguale a.

    • NE: non uguale a.

  • FieldValue— UTF -8 stringhe.

    Il valore fornito per il confronto nel campo del crawling.

SchemaChangePolicy struttura

Una policy che specifica i comportamenti di aggiornamento ed eliminazione per il crawler.

Campi
  • UpdateBehavior— UTF -8 stringhe (valori validi: LOG |UPDATE_IN_DATABASE).

    Il comportamento di aggiornamento quando il crawler riscontra una variazione dello schema.

  • DeleteBehavior— UTF -8 stringhe (valori validi: LOG | DELETE_FROM_DATABASE |DEPRECATE_IN_DATABASE).

    Il comportamento di eliminazione quando il crawler riscontra un oggetto eliminato.

LastCrawlInfo struttura

Informazioni sullo stato e sull'errore relative al crawling più recente.

Campi
  • Status— UTF -8 stringhe (valori validi: SUCCEEDED | CANCELLED |FAILED).

    Stato dell'ultimo crawling.

  • ErrorMessage: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Le informazioni sull'errore dell'ultimo crawling, se presente.

  • LogGroup— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte, corrispondente a. Log group string pattern

    Il gruppo di log per l'ultimo crawling.

  • LogStream— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 512 byte, corrispondente a. Log-stream string pattern

    Il flusso di log per l'ultimo crawling.

  • MessagePrefix— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il prefisso per un messaggio sul crawling.

  • StartTime: timestamp.

    L'ora di inizio del crawling.

RecrawlPolicy struttura

Quando si esegue il crawling di un'origine dati Amazon S3 dopo il completamento del primo crawling, specifica se eseguire nuovamente il crawling dell'intero set di dati o solo delle cartelle aggiunte dopo l'ultima esecuzione del crawler. Per ulteriori informazioni, consulta Crawling incrementali in AWS Glue nella guida per sviluppatori.

Campi
  • RecrawlBehavior— UTF -8 stringhe (valori validi: CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY |CRAWL_EVENT_MODE).

    Specifica se eseguire nuovamente il crawling dell'intero set di dati o solo delle cartelle aggiunte dall'ultima esecuzione del crawler.

    Un valore di CRAWL_EVERYTHING specifica nuovamente il crawling dell'intero set di dati.

    Un valore di CRAWL_NEW_FOLDERS_ONLY specifica il crawling solo delle cartelle che sono state aggiunte dopo l'ultima esecuzione del crawler.

    Un valore di CRAWL_EVENT_MODE specifica il crawling solo delle modifiche identificate dagli eventi Amazon S3.

LineageConfiguration struttura

Specifica le impostazioni di configurazione della derivazione dei dati per il crawler.

Campi
  • CrawlerLineageSettings— UTF -8 stringhe (valori validi: ENABLE |DISABLE).

    Specifica se la derivazione dei dati è abilitata per il crawler. I valori validi sono:

    • ENABLE: abilita la derivazione dei dati per il crawler

    • DISABLE: disattiva la derivazione dei dati per il crawler

LakeFormationConfiguration struttura

Specifica le impostazioni AWS Lake Formation di configurazione per il crawler.

Campi
  • UseLakeFormationCredentials: booleano.

    Speciifica se utilizzare le AWS Lake Formation credenziali per il crawler anziché le credenziali del ruolo. IAM

  • AccountId— UTF -8 stringhe, lunghe non più di 12 byte.

    Obbligatorio per i crawling tra più account. Per il crawling degli stessi account dei dati di destinazione, può essere lasciato come null.

Operazioni

CreateCrawler azione (Python: create_crawler)

Crea un nuovo crawler con destinazioni, ruolo, configurazione specifici e pianificazione opzionale. Deve essere specificata almeno una destinazione di crawling nel campo s3Targets, nel campo, jdbcTargets o nel campo DynamoDBTargets.

Richiesta
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Il nome del nuovo crawler.

  • RoleRichiesto: UTF -8 stringhe.

    Il IAM ruolo o Amazon Resource Name (ARN) di un IAM ruolo utilizzato dal nuovo crawler per accedere alle risorse dei clienti.

  • DatabaseName— UTF -8 corde.

    Il AWS Glue database in cui vengono scritti i risultati, ad esempio:arn:aws:daylight:us-east-1::database/sometable/*.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Descrizione del nuovo crawler.

  • Targets: obbligatorio: un oggetto CrawlerTargets.

    Elenco della raccolta di destinazioni da sottoporre al crawling.

  • Schedule— UTF -8 stringhe.

    Espressione cron usata per specificare la pianificazione (consulta Pianificazioni basate sul tempo per processi e crawler. Ad esempio, per eseguire qualcosa ogni giorno alle UTC 12:15, devi specificare:cron(15 12 * * ? *).

  • Classifiers— Un array di UTF -8 stringhe.

    Elenco di classificatori personalizzati registrati dall'utente. Per impostazione predefinita, tutti i classificatori integrati sono inclusi in un crawling, ma i classificatori personalizzati sovrascrivono sempre i classificatori predefiniti per una determinata classificazione.

  • TablePrefix— UTF -8 stringhe, lunghe non più di 128 byte.

    Il prefisso di tabella utilizzato per le tabelle di catalogo create.

  • SchemaChangePolicy: un oggetto SchemaChangePolicy.

    Policy per il comportamento di aggiornamento ed eliminazione del crawler.

  • RecrawlPolicy: un oggetto RecrawlPolicy.

    Una policy che specifica se eseguire nuovamente il crawling dell'intero set di dati o solo delle cartelle aggiunte dall'ultima esecuzione del crawler.

  • LineageConfiguration: un oggetto LineageConfiguration.

    Specifica le impostazioni di configurazione della derivazione dei dati per il crawler.

  • LakeFormationConfiguration: un oggetto LakeFormationConfiguration.

    Specifica le impostazioni AWS Lake Formation di configurazione per il crawler.

  • Configuration— -8 stringheUTF.

    Le informazioni di configurazione del crawler. Questa JSON stringa con versione consente agli utenti di specificare aspetti del comportamento di un crawler. Per ulteriori informazioni, consulta la pagina Impostazione delle opzioni di configurazione del crawler.

  • CrawlerSecurityConfiguration— UTF -8 stringhe, lunghe non più di 128 byte.

    Il nome della struttura SecurityConfiguration che questo crawler deve utilizzare.

  • Tags – Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa di UTF -8, lunga non meno di 1 o più di 128 byte.

    Ogni valore è una stringa di UTF -8, lunga non più di 256 byte.

    I tag da usare con questa richiesta crawler. Puoi usare i tag per limitare l'accesso al crawler. Per ulteriori informazioni sui tag in AWS Glue, consulta AWS Tags in AWS Glue nella guida per sviluppatori.

Risposta
  • Nessun parametro di risposta.

Errori
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

DeleteCrawler azione (Python: delete_crawler)

Rimuove un crawler specificato da, a meno che lo stato del crawler non lo sia AWS Glue Data Catalog. RUNNING

Richiesta
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome del crawler da rimuovere.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • CrawlerRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException

GetCrawler azione (Python: get_crawler)

Recupera i metadati per un determinato crawler.

Richiesta
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome del crawler per cui recuperare i metadati.

Risposta
  • Crawler: un oggetto Crawler.

    I metadati per il crawler specificato.

Errori
  • EntityNotFoundException

  • OperationTimeoutException

GetCrawlers azione (Python: get_crawlers)

Recupera i metadati per tutti i crawler definiti nell'account del cliente.

Richiesta
  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    Il numero di crawler da restituire per ciascuna chiamata.

  • NextToken— -8 corde. UTF

    Token di continuazione, se si tratta di una richiesta di continuazione.

Risposta
  • Crawlers: una matrice di oggetti Crawler.

    Elenco di metadati di crawler.

  • NextToken— UTF -8 corde.

    Token di continuazione, se l'elenco restituito non ha raggiunto la fine delle voci definite in questo account del cliente.

Errori
  • OperationTimeoutException

GetCrawlerMetrics azione (Python: get_crawler_metrics)

Recupera i parametri sul crawler specificato.

Richiesta
  • CrawlerNameList— Un array di UTF -8 stringhe, non più di 100 stringhe.

    Elenco di nomi di crawler su cui recuperare i parametri.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    La dimensione massima di un elenco da restituire.

  • NextToken— UTF -8 corde.

    Un token di continuazione, se si tratta di una chiamata di continuazione.

Risposta
  • CrawlerMetricsList: una matrice di oggetti CrawlerMetrics.

    Elenco di parametri per il crawler specificato.

  • NextToken— UTF -8 corde.

    Token di continuazione, se l'elenco restituito non contiene l'ultimo parametro disponibile.

Errori
  • OperationTimeoutException

UpdateCrawler azione (Python: update_crawler)

Aggiorna un crawler. Se un crawler è in esecuzione, è necessario arrestarlo utilizzando StopCrawler prima dell'aggiornamento.

Richiesta
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Il nome del nuovo crawler.

  • Role— UTF -8 stringhe.

    Il IAM ruolo o Amazon Resource Name (ARN) di un IAM ruolo utilizzato dal nuovo crawler per accedere alle risorse dei clienti.

  • DatabaseName— UTF -8 corde.

    Il AWS Glue database in cui sono archiviati i risultati, ad esempio:arn:aws:daylight:us-east-1::database/sometable/*.

  • Description— UTF -8 stringhe, di lunghezza non superiore a 2048 byte, corrispondente a. URI address multi-line string pattern

    Descrizione del nuovo crawler.

  • Targets: un oggetto CrawlerTargets.

    Elenco di destinazioni da sottoporre al crawling.

  • Schedule— UTF -8 stringhe.

    Espressione cron usata per specificare la pianificazione (consulta Pianificazioni basate sul tempo per processi e crawler. Ad esempio, per eseguire qualcosa ogni giorno alle UTC 12:15, devi specificare:cron(15 12 * * ? *).

  • Classifiers— Un array di UTF -8 stringhe.

    Elenco di classificatori personalizzati registrati dall'utente. Per impostazione predefinita, tutti i classificatori integrati sono inclusi in un crawling, ma i classificatori personalizzati sovrascrivono sempre i classificatori predefiniti per una determinata classificazione.

  • TablePrefix— UTF -8 stringhe, lunghe non più di 128 byte.

    Il prefisso di tabella utilizzato per le tabelle di catalogo create.

  • SchemaChangePolicy: un oggetto SchemaChangePolicy.

    Policy per il comportamento di aggiornamento ed eliminazione del crawler.

  • RecrawlPolicy: un oggetto RecrawlPolicy.

    Una policy che specifica se eseguire nuovamente il crawling dell'intero set di dati o solo delle cartelle aggiunte dall'ultima esecuzione del crawler.

  • LineageConfiguration: un oggetto LineageConfiguration.

    Specifica le impostazioni di configurazione della derivazione dei dati per il crawler.

  • LakeFormationConfiguration: un oggetto LakeFormationConfiguration.

    Specifica le impostazioni AWS Lake Formation di configurazione per il crawler.

  • Configuration— -8 stringheUTF.

    Le informazioni di configurazione del crawler. Questa JSON stringa con versione consente agli utenti di specificare aspetti del comportamento di un crawler. Per ulteriori informazioni, consulta la pagina Impostazione delle opzioni di configurazione del crawler.

  • CrawlerSecurityConfiguration— UTF -8 stringhe, lunghe non più di 128 byte.

    Il nome della struttura SecurityConfiguration che questo crawler deve utilizzare.

Risposta
  • Nessun parametro di risposta.

Errori
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StartCrawler azione (Python: start_crawler)

Avvia un crawling utilizzando il crawler specificato, indipendentemente dalla pianificazione. Se il crawler è già in esecuzione, restituisce un. CrawlerRunningException

Richiesta
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome del crawler da avviare.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StopCrawler azione (Python: stop_crawler)

Se il crawler specificato è in esecuzione, arresta il crawling.

Richiesta
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome del crawler da arrestare.

Risposta
  • Nessun parametro di risposta.

Errori
  • EntityNotFoundException

  • CrawlerNotRunningException

  • CrawlerStoppingException

  • OperationTimeoutException

BatchGetCrawlers azione (Python: batch_get_crawlers)

Restituisce un elenco di metadati di risorse per un elenco di nomi di crawler. Dopo aver chiamato l'operazione ListCrawlers, puoi chiamare questa operazione per accedere ai dati a cui sono state concesse le autorizzazioni. Questa operazione supporta tutte le autorizzazioni, incluse le condizioni di IAM autorizzazione che utilizzano tag.

Richiesta
  • CrawlerNamesObbligatorio: un array di UTF -8 stringhe, non più di 100 stringhe.

    L'elenco dei nomi di crawler che potrebbero essere i nomi restituiti dall'operazione ListCrawlers.

Risposta
  • Crawlers: una matrice di oggetti Crawler.

    Un elenco di definizioni di crawler.

  • CrawlersNotFound— Un array di UTF -8 stringhe, non più di 100 stringhe.

    Un elenco di nomi di crawler non trovati.

Errori
  • InvalidInputException

  • OperationTimeoutException

ListCrawlers azione (Python: list_crawlers)

Recupera i nomi di tutte le risorse del crawler in questo AWS account o delle risorse con il tag specificato. Questa operazione consente di vedere quali risorse sono disponibili nel proprio account e i relativi nomi.

L'operazione accetta il campo facoltativo Tags che si può utilizzare come filtro per la risposta in modo che le risorse con tag possano essere recuperate come gruppo. Se si sceglie di utilizzare il filtro dei tag, potranno essere recuperate solo le risorse con tag.

Richiesta
  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    La dimensione massima di un elenco da restituire.

  • NextToken— -8 stringheUTF.

    Token di continuazione, se si tratta di una richiesta di continuazione.

  • Tags – Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa di UTF -8, lunga non meno di 1 o più di 128 byte.

    Ogni valore è una stringa di UTF -8, lunga non più di 256 byte.

    Specifica che vengono restituite solo le risorse con tag.

Risposta
  • CrawlerNames— Una matrice di UTF -8 stringhe, non più di 100 stringhe.

    I nomi di tutti i crawler nell'account oppure i crawler con i tag specificati.

  • NextToken— UTF -8 corde.

    Token di continuazione, se l'elenco restituito non contiene l'ultimo parametro disponibile.

Errori
  • OperationTimeoutException

ListCrawls azione (Python: list_crawls)

Restituisce tutti i crawling di un determinato crawler. Restituisce solo i crawling che si sono verificati dalla data di avvio della funzione cronologia del crawler e conserva solo fino a 12 mesi di crawling. I crawling più vecchi non verranno restituiti.

Puoi usarlo per: API

  • Recuperare tutti i crawling di un determinato crawler.

  • Recuperare tutti i crawling di un crawler specificato entro un conteggio limitato.

  • Recuperare tutti i crawling di un crawler specificato in un intervallo di tempo specifico.

  • Recupera tutte le ricerche per indicizzazione di un crawler specificato con uno stato, un ID di scansione o un valore orario particolari. DPU

Richiesta
  • CrawlerNameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Il nome del crawler di cui vuoi recuperare le esecuzioni.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    Numero massimo di risultati da restituire. Il valore predefinito è 20 e il valore massimo è 100.

  • Filters: una matrice di oggetti CrawlsFilter.

    Filtra i crawling in base ai criteri specificati in un elenco di oggetti CrawlsFilter.

  • NextToken— UTF -8 stringhe.

    Un token di continuazione, se si tratta di una chiamata di continuazione.

Risposta
  • Crawls: una matrice di oggetti CrawlerHistory.

    Un elenco di oggetti CrawlerHistory che rappresentano le esecuzioni del crawling che soddisfano i criteri specificati.

  • NextToken— UTF -8 corde.

    Un token di continuazione per impaginare l'elenco restituito di token, restituiti se il segmento corrente dell'elenco non è l'ultimo.

Errori
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException