Ec2Resource - AWS Data Pipeline

AWS Data Pipeline non è più disponibile per i nuovi clienti. Clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. Ulteriori informazioni

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ec2Resource

Un'EC2istanza Amazon che esegue il lavoro definito da un'attività di pipeline.

AWS Data Pipeline ora supporta IMDSv2 l'EC2istanza Amazon, che utilizza un metodo orientato alla sessione per gestire meglio l'autenticazione durante il recupero delle informazioni sui metadati dalle istanze. Una sessione inizia e termina una serie di richieste che il software in esecuzione su un'EC2istanza Amazon utilizza per accedere ai metadati e alle credenziali dell'istanza EC2 Amazon archiviati localmente. Il software avvia una sessione con una semplice richiesta a. HTTP PUT IMDSv2 IMDSv2restituisce un token segreto al software in esecuzione sull'EC2istanza Amazon, che utilizzerà il token come password IMDSv2 per effettuare richieste di metadati e credenziali.

Nota

Per utilizzarla IMDSv2 per la tua EC2 istanza Amazon, dovrai modificare le impostazioni, poiché l'impostazione predefinita non AMI è compatibile conIMDSv2. Puoi specificare una nuova AMI versione che puoi recuperare tramite il seguente SSM parametro:/aws/service/ami-amazon-linux-latest/amzn-ami-hvm-x86_64-ebs.

Per informazioni sulle EC2 istanze Amazon predefinite che vengono AWS Data Pipeline create se non specifichi un'istanza, consulta Istanze Amazon EC2 predefinite per regione AWS.

Esempi

EC2-Classico

Importante

Solo AWS gli account creati prima del 4 dicembre 2013 supportano la piattaforma EC2 -Classic. Se disponi di uno di questi account, potresti avere la possibilità di creare EC2Resource oggetti per una pipeline in una rete EC2 -Classic anziché una. VPC Ti consigliamo vivamente di creare risorse per tutte le tue pipeline in. VPCs Inoltre, se disponi di risorse esistenti in EC2 -Classic, ti consigliamo di migrarle in un. VPC

L'oggetto di esempio seguente avvia un'EC2istanza in EC2 -Classic, con alcuni campi opzionali impostati.

{ "id" : "MyEC2Resource", "type" : "Ec2Resource", "actionOnTaskFailure" : "terminate", "actionOnResourceFailure" : "retryAll", "maximumRetries" : "1", "instanceType" : "m5.large", "securityGroups" : [ "test-group", "default" ], "keyPair" : "my-key-pair" }

EC2-VPC

L'oggetto di esempio seguente avvia un'EC2istanza in un formato non predefinitoVPC, con alcuni campi opzionali impostati.

{ "id" : "MyEC2Resource", "type" : "Ec2Resource", "actionOnTaskFailure" : "terminate", "actionOnResourceFailure" : "retryAll", "maximumRetries" : "1", "instanceType" : "m5.large", "securityGroupIds" : [ "sg-12345678", "sg-12345678" ], "subnetId": "subnet-12345678", "associatePublicIpAddress": "true", "keyPair" : "my-key-pair" }

Sintassi

Campi obbligatori Descrizione Tipo di slot
resourceRole Il IAM ruolo che controlla le risorse a cui l'EC2istanza Amazon può accedere. Stringa
role Il IAM ruolo AWS Data Pipeline utilizzato per creare l'EC2istanza. Stringa

Campi Object Invocation Descrizione Tipo di slot
schedule

Questo oggetto viene richiamato entro l'esecuzione di un intervallo di pianificazione.

Per impostare l'ordine di esecuzione delle dipendenze per questo oggetto, specificare un riferimento di pianificazione a un altro oggetto. Questa operazione può essere eseguita in uno dei seguenti modi:

  • Per garantire che tutti gli oggetti nella pipeline possano ereditare la pianificazione, impostare una pianificazione sull'oggetto esplicitamente: "schedule": {"ref": "DefaultSchedule"}. Nella maggior parte dei casi, è utile inserire il riferimento alla pianificazione nell'oggetto pipeline di default, in modo che tutti gli oggetti possano ereditare tale pianificazione.

  • Se la pipeline dispone di pianificazioni nidificate all'interno della pianificazione principale, è possibile creare un oggetto padre che dispone di un riferimento alla pianificazione. Per ulteriori informazioni sulle configurazioni di pianificazione opzionali di esempio, consulta https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html

Oggetto di riferimento, ad esempio "schedule":{"ref":"myScheduleId"}

Campi opzionali Descrizione Tipo di slot
actionOnResourceFallimento L'operazione intrapresa dopo il fallimento di una risorsa per questa risorsa. I valori validi sono "retryall" e "retrynone". Stringa
actionOnTaskFallimento L'operazione intrapresa dopo il fallimento di un'attività per questa risorsa. I valori validi sono "continue" e "terminate". Stringa
associatePublicIpIndirizzo Indica se assegnare automaticamente un indirizzo IP pubblico all'istanza. Se l'istanza è in Amazon EC2 o AmazonVPC, il valore predefinito ètrue. In caso contrario, il valore predefinito è false. Booleano
attemptStatus Lo stato segnalato più di recente dall'attività remota. Stringa
attemptTimeout Timeout per il completamento del lavoro in remoto. Se questo campo è impostato, un'attività remota che non viene completata entro il tempo impostato di avvio viene tentata di nuovo. Periodo
availabilityZone La zona di disponibilità in cui avviare l'EC2istanza Amazon. Stringa
disableIMDSv1 Il valore predefinito è false e abilita entrambi IMDSv1 eIMDSv2. Se lo imposti su true, disabilita IMDSv1 e fornisce solo IMDSv2s Booleano
failureAndRerunModalità Descrive il comportamento del nodo consumer quando le dipendenze presentano un errore o vengono di nuovo eseguite. Enumerazione
httpProxy L'host proxy utilizzato dai client per connettersi ai AWS servizi. Oggetto di riferimento, ad esempio "httpProxy":{"ref":"myHttpProxyId"}
imageId

L'ID AMI da utilizzare per l'istanza. Per impostazione predefinita, AWS Data Pipeline utilizza il tipo di HVM AMI virtualizzazione. Le specifiche AMI IDs utilizzate si basano su una regione. È possibile sovrascrivere l'impostazione AMI predefinita specificando la scelta HVM AMI desiderata. Per ulteriori informazioni sui AMI tipi, consulta Linux AMI Virtualization Types e Finding a Linux AMI nella Amazon EC2 User Guide.

Stringa
initTimeout Il tempo di attesa prima dell'avvio della risorsa. Periodo
instanceCount Obsoleta. Numero intero
instanceType Il tipo di EC2 istanza Amazon da avviare. Stringa
keyPair Nome della coppia di chiavi. Se avvii un'EC2istanza Amazon senza specificare una key pair, non puoi accedervi. Stringa
lateAfterTimeout Il tempo trascorso dall'inizio della pipeline entro il quale l'oggetto deve essere completato. Viene attivato solo quando il tipo di pianificazione non è impostato su. ondemand Periodo
maxActiveInstances Il numero massimo di istanze attive simultanee di un componente. Le riesecuzioni non contano ai fini del numero di istanze attive. Numero intero
maximumRetries Numero massimo di tentativi in caso di errore. Numero intero
minInstanceCount Obsoleta. Numero intero
onFail Un'azione da eseguire quando l'oggetto corrente ha esito negativo. Oggetto di riferimento, ad esempio "onFail":{"ref":"myActionId"}
onLateAction Azioni che devono essere attivate se un oggetto non è stato ancora pianificato o se è ancora in esecuzione. Oggetto di riferimento, ad esempio "onLateAction":{"ref":"myActionId"}
onSuccess Un'operazione da eseguire quando l'oggetto corrente ha esito positivo. Oggetto di riferimento, ad esempio "onSuccess":{"ref":"myActionId"}
parent Padre dell'oggetto corrente da cui vengono ereditati gli slot. Oggetto di riferimento, ad esempio "parent":{"ref":"myBaseObjectId"}
pipelineLogUri Amazon S3 URI (ad esempio's3://BucketName/Key/') per il caricamento dei log per la pipeline. Stringa
Regione Il codice per la regione in cui deve essere eseguita l'EC2istanza Amazon. Per impostazione predefinita, l'istanza viene eseguita nella stessa regione della pipeline. È possibile eseguire l'istanza nella stessa regione del set di dati dipendenti. Enumerazione
reportProgressTimeout Timeout per chiamate successive di attività in remoto a reportProgress. Se impostato, le attività in remoto che non presentano avanzamenti nel periodo specificato potrebbero essere considerate bloccate ed essere quindi oggetto di un altro tentativo. Periodo
retryDelay La durata del timeout tra due tentativi. Periodo
runAsUser L'utente che deve eseguire il TaskRunner. Stringa
runsOn Campo non consentito su questo oggetto. Oggetto di riferimento, ad esempio, "runsOn":{"ref":"myResourceId"}
scheduleType

Il tipo di pianificazione consente di specificare se gli oggetti nella definizione di pipeline devono essere programmati all'inizio o alla fine dell'intervallo oppure on demand.

I valori sono:

  • timeseries. Le istanze sono programmate alla fine di ogni intervallo.

  • cron. Le istanze sono programmate all'inizio di ogni intervallo.

  • ondemand. Consente di eseguire una pipeline una volta per attivazione. Non è necessario clonare o ricreare la pipeline per eseguirla di nuovo. Se utilizzi una pianificazione on demand, devi specificarlo nell'oggetto predefinito e deve essere l'unico scheduleType specificato per gli oggetti della pipeline. Per utilizzare le pipeline on demand, chiama l'operazione ActivatePipeline per ogni esecuzione successiva.

Enumerazione
securityGroupIds L'IDsinsieme di uno o più gruppi EC2 di sicurezza Amazon da utilizzare per le istanze nel pool di risorse. Stringa
securityGroups Uno o più gruppi EC2 di sicurezza Amazon da utilizzare per le istanze nel pool di risorse. Stringa
spotBidPrice L'importo massimo per ora per la tua istanza Spot in dollari, un valore decimale compreso tra 0 e 20,00, esclusi. Stringa
subnetId L'ID della EC2 sottorete Amazon in cui avviare l'istanza. Stringa
terminateAfter Il numero di ore dopo cui terminare la risorsa. Periodo
useOnDemandOnLastAttempt Nell'ultimo tentativo di richiesta di una risorsa Spot, effettuare una richiesta per istanze on demand invece che per istanze Spot. In questo modo, se tutti i tentativi precedenti non sono andati a buon fine, l'ultimo tentativo non viene interrotto. Booleano
workerGroup Campo non consentito su questo oggetto. Stringa

Campi Runtime Descrizione Tipo di slot
@activeInstances Elenco di oggetti di istanze attive attualmente programmate. Oggetto di riferimento, ad esempio, "activeInstances":{"ref":"myRunnableObjectId"}
@actualEndTime L'ora in cui è terminata l'esecuzione di questo oggetto. DateTime
@actualStartTime L'ora in cui è stata avviata l'esecuzione di questo oggetto. DateTime
cancellationReason cancellationReason se questo oggetto è stato annullato. Stringa
@cascadeFailedOn Descrizione della catena di dipendenza che ha generato l'errore dell'oggetto. Oggetto di riferimento, ad esempio, "cascadeFailedOn":{"ref":"myRunnableObjectId"}
emrStepLog I log dei passaggi sono disponibili solo per i tentativi di EMR attività di Amazon. Stringa
errorId ID dell'errore se l'oggetto non è riuscito. Stringa
errorMessage Messaggio di errore se l'oggetto non è riuscito. Stringa
errorStackTrace Traccia dello stack di errore se l'oggetto non è riuscito. Stringa
@failureReason Il motivo dell'errore della risorsa. Stringa
@finishedTime L'ora in cui è terminata l'esecuzione di questo oggetto. DateTime
hadoopJobLog I registri dei lavori Hadoop sono disponibili sui tentativi di attività di Amazon. EMR Stringa
@healthStatus Lo stato di integrità dell'oggetto che riflette l'esito positivo o negativo dell'ultima istanza dell'oggetto che ha raggiunto lo stato di un'istanza terminata. Stringa
@healthStatusFromInstanceId Id dell'ultimo oggetto dell'istanza che ha raggiunto lo stato terminato. Stringa
@ Ora healthStatusUpdated L'ora in cui lo stato di integrità è stato aggiornato l'ultima volta. DateTime
hostname Il nome host del client che si è aggiudicato il tentativo dell'attività. Stringa
@lastDeactivatedTime L'ora in cui l'oggetto è stato disattivato. DateTime
@ latestCompletedRun Ora L'orario dell'esecuzione più recente durante il quale l'esecuzione è stata completata. DateTime
@latestRunTime L'orario dell'esecuzione più recente durante il quale l'esecuzione è stata pianificata. DateTime
@nextRunTime L'orario dell'esecuzione da programmare come successiva. DateTime
reportProgressTime Il periodo di tempo più recente in cui l'attività remota ha segnalato un progresso. DateTime
@scheduledEndTime L'orario di termine della pianificazione per l'oggetto. DateTime
@scheduledStartTime L'orario di inizio della pianificazione per l'oggetto. DateTime
@status Lo stato di questo oggetto. Stringa
@version Versione della pipeline con cui l'oggetto è stato creato. Stringa
@waitingOn La descrizione dell'elenco di dipendenze per cui questo oggetto è in attesa. Oggetto di riferimento, ad esempio "waitingOn":{"ref":"myRunnableObjectId"}

Campi di sistema Descrizione Tipo di slot
@error Errore che descrive il formato oggetto errato. Stringa
@pipelineId L'ID della pipeline a cui appartiene questo oggetto. Stringa
@sphere La posizione di un oggetto nel ciclo di vita. I Component Objects generano Instance Objects che eseguono Attempt Objects. Stringa