Il servizio gestito da Amazon per Apache Flink era precedentemente noto come Analisi dei dati Amazon Kinesis per Apache Flink.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Metriche e dimensioni in Managed Service for Apache Flink
Quando il tuo Managed Service per Apache Flink elabora un'origine dati, Managed Service for Apache Flink riporta le seguenti metriche e dimensioni ad Amazon. CloudWatch
Parametri di applicazione
Parametro | Unità | Descrizione | Livello | Note per l'utilizzo |
---|---|---|---|---|
backPressuredTimeMsPerSecond* |
Millisecondi | Il tempo (in millisecondi) in cui questa attività o questo operatore vengono sottoposti a contropressione al secondo. | Attività, operatore, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione. |
busyTimeMsPerSecond* |
Millisecondi | Il tempo (in millisecondi) occupato dall'attività o dall'operatore (né inattivo né in contropressione) al secondo. Può essere NaN, se il valore non può essere calcolato. | Attività, operatore, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione. |
cpuUtilization |
Percentuale | Percentuale complessiva di utilizzo tra i task managerCPU. Ad esempio, se sono presenti cinque task manager, il servizio gestito per Apache Flink pubblica cinque esempi di questa metrica per intervallo di report. | Applicazione | È possibile utilizzare questa metrica per monitorare l'CPUutilizzo minimo, medio e massimo dell'applicazione. La CPUUtilization metrica tiene conto solo dell'CPUutilizzo del TaskManager JVM processo in esecuzione all'interno del contenitore. |
containerCPUUtilization |
Percentuale | Percentuale complessiva di CPU utilizzo tra i contenitori del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. | Applicazione | Il calcolo per container viene svolto come segue: CPUTempo totale (in secondi) consumato dal contenitore * 100/Limite del contenitore (in /secondi) CPU CPUs La |
containerMemoryUtilization |
Percentuale | Percentuale complessiva di utilizzo della memoria tra i container del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. | Applicazione | Il calcolo per container viene svolto come segue: Utilizzo della memoria del container (byte) * 100/limite di memoria del container in base alle specifiche di implementazione del pod (in byte) Le metriche |
containerDiskUtilization |
Percentuale | Percentuale complessiva di utilizzo del disco tra i container del task manager nel cluster di applicazioni Flink. Ad esempio, se ci sono cinque task manager, corrispondenti sono cinque TaskManager contenitori e Managed Service for Apache Flink pubblica 2* cinque esempi di questa metrica per intervallo di report di 1 minuto. | Applicazione | Il calcolo per container viene svolto come segue: Utilizzo del disco in byte * 100/limite del disco per il container in byte Per i container, rappresenta l'utilizzo del filesystem su cui è impostato il volume root del container. |
currentInputWatermark |
Millisecondi | L'ultimo watermark ricevuto da questa applicazione/operatore/attività/thread | Applicazione, operatore, attività, parallelismo | Questo record viene generato solo per dimensioni con due input. Questo è il valore minimo degli ultimi watermark ricevuti. |
currentOutputWatermark |
Millisecondi | L'ultimo watermark generato da questa applicazione/operatore/task/thread | Applicazione, operatore, attività, parallelismo | |
downtime |
Millisecondi | Per i processi attualmente in una situazione di guasto/ripristino, il tempo trascorso durante questa interruzione. | Applicazione | Questo parametro misura il tempo trascorso durante la mancata riuscita o il ripristino di un processo. Questo parametro restituisce 0 per i processi in esecuzione e -1 per i processi completati. Se questo parametro non è 0 o -1, significa che il processo di Apache Flink per l'applicazione non è stato eseguito. |
fullRestarts |
Conteggio | Il numero totale di volte in cui questo processo è stato riavviato completamente da quando è stato inviato. Questo parametro non misura i riavvii granulari. | Applicazione | È possibile utilizzare questa metrica per valutare lo stato generale delle applicazioni. I riavvii possono verificarsi durante la manutenzione interna del servizio gestito per Apache Flink. Un numero di riavvii superiore al normale può indicare un problema con l'applicazione. |
heapMemoryUtilization |
Percentuale | Utilizzo complessivo della memoria heap tra i task manager. Ad esempio, se sono presenti cinque task manager, il servizio gestito per Apache Flink pubblica cinque esempi di questa metrica per intervallo di report. | Applicazione | È possibile utilizzare questa metrica per monitorare l'utilizzo minimo, medio e massimo della memoria heap nell'applicazione. Gli HeapMemoryUtilization unici tengono conto di metriche di memoria specifiche come Heap Memory Usage di. TaskManager JVM |
idleTimeMsPerSecond* |
Millisecondi | Il tempo (in millisecondi) di inattività (nessun dato da elaborare) di questa attività o di questo operatore al secondo. Il tempo di inattività esclude il tempo di contropressione, quindi se l'attività è in contropressione non è inattiva. | Attività, operatore, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Questi parametri possono essere utili per identificare i rallentamenti in un'applicazione. |
lastCheckpointSize |
Byte | La dimensione totale dell'ultimo checkpoint | Applicazione | È possibile utilizzare questo parametro per determinare l'utilizzo dello storage delle applicazioni in esecuzione. Se il valore di questo parametro aumenta, ciò potrebbe indicare la presenza di un problema con l'applicazione, ad esempio una perdita di memoria o un collo di bottiglia. |
lastCheckpointDuration |
Millisecondi | Il tempo impiegato per completare l'ultimo checkpoint | Applicazione | Questo parametro misura il tempo impiegato per completare il checkpoint più recente. Se il valore di questo parametro aumenta, ciò potrebbe indicare la presenza di un problema con l'applicazione, ad esempio una perdita di memoria o un collo di bottiglia. In alcuni casi, è possibile risolvere questo problema disabilitando il checkpoint. |
managedMemoryUsed* |
Byte | La quantità di memoria attualmente in uso. | Applicazione, operatore, attività, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni. |
managedMemoryTotal* |
Byte | La quantità totale di memoria gestita. | Applicazione, operatore, attività, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni. La |
managedMemoryUtilization* |
Percentuale | managedMemoryUsedDerivato da/managedMemoryTotal | Applicazione, operatore, attività, parallelismo | *Disponibile solo per le applicazioni del servizio gestito per Apache Flink che eseguono la versione 1.13 di Flink. Si riferisce alla memoria gestita da Flink all'esterno dell'heap Java. Viene utilizzato per il backend di stato RocksDB ed è disponibile anche per le applicazioni. |
numberOfFailedCheckpoints |
Conteggio | Il numero di volte in cui il checkpoint non è andato a buon fine. | Applicazione | È possibile utilizzare questo parametro per monitorare lo stato e l'avanzamento delle applicazioni. I checkpoint potrebbero non riuscire a causa di problemi dell'applicazione, come problemi di throughput o di autorizzazioni. |
numRecordsIn* |
Conteggio | Il numero totale di record ricevuti da questa applicazione, operatore o attività. | Applicazione, operatore, attività, parallelismo | *Per applicare la SUM statistica su un periodo di tempo (secondi/minuto):
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
numRecordsInPerSecond* |
Numero/secondo | Il numero totale di record ricevuti da questa applicazione, operatore o attività al secondo. | Applicazione, operatore, attività, parallelismo | *Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
numRecordsOut* |
Conteggio | Il numero totale di record generati da questa applicazione, operatore o attività. | Applicazione, operatore, attività, parallelismo |
*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
numLateRecordsDropped* |
Conteggio | Applicazione, operatore, attività, parallelismo | *Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il numero di record di questo operatore o attività è diminuito a causa dell'arrivo in ritardo. |
|
numRecordsOutPerSecond* |
Numero/secondo | Il numero totale di record generati da questa applicazione, operatore o attività al secondo. | Applicazione, operatore, attività, parallelismo |
*Per applicare la statistica su un periodo di tempo (secondi/minuto): SUM
Il livello del parametro specifica se questo parametro misura il numero totale di record ricevuti dall'intera applicazione, da un operatore specifico o da un'attività specifica. |
oldGenerationGCCount |
Conteggio | Il numero totale di vecchie operazioni di rimozione di oggetti inutili (garbage collection) che si sono verificate in tutti i task manager. | Applicazione | |
oldGenerationGCTime |
Millisecondi | Il tempo totale impiegato per eseguire le vecchie operazioni di rimozione di oggetti inutili (garbage collection). | Applicazione | È possibile utilizzare questo parametro per monitorare la somma, la media e il tempo massimo di rimozione di oggetti inutili (garbage collection). |
threadCount |
Conteggio | Il numero totale di thread live utilizzati dall'applicazione. | Applicazione | Questo parametro misura il numero di thread utilizzati dal codice dell'applicazione. È diverso dal parallelismo dell’applicazione. |
uptime |
Millisecondi | Il tempo in cui il processo è stato eseguito senza interruzioni. | Applicazione | È possibile utilizzare questo parametro per determinare se un processo viene eseguito correttamente. Questo parametro restituisce -1 per i processi completati. |
KPUs* |
Conteggio | KPUsIl numero totale di dati utilizzati dall'applicazione. | Applicazione | *Questa metrica riceve un campione per periodo di fatturazione (un'ora). Per visualizzare il numero di interruzioni KPUs nel tempo, utilizza MAX o AVG in un periodo di almeno una (1) ora. Il KPU conteggio include il. |
Metriche del connettore Kinesis Data Streams
AWS emette tutti i record per Kinesis Data Streams oltre ai seguenti:
Parametro | Unità | Descrizione | Livello | Note per l'utilizzo |
---|---|---|---|---|
millisbehindLatest |
Millisecondi | Il numero di millisecondi in cui il consumatore si trova rispetto all'estremità del flusso, a indicare il ritardo rispetto all'ora corrente del consumatore. | Applicazione (per Stream), Parallelismo (per) ShardId |
|
bytesRequestedPerFetch |
Byte | I byte richiesti in una singola chiamata a getRecords . |
Applicazione (per Stream), Parallelismo (per) ShardId |
Metriche MSK del connettore Amazon
AWS emette tutti i record per Amazon MSK oltre ai seguenti:
Parametro | Unità | Descrizione | Livello | Note per l'utilizzo |
---|---|---|---|---|
currentoffsets |
N/D | L'offset di lettura corrente del consumer, per ogni partizione. Il parametro di una particolare partizione può essere specificato in base al nome dell'argomento e all'ID della partizione. | Applicazione (per argomento), parallelismo (per) PartitionId | |
commitsFailed |
N/D | Il numero totale di errori di commit di offset su Kafka, se il commit di offset e la creazione di checkpoint sono abilitati. | Applicazione, operatore, attività, parallelismo | Restituire le compensazioni a Kafka è solo un modo per esporre i progressi dei consumer, quindi un errore di commit non pregiudica l'integrità degli offset delle partizioni bloccati di Flink. |
commitsSucceeded |
N/D | Il numero totale di commit di offset riusciti verso Kafka, se il commit di offset e la creazione di checkpoint sono abilitati. | Applicazione, operatore, attività, parallelismo | |
committedoffsets |
N/D | Gli ultimi offset eseguiti con successo su Kafka, per ogni partizione. Il parametro di una particolare partizione può essere specificato in base al nome dell'argomento e all'ID della partizione. | Applicazione (per argomento), parallelismo (per) PartitionId | |
records_lag_max |
Conteggio | Il ritardo massimo in termini di numero di record per ogni partizione in questa finestra | Applicazione, operatore, attività, parallelismo | |
bytes_consumed_rate |
Byte | Il numero medio di byte consumati al secondo per un argomento | Applicazione, operatore, attività, parallelismo |
Metriche di Apache Zeppelin
Per i notebook Studio, AWS emette le seguenti metriche a livello di applicazione:,,,, e. KPUs
cpuUtilization
heapMemoryUtilization
oldGenerationGCTime
oldGenerationGCCount
threadCount
Inoltre, genera i parametri mostrati nella tabella seguente, anche a livello di applicazione.
Parametro | Unità | Descrizione | Nome Prometheus |
---|---|---|---|
zeppelinCpuUtilization |
Percentuale | Percentuale complessiva di CPU utilizzo nel server Apache Zeppelin. | process_cpu_usage |
zeppelinHeapMemoryUtilization |
Percentuale | Percentuale complessiva di utilizzo della memoria heap per il server Apache Zeppelin. | jvm_memory_used_bytes |
zeppelinThreadCount |
Conteggio | Il numero totale di thread live utilizzati dal server Apache Zeppelin. | jvm_threads_live_threads |
zeppelinWaitingJobs |
Conteggio | Il numero di processi di Apache Zeppelin in coda in attesa di un thread. | jetty_threads_jobs |
zeppelinServerUptime |
Secondi | Il tempo totale in cui il server è stato attivo e in funzione. | process_uptime_seconds |