Consultas em janelas - Guia do desenvolvedor do Amazon Kinesis Data Analytics SQL para aplicativos

Para novos projetos, recomendamos que você use o novo Managed Service para Apache Flink Studio em vez do Kinesis Data Analytics for Applications. SQL O Managed Service for Apache Flink Studio combina facilidade de uso com recursos analíticos avançados, permitindo que você crie aplicativos sofisticados de processamento de stream em minutos.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Consultas em janelas

As consultas SQL no código de aplicativo são executadas continuamente em streams no aplicativo. Um fluxo no aplicativo representa dados não vinculados que fluem continuamente pelo aplicativo. Portanto, para que os conjuntos de resultados desta entrada sejam continuamente atualizados, as consultas são frequentemente vinculadas usando uma janela definida em termos de tempo ou linhas. Elas são também chamadas de SQL em janelas.

Para obter uma consulta em janelas baseada em horário, especifique o tamanho da janela em termos de tempo (por exemplo, uma janela de um minuto). Isso requer uma coluna de time stamp no fluxo no aplicativo que aumente monotonicamente. (O time stamp de uma nova linha é maior ou igual ao da linha anterior.) O Amazon Kinesis Data Analytics fornece uma coluna de time stamp chamada ROWTIME para cada stream de aplicativo. É possível usar essa coluna especificando consultas baseadas em tempo. Para o seu aplicativo, escolha outra opção de time stamp. Para ter mais informações, consulte Time stamps e a coluna ROWTIME.

Para obter uma consulta em janela baseada em linha, especifique o tamanho da janela em termos do número de linhas.

É possível especificar uma consulta para processar registros em uma janela em cascata, janela deslizante ou janela de escalonar, dependendo das necessidades do aplicativo. O Kinesis Data Analytics é compatível com os seguintes tipos de janela:

  • Janelas de escalonamento: uma consulta que agrega dados usando janelas baseadas em horário com chave que abre com a chegada dos dados. As chaves permitem várias janelas sobrepostas. Essa é a maneira recomendada de agregar dados usando janelas baseadas em tempo, porque as janelas escalonadas reduzem os atrasos ou os out-of-order dados em comparação com as janelas Tumbling.

  • Janelas em cascata: uma consulta que agrega dados usando diferentes janelas baseadas em horário que abrem e fecham em intervalos regulares

  • Janelas deslizantes: uma consulta que agrega dados continuamente, usando um horário fixo ou um intervalo de contagem de linhas.