Dados de séries temporais - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Dados de séries temporais

Os dados de séries temporais referem-se aos dados que podem ser carregados em um quadro de dados tridimensional. No quadro, em cada timestamp, cada linha representa um registro de destino e cada registro de destino tem uma ou mais colunas relacionadas. Os valores em cada célula do quadro de dados podem ser de tipos de dados numéricos, categóricos ou de texto.

Pré-requisitos do conjunto de dados de séries temporais

Antes da análise, conclua as etapas de pré-processamento necessárias para preparar seus dados, como limpeza de dados ou engenharia de recursos. Você pode fornecer um ou vários conjuntos de dados. Se você fornecer vários conjuntos de dados, use um dos métodos a seguir para fornecê-los à tarefa de processamento do SageMaker Clarify:

  • Use uma configuração ProcessingInputnomeada dataset ou de análise dataset_uri para especificar o conjunto de dados principal. Para obter mais informações sobredataset_uri, consulte a lista de parâmetros emConfigurar a análise.

  • Use o parâmetro baseline fornecido no arquivo de configuração da análise. O conjunto de dados de linha de base é necessário parastatic_covariates, se presente. Para obter mais informações sobre o arquivo de configuração de análise, incluindo exemplos, consulteConfigurar a análise.

A tabela a seguir lista os formatos de dados suportados, suas extensões de arquivo e MIME tipos.

Formato de dados Extensão de arquivo MIMEdigitar

item_records

json

application/json

timestamp_records

json

application/json

columns

json

application/json

JSONé um formato flexível que pode representar qualquer nível de complexidade em seus dados estruturados. Conforme mostrado na tabela, o SageMaker Clarify oferece suporte aos formatos item_recordstimestamp_records, columns e.

Exemplos de configuração de conjuntos de dados de séries temporais

Esta seção mostra como definir uma configuração de análise usando dados time_series_data_config de séries temporais em JSON formato. Suponha que você tenha um conjunto de dados com dois itens, cada um com um carimbo de data/hora (t), uma série temporal alvo (x), duas séries temporais relacionadas (r) e duas covariáveis estáticas (u) da seguinte forma:

t 1 = [0,1,2], t 2 = [2,3]

x 1 = [5,6,4], x 2 = [0,4]

r 1 = [0,1,0], r 2 1 = [1,1]

r 1 2 = [0,0,0], r 2 2 = [1,0]

u 1 1 = -1, u 2 1 = 0

u 1 2 = 1, u 2 2 = 2

Você pode codificar o conjunto de dados usando de três time_series_data_config maneiras diferentes, dependendo de. dataset_format As seções a seguir descrevem cada método.

Configuração de dados da série temporal quando é dataset_formatcolumns

O exemplo a seguir usa o columns valor paradataset_format. O JSON arquivo a seguir representa o conjunto de dados anterior.

{ "ids": [1, 1, 1, 2, 2], "timestamps": [0, 1, 2, 2, 3], # t "target_ts": [5, 6, 4, 0, 4], # x "rts1": [0, 1, 0, 1, 1], # r1 "rts2": [0, 0, 0, 1, 0], # r2 "scv1": [-1, -1, -1, 0, 0], # u1 "scv2": [1, 1, 1, 2, 2], # u2 }

Observe que os IDs dos itens são repetidos no ids campo. A implementação correta do time_series_data_config é mostrada a seguir:

"time_series_data_config": { "item_id": "ids", "timestamp": "timestamps", "target_time_series": "target_ts", "related_time_series": ["rts1", "rts2"], "static_covariates": ["scv1", "scv2"], "dataset_format": "columns" }

Configuração de dados da série temporal quando é dataset_formatitem_records

O exemplo a seguir usa o item_records valor paradataset_format. O JSON arquivo a seguir representa o conjunto de dados.

[ { "id": 1, "scv1": -1, "scv2": 1, "timeseries": [ {"timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0}, {"timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0}, {"timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0} ] }, { "id": 2, "scv1": 0, "scv2": 2, "timeseries": [ {"timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1}, {"timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0} ] } ]

Cada item é representado como uma entrada separada noJSON. O trecho a seguir mostra o correspondente time_series_data_config (que usaJMESPath).

"time_series_data_config": { "item_id": "[*].id", "timestamp": "[*].timeseries[].timestamp", "target_time_series": "[*].timeseries[].target_ts", "related_time_series": ["[*].timeseries[].rts1", "[*].timeseries[].rts2"], "static_covariates": ["[*].scv1", "[*].scv2"], "dataset_format": "item_records" }

Configuração de dados da série temporal quando é dataset_formattimestamp_record

O exemplo a seguir usa o timestamp_record valor paradataset_format. O JSON arquivo a seguir representa o conjunto de dados anterior.

[ {"id": 1, "timestamp": 0, "target_ts": 5, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 1, "target_ts": 6, "rts1": 1, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 1, "timestamp": 2, "target_ts": 4, "rts1": 0, "rts2": 0, "svc1": -1, "svc2": 1}, {"id": 2, "timestamp": 2, "target_ts": 0, "rts1": 1, "rts2": 1, "svc1": 0, "svc2": 2}, {"id": 2, "timestamp": 3, "target_ts": 4, "rts1": 1, "rts2": 0, "svc1": 0, "svc2": 2}, ]

Cada entrada do JSON representa um único registro de data e hora e corresponde a um único item. A implementação time_series_data_config é mostrada da seguinte forma:

{ "item_id": "[*].id", "timestamp": "[*].timestamp", "target_time_series": "[*].target_ts", "related_time_series": ["[*].rts1"], "static_covariates": ["[*].scv1"], "dataset_format": "timestamp_records" }