Importação de conjuntos de dados - Amazon Forecast

O Amazon Forecast não está mais disponível para novos clientes. Os clientes existentes do Amazon Forecast podem continuar usando o serviço normalmente. Saiba mais

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Importação de conjuntos de dados

Os conjuntos de dados contêm os dados usados para treinar um preditor. Crie um ou mais conjuntos de dados do Amazon Forecast e importe os dados de treinamento para eles. Um grupo de conjuntos de dados é uma coleção de conjuntos de dados complementares que detalham um conjunto de alterações de parâmetros ao longo de uma série temporal. Depois de criar um grupo de conjuntos de dados, você o usará para treinar um preditor.

Cada grupo de conjuntos de dados pode ter até três conjuntos de dados, um de cada tipo de conjunto de dados: séries temporais de destino, séries temporais relacionadas e metadados de itens.

Para criar e gerenciar conjuntos de dados e grupos de conjuntos de dados do Forecast, você pode usar o console Forecast, AWS Command Line Interface (AWS CLI) ou. AWS SDK

Por exemplo, conjuntos de dados do Forecast, consulte o GitHubrepositório Amazon Forecast Sample.

Conjuntos de dados

Para criar e gerenciar conjuntos de dados do Forecast, você pode usar o ForecastAPIs, incluindo as DescribeDataset operações CreateDataset e. Para obter uma lista completa do ForecastAPIs, consulteAPIReferência.

Ao criar um conjunto de dados, você fornece informações, como as seguintes:

  • A frequência ou o intervalo em que você registrou dados. Por exemplo, você pode agregar e registrar vendas de itens de varejo toda semana. No exercício Conceitos básicos, use a eletricidade média usada por hora.

  • O formato de previsão (o domínio) e o tipo de conjunto de dados (dentro do domínio). Um domínio de conjunto de dados especifica qual tipo de previsão você gostaria de executar, enquanto um tipo de conjunto de dados ajuda você a organizar os dados de treinamento em categorias intuitivas para o Forecast.

  • O esquema do conjunto de dados. Um esquema mapeia os cabeçalhos da coluna do conjunto de dados. Por exemplo, ao monitorar a demanda, você pode ter coletado dados por hora sobre as vendas de um item em várias lojas. Nesse caso, o esquema define a ordem, da esquerda para a direita, em que o time stamp, o local e as vendas por hora aparecem no arquivo de dados de treinamento. Os esquemas também definem o tipo de dados de cada coluna, como string ou integer.

  • Informações sobre geolocalização e fuso horário. O atributo de geolocalização é definido no esquema com o tipo de atributo geolocation. As informações de fuso horário são definidas com a CreateDatasetImportJoboperação. Os dados de geolocalização e fuso horário devem ser incluídos para habilitar o Weather Index.

Cada coluna no conjunto de dados do Forecast representa uma dimension ou feature da previsão. As dimensões de previsão descrevem os aspectos dos dados que não mudam ao longo do tempo, tal como store ou location. Os recursos de previsão incluem qualquer parâmetro em nos dados que variam ao longo do tempo, como price ou promotion. Algumas dimensões, como timestamp ou itemId, são necessárias em conjuntos de dados de séries temporais de destino e de séries temporais relacionadas.

Domínios e tipos de conjunto de dados

Ao criar um conjunto de dados do Forecast, você escolhe um domínio e um tipo de conjunto de dados. O Forecast fornece domínios para vários casos de uso, como previsão de demanda de varejo ou tráfego da web. Também é possível criar um domínio personalizado. Para obter uma lista completa de domínios do Forecast, consulte Domínios e tipos de conjunto de dados predefinidos.

Em cada domínio, os usuários do Forecast podem especificar os seguintes tipos de conjuntos de dados:

  • Conjunto de dados de séries temporais de destino (obrigatório): use este tipo de conjunto de dados quando os dados de treinamento forem uma série temporal e eles incluírem o campo para o qual você deseja gerar uma previsão. Esse campo é chamado de campo de destino.

  • Conjunto de dados de séries temporais relacionadas (opcional): escolha este tipo de conjunto de dados quando os dados de treinamento forem uma série temporal, mas não incluírem o campo de destino. Por exemplo, se você estiver prevendo a demanda de itens, um conjunto de dados de séries temporais relacionadas pode ter price como um campo, mas não demand.

  • Conjunto de dados de metadados de itens (opcional): escolha este tipo de conjunto de dados quando os dados de treinamento não forem dados de séries temporais, mas incluírem informações de metadados sobre os itens nos conjuntos de dados de séries temporais de destino ou relacionadas. Por exemplo, se você estiver prevendo a demanda do item, um conjunto de dados de metadados de itens pode ter color ou brand como dimensões.

    O Forecast considera somente os dados fornecidos por um tipo de conjunto de dados de metadados do item quando você usa o algoritmo CNN-QR ou DeepAr+.

    Os metadados de itens são especialmente úteis em cenários de previsão coldstart, nos quais você tem poucos dados históricos diretos com os quais fazer previsões, mas tem dados históricos em itens com atributos de metadados semelhantes. Quando você inclui metadados de itens, o Forecast cria previsões coldstart com base em séries temporais semelhantes, o que pode criar uma previsão mais precisa.

Dependendo das informações nos dados de treinamento e do que você deseja prever, é possível criar mais de um conjunto de dados.

Por exemplo, suponha que você deseja gerar uma previsão para a demanda de itens de varejo, como sapatos e meias. Você pode criar os seguintes conjuntos de dados no RETAIL domínio:

  • Conjunto de dados de séries temporais de destino: inclui os dados históricos de demanda de séries temporais para os itens de varejo (item_id, timestamp e o campo de destino demand). Como ele designa o campo de destino que você deseja prever, é necessário ter pelo menos um conjunto de dados de séries temporais de destino em um grupo de conjuntos de dados.

    Também é possível adicionar até dez outras dimensões a um conjunto de dados de séries temporais de destino. Se você incluir somente um conjunto de dados de séries temporais de destino no grupo de conjuntos de dados, poderá criar previsões no nível do item ou somente no nível de granularidade da dimensão da previsão. Para obter mais informações, consulte CreatePredictor.

  • Conjunto de dados de séries temporais relacionadas: inclui dados históricos de séries temporais diferentes do campo de destino, como price ou revenue. Como os dados de séries temporais relacionadas devem ser mapeáveis para os dados de séries temporais de destino, cada conjunto de dados de séries temporais relacionadas deve conter os mesmos campos de identificação. No RETAIL domínio, esses seriam item_id timestamp e.

    Um conjunto de dados de séries temporais relacionadas pode conter dados que refinam as previsões feitas com base no conjunto de dados de séries temporais de destino. Por exemplo, você pode incluir dados price no conjunto de dados de séries temporais relacionadas nas datas futuras para as quais deseja gerar uma previsão. Desta forma, o Forecast pode fazer previsões com uma dimensão adicional de contexto. Para obter mais informações, consulte Usar conjuntos de dados de séries temporais relacionadas.

  • Conjunto de dados de metadados de itens: inclui metadados para os itens de varejo. Outros exemplos de metadados incluem brand, category, color e genre.

Exemplo de conjunto de dados com uma dimensão de previsão

Dando continuidade ao exemplo anterior, imagine que você deseja prever a demanda por sapatos e meias com base nas vendas anteriores de uma loja. No conjunto de dados de séries temporais de destino a seguir, store é uma dimensão de previsão de série temporal, enquanto demand é o campo de destino. As meias são vendidas em duas lojas (NYCeSFO), e os sapatos são vendidos somente emORD.

As três primeiras linhas dessa tabela contêm os primeiros dados de vendas disponíveis para as ORD lojas NYCSFO, e. As últimas três linhas contêm os últimos dados de vendas registrados para cada loja. A linha ... representa todos os dados de vendas de itens registrados entre a primeira e a última entradas.

timestamp item_id store demand
2019-01-01 socks NYC 25
2019-01-05 socks SFO 45
2019-02-01 shoes ORD 10
...
2019-06-01 socks NYC 100
2019-06-05 socks SFO 5
2019-07-01 shoes ORD 50

Esquema do conjunto de dados

Cada conjunto de dados exige um esquema, um JSON mapeamento fornecido pelo usuário dos campos em seus dados de treinamento. É aqui que você lista as dimensões e os recursos obrigatórios e opcionais que deseja incluir no conjunto de dados.

Se seu conjunto de dados incluir um atributo de geolocalização, defina o atributo no esquema com o tipo de atributo geolocation. Para obter mais informações, consulte Como adicionar informações de geolocalização. Para aplicar o Weather Index, você deve incluir um atributo de geolocalização na série temporal de destino e em qualquer conjunto de dados de séries temporais relacionadas.

Alguns domínios têm dimensões opcionais que recomendamos incluir. As dimensões opcionais são listadas nas descrições de cada domínio posteriormente neste guia. Para ver um exemplo, consulte RETAILDomínio. Todas as dimensões opcionais têm o tipo de dados string.

Para cada conjunto de dados, é necessário um esquema. Veja a seguir o esquema que acompanha o exemplo de conjunto de dados de séries temporais de destino acima.

{ "attributes": [ { "AttributeName": "timestamp", "AttributeType": "timestamp" }, { "AttributeName": "item_id", "AttributeType": "string" }, { "AttributeName": "store", "AttributeType": "string" }, { "AttributeName": "demand", "AttributeType": "float" } ] }

Ao fazer upload dos dados de treinamento para o conjunto de dados que usa esse esquema, o Forecast pressupõe que o campo timestamp é a coluna 1, o campo item_id é a coluna 2, o campo store é a coluna 3 e o campo demand, o campo de destino, é a coluna 4.

Para o tipo de conjunto de dados de séries temporais relacionadas, todos os recursos relacionados devem ter um tipo de atributo flutuante ou inteiro. Para o tipo de conjunto de dados de metadados de itens, todos os recursos devem ter um tipo de atributo de string. Para obter mais informações, consulte SchemaAttribute.

nota

Um par attributeName e attributeType é necessário para cada coluna no conjunto de dados. O Forecast reserva vários nomes que não podem ser usados como nome de um atributo de esquema. Para obter a lista de nomes reservados, consulte Nomes de campo reservados.

Grupos de conjuntos de dados

Um grupo de conjuntos de dados é uma coleção de um a três conjuntos de dados complementares, um de cada tipo de conjunto de dados. Importa conjuntos de dados para um grupo de conjuntos de dados e use o grupo de conjuntos de dados para treinar um preditor.

O Forecast inclui as seguintes operações para criar grupos de conjuntos de dados e adicionar conjuntos de dados a eles:

Resolver conflitos na frequência da coleta de dados

O Forecast pode treinar preditores com dados que não se alinham à frequência de dados especificada na operação CreateDataset. Por exemplo, você pode importar dados registrados em intervalos de hora em hora, mesmo que alguns dos dados não tenham carimbo de data e hora no início da hora (02:20, 02:45). O Forecast usa a frequência de dados especificada para aprender sobre seus dados. Em seguida, o Forecast agrega os dados durante o treinamento do preditor. Para obter mais informações, consulte Agregação de dados para diferentes frequências de previsão.