Não estamos mais atualizando o serviço Amazon Machine Learning nem aceitando novos usuários para ele. Essa documentação está disponível para usuários existentes, mas não estamos mais atualizando-a. Para obter mais informações, consulte O que é o Amazon Machine Learning.
As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Noções básicas sobre o formato de dados para Amazon ML
Os dados de entrada são os dados que você usa para criar uma fonte de dados. Você precisa salvar os dados de entrada no formato de valores separados por vírgulas (.csv). Cada linha do arquivo .csv é uma única observação/registro de dados. Cada coluna do arquivo .csv contém um atributo da observação. Por exemplo, a figura a seguir mostra o conteúdo de um arquivo .csv que tem quatro observações, cada uma em sua própria linha. Cada observação contém oito atributos, separados por vírgulas. Os atributos representam as seguintes informações sobre cada indivíduo representado por uma observação: customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign.
Atributos
O Amazon ML requer nomes para cada atributo. Você pode especificar nomes de atributo:
-
Incluindo os nomes de atributo na primeira linha (também chamados de linha de cabeçalho) do arquivo .csv usado como dados de entrada
-
Incluindo os nomes de atributo em um arquivo de esquema separado que está localizado no mesmo bucket do S3 como dados de entrada
Para obter mais informações sobre o uso de arquivos de esquema, consulte Criar um esquema de dados.
O exemplo a seguir de um arquivo .csv inclui os nomes dos atributos na linha de cabeçalho.
customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign 1,3,basic.4y,no,no,1,261,0 2,1,high.school,no,no,22,149,0 3,1,high.school,yes,no,65,226,1 4,2,basic.6y,no,no,1,151,0
Requisitos de formato do arquivo de entrada
O arquivo .csv que contém os dados de entrada precisa atender aos seguintes requisitos:
-
Ser texto sem formatação que use um conjunto de caracteres, como ASCII, Unicode ou EBCDIC.
-
Consistir em observações, uma observação por linha.
-
Para cada observação, os valores de atributo precisam ser separados por vírgulas.
-
Se um valor de atributo contiver uma vírgula (delimitador), todo o valor do atributo precisará estar entre aspas duplas.
-
Cada observação precisa ser encerrada com um caractere de fim de linha, que é um caractere especial ou uma sequência de caracteres que indica o fim de uma linha.
-
Os valores de atributo não podem incluir caracteres de fim de linha, mesmo se o valor do atributo estiver entre aspas duplas.
-
Cada observação precisa ter o mesmo número de atributos e a mesma sequência de atributos.
-
Cada observação não pode ter mais de 100 KB. O Amazon ML rejeita qualquer observação maior que 100 KB durante o processamento. Se o Amazon ML rejeitar mais de 10.000 observações, rejeitará todo o arquivo .csv.
Usar vários arquivos como entrada de dados para o Amazon ML
Você pode fornecer a entrada ao Amazon ML como um único arquivo ou um conjunto de arquivos. As coleções precisam atender a estas condições:
-
Todos os arquivos precisam ter o mesmo esquema de dados.
-
Todos os arquivos devem residir no mesmo prefixo do Amazon Simple Storage Service (Amazon S3), e o caminho fornecido para a coleção deve terminar com uma barra ('/').
Por exemplo, se os arquivos de dados forem nomeados como input1.csv, input2.csv e input3.csv, e o nome do bucket do S3 for s3://examplebucket, os caminhos de arquivo poderão ser assim:
s3://examplebucket/path/to/data/input1.csv
s3://examplebucket/path/to/data/input2.csv
s3://examplebucket/path/to/data/input3.csv
Você deve fornecer o seguinte local do S3 como entrada para o Amazon ML:
's3://examplebucket/path/to/data/'
Caracteres de fim de linha no formato CSV
Quando você cria o arquivo .csv, cada observação é encerrada por um caractere especial de fim de linha. Esse caractere não ficará visível, mas é incluído automaticamente no final de cada observação quando você pressiona a tecla Enter ou Return. O caractere especial que representa o fim de linha varia de acordo com o sistema operacional. Os sistemas Unix, como Linux ou OS X, usam um caractere de avanço de linha que é indicado por "\n" (código ASCII 10 em decimal ou 0x0a em hexadecimal). O Microsoft Windows usa dois caracteres denominados retorno de carro e avanço de linha, que são indicados por "\r\n" (códigos ASCII 13 e 10 em decimal ou 0x0d e 0x0a em hexadecimal).
Se você quiser usar o OS X e o Microsoft Excel para criar o arquivo .csv, execute o procedimento a seguir. Verifique se escolheu o formato correto.
Para salvar um arquivo .csv ao usar o OS X e o Excel
-
Ao salvar o arquivo .csv, escolha Format (Formato) e, em seguida, escolha Windows Comma Separated (.csv) (Separado por vírgulas do Windows (.csv)).
-
Escolha Save (Salvar).
Importante
Não salve o arquivo .csv usando o formato Valores separados por vírgula (.csv) ou Separados por vírgula no MS-DOS (.csv), senão o Amazon ML não conseguirá ler.