Arquivos de manifesto de entrada
Cada linha em um arquivo de manifesto de entrada é uma entrada contendo um objeto, ou uma referência a um objeto, para rotular. Uma entrada também pode conter rótulos de trabalhos anteriores e, para alguns tipos de trabalhos, informações adicionais.
Os dados de entrada e o arquivo de manifesto devem ser armazenados no Amazon Simple Storage Service (Amazon S3). Cada um tem requisitos específicos de armazenamento e acesso, conforme indicado a seguir.
-
O bucket do Amazon S3 que contém os dados de entrada deve estar na mesma região da AWS em que você está executando o Amazon SageMaker Ground Truth. Você deve conceder ao Amazon SageMaker acesso aos dados armazenados no bucket do Amazon S3 para que ele possa lê-los. Para obter mais informações sobre buckets do Amazon S3, consulte Como trabalhar com buckets do Amazon S3.
-
O arquivo de manifesto deve estar na mesma região da AWS que os arquivos de dados, mas não precisa estar no mesmo local que os arquivos de dados. Ele pode ser armazenado em qualquer bucket do Amazon S3 que seja acessível à função do (IAM) AWS Identity and Access Management que você atribuiu ao Ground Truth quando criou o trabalho de rotulagem.
nota
Os tipos de tarefas de nuvem de pontos 3D e quadro de vídeo têm requisitos e atributos de manifesto de entrada diferentes.
Para tipos de tarefas de nuvem de pontos 3D, consulte Arquivos manifesto de entrada para trabalhos de rotulagem de nuvem de pontos 3D.
Para tipos de tarefas de quadro de vídeo, consulte Criar um arquivo manifesto de entrada de quadros de vídeo.
O manifesto é um arquivo codificado em UTF-8 em que cada linha é um objeto JSON completo e válido. Cada linha é delimitada por uma quebra de linha padrão, \n ou \r\n. Como cada linha deve ser um objeto JSON válido, não é possível ter caracteres de quebra de linha sem escape. Para obter mais informações sobre o formato de dados, consulte Linhas JSON
Cada objeto JSON no arquivo de manifesto não pode ter mais de 100.000 caracteres. Nenhum atributo único dentro de um objeto pode ter mais de 20.000 caracteres. Os nomes de atributo não podem começar com $
(cifrão).
Cada objeto JSON no arquivo manifesto deve conter uma das seguintes chaves: source-ref
ou source
. O valor das chaves é interpretado da seguinte forma:
-
source-ref
: a origem do objeto é o objeto do Amazon S3 especificado no valor. Use esse valor quando o objeto for um objeto binário, como uma imagem. -
source
: a origem do objeto é o valor. Use esse valor quando o objeto for um valor de texto.
Veja a seguir um exemplo de arquivo de manifesto para arquivos armazenados em um bucket do Amazon S3.
{"source-ref": "
S3 bucket location 1
"} {"source-ref": "S3 bucket location 2
"} ... {"source-ref": "S3 bucket location n
"}
Use a chave source-ref
para arquivos de imagem para caixa delimitadora, classificação de imagem (rótulo único e múltiplo) e segmentação semântica e videoclipes para trabalhos de rotulagem de classificação de vídeo. Os trabalhos de rotulagem de nuvem de pontos 3D e quadros de vídeo também usam a source-ref
chave, mas esses trabalhos de rotulagem exigem informações adicionais no arquivo manifesto de entrada. Para obter mais informações, consulte Dados de entrada da nuvem de pontos 3D e Dados de entrada do quadro de vídeo.
Veja a seguir um exemplo de arquivo manifesto com os dados de entrada armazenados no manifesto:
{"source": "
Lorem ipsum dolor sit amet
"} {"source": "consectetur adipiscing elit
"} ... {"source": "mollit anim id est laborum
"}
Use a chave source
para trabalhos de rotulagem de classificação de texto de rótulo único e múltiplo e reconhecimento de entidades nomeadas.
Você pode incluir outros pares de chave/valor no arquivo manifesto. Esses pares são transmitidos inalterados ao arquivo de saída. Isso é útil quando você deseja transmitir informações entre suas aplicações. Para obter mais informações, consulte Rotulando dados de saída do trabalho.