Imagens - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Imagens

O recurso Amazon Bedrock Data Automation (BDA) oferece um conjunto abrangente de saídas padrão para processamento de imagens para gerar insights a partir de suas imagens. Você pode usar esses insights para habilitar uma ampla variedade de aplicativos e casos de uso, como descoberta de conteúdo, posicionamento contextual de anúncios e segurança da marca. Aqui está uma visão geral de cada tipo de operação disponível como parte das saídas padrão para imagens:

Resumo da imagem

O resumo da imagem gera uma legenda descritiva para uma imagem. Esse recurso é habilitado na configuração de saída padrão por padrão.

Taxonomia do IAB

A classificação do Interactive Advertising Bureau (IAB) aplica uma taxonomia de publicidade padrão para classificar o conteúdo da imagem. Para o Preview, o BDA suportará 24 categorias de nível superior (L1) e 85 categorias de segundo nível (L2). Para baixar a lista de categorias do IAB suportadas pelo BDA, clique aqui.

Detecção de logotipo

Esse recurso identifica logotipos em uma imagem e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada logotipo detectado na imagem e as pontuações de confiança. Esse recurso não está habilitado por padrão.

Detecção de texto de imagem

Esse recurso detecta e extrai o texto que aparece visualmente em uma imagem e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada elemento de texto detectado na imagem e as pontuações de confiança. Esse recurso é habilitado na configuração de saída padrão por padrão.

Moderação de conteúdo

A moderação de conteúdo detecta conteúdo impróprio, indesejado ou ofensivo em uma imagem. Para o Preview, o BDA suportará 7 categorias de moderação: nudez explícita e não explícita de partes íntimas e beijos, roupas de banho ou roupas íntimas, violência, drogas e tabaco, álcool e símbolos de ódio. O texto explícito nas imagens não é sinalizado.

As caixas delimitadoras e as pontuações de confiança associadas podem ser ativadas ou desativadas para recursos relevantes, como detecção de texto, para fornecer coordenadas de localização na imagem. Por padrão, o resumo da imagem e a detecção de texto da imagem estão ativados.

Saída padrão de imagem

Veja a seguir um exemplo de uma saída padrão para uma imagem processada por meio do BDA:

{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" }, "image": { "summary": "Lively party scene with decorations and supplies", "iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ], "content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], "text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, { "id": "word_2", "text": "party", "confidence": 0.85, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 160, "top": 200, "width": 70, "height": 20 }, "polygon": [ {"x": 160, "y": 200}, {"x": 230, "y": 200}, {"x": 230, "y": 220}, {"x": 160, "y": 220} ] } ] } ], "text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] }, "statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }

Essa saída inclui:

  • Metadados da imagem

  • Resumo da imagem

  • Categorização do IAB

  • Resultados da moderação de conteúdo

  • Texto detectado com informações em nível de palavra e linha

  • Caixas delimitadoras e polígonos para localizações de texto

  • Estatísticas sobre o conteúdo analisado

Restrições de processamento de imagens do BDA

O BDA suporta imagens nos formatos de arquivo JPEG e PNG. O tamanho máximo do arquivo de uma imagem é 5 MB e a resolução máxima é 8k.