Resumo da imagem Taxonomia do IAB Detecção de logotipo Detecção de texto de imagem Moderação de conteúdo Saída padrão de imagem

Imagens

O recurso Amazon Bedrock Data Automation (BDA) oferece um conjunto abrangente de saídas padrão para processamento de imagens para gerar insights a partir de suas imagens. Você pode usar esses insights para habilitar uma ampla variedade de aplicativos e casos de uso, como descoberta de conteúdo, posicionamento contextual de anúncios e segurança da marca. Aqui está uma visão geral de cada tipo de operação disponível como parte das saídas padrão para imagens:

Resumo da imagem

O resumo da imagem gera uma legenda descritiva para uma imagem. Esse recurso é habilitado na configuração de saída padrão por padrão.

Taxonomia do IAB

A classificação do Interactive Advertising Bureau (IAB) aplica uma taxonomia de publicidade padrão para classificar o conteúdo da imagem. Para o Preview, o BDA suportará 24 categorias de nível superior (L1) e 85 categorias de segundo nível (L2). Para baixar a lista de categorias do IAB suportadas pelo BDA, clique aqui.

Detecção de logotipo

Esse recurso identifica logotipos em uma imagem e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada logotipo detectado na imagem e as pontuações de confiança. Esse recurso não está habilitado por padrão.

Detecção de texto de imagem

Esse recurso detecta e extrai o texto que aparece visualmente em uma imagem e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada elemento de texto detectado na imagem e as pontuações de confiança. Esse recurso é habilitado na configuração de saída padrão por padrão.

Moderação de conteúdo

A moderação de conteúdo detecta conteúdo impróprio, indesejado ou ofensivo em uma imagem. Para o Preview, o BDA suportará 7 categorias de moderação: nudez explícita e não explícita de partes íntimas e beijos, roupas de banho ou roupas íntimas, violência, drogas e tabaco, álcool e símbolos de ódio. O texto explícito nas imagens não é sinalizado.

As caixas delimitadoras e as pontuações de confiança associadas podem ser ativadas ou desativadas para recursos relevantes, como detecção de texto, para fornecer coordenadas de localização na imagem. Por padrão, o resumo da imagem e a detecção de texto da imagem estão ativados.

Saída padrão de imagem

Veja a seguir um exemplo de uma saída padrão para uma imagem processada por meio do BDA:


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},
"image": {
    "summary": "Lively party scene with decorations and supplies",
    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],
    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ],
    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        {
            "id": "word_2",
            "text": "party",
            "confidence": 0.85,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 160,
                        "top": 200,
                        "width": 70,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 160, "y": 200},
                        {"x": 230, "y": 200},
                        {"x": 230, "y": 220},
                        {"x": 160, "y": 220}
                    ]
                }
            ]
        }
    ],
    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},
"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Essa saída inclui:

Metadados da imagem
Resumo da imagem
Categorização do IAB
Resultados da moderação de conteúdo
Texto detectado com informações em nível de palavra e linha
Caixas delimitadoras e polígonos para localizações de texto
Estatísticas sobre o conteúdo analisado

Restrições de processamento de imagens do BDA

O BDA suporta imagens nos formatos de arquivo JPEG e PNG. O tamanho máximo do arquivo de uma imagem é 5 MB e a resolução máxima é 8k.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Vídeos

Áudio