Riepilogo dell'immagine Tassonomia IAB Rilevamento del logo Rilevamento del testo dell'immagine Moderazione dei contenuti Output standard dell'immagine

Immagini

La funzionalità Amazon Bedrock Data Automation (BDA) offre un set completo di output standard per l'elaborazione delle immagini per generare informazioni dettagliate dalle immagini. Puoi utilizzare queste informazioni per abilitare un'ampia gamma di applicazioni e casi d'uso, come la scoperta di contenuti, il posizionamento contestuale degli annunci e la sicurezza del marchio. Ecco una panoramica di ogni tipo di operazione disponibile come parte degli output standard per le immagini:

Riepilogo dell'immagine

Il riepilogo dell'immagine genera una didascalia descrittiva per un'immagine. Per impostazione predefinita, questa funzionalità è abilitata nella configurazione di output standard.

Tassonomia IAB

La classificazione dell'Interactive Advertising Bureau (IAB) applica una tassonomia pubblicitaria standard per classificare i contenuti delle immagini. Per l'anteprima, BDA supporterà 24 categorie di primo livello (L1) e 85 categorie di secondo livello (L2). Per scaricare l'elenco delle categorie IAB supportate da BDA, fai clic qui.

Rilevamento del logo

Questa funzione identifica i loghi in un'immagine e fornisce informazioni sui riquadri di delimitazione, indicando le coordinate di ogni logo rilevato all'interno dell'immagine e i punteggi di affidabilità. Questa funzionalità non è abilitata per impostazione predefinita.

Rilevamento del testo dell'immagine

Questa funzione rileva ed estrae il testo che appare visivamente in un'immagine e fornisce informazioni sul riquadro di delimitazione, indicando le coordinate di ogni elemento di testo rilevato all'interno dell'immagine e i punteggi di confidenza. Per impostazione predefinita, questa funzionalità è abilitata nella configurazione di output standard.

Moderazione dei contenuti

La moderazione dei contenuti rileva contenuti inappropriati, indesiderati o offensivi in un'immagine. In anteprima, BDA supporterà 7 categorie di moderazione: nudità esplicita e non esplicita delle parti intime e baci, costumi da bagno o biancheria intima, violenza, droghe e tabacco, alcol, simboli di odio. Il testo esplicito nelle immagini non è contrassegnato.

I riquadri di delimitazione e i relativi punteggi di confidenza possono essere abilitati o disabilitati per funzioni pertinenti come il rilevamento del testo per fornire le coordinate della posizione nell'immagine. Per impostazione predefinita, il riepilogo dell'immagine e il rilevamento del testo dell'immagine sono abilitati.

Output standard dell'immagine

Di seguito è riportato un esempio di output standard per un'immagine elaborata tramite BDA:


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},
"image": {
    "summary": "Lively party scene with decorations and supplies",
    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],
    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ],
    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        {
            "id": "word_2",
            "text": "party",
            "confidence": 0.85,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 160,
                        "top": 200,
                        "width": 70,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 160, "y": 200},
                        {"x": 230, "y": 200},
                        {"x": 230, "y": 220},
                        {"x": 160, "y": 220}
                    ]
                }
            ]
        }
    ],
    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},
"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Questo output include:

Metadati delle immagini
Riepilogo delle immagini
Categorizzazione IAB
Risultati della moderazione dei contenuti
Testo rilevato con informazioni a livello di parola e riga
Riquadri di delimitazione e poligoni per le posizioni del testo
Statistiche sui contenuti analizzati

Restrizioni all'elaborazione delle immagini BDA

BDA supporta immagini nei formati di file JPEG e PNG. La dimensione massima del file di un'immagine è di 5 MB e la risoluzione massima è di 8k.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Video

Audio