Amazon S3 metadati del documento

Modalità Focus

Amazon S3 metadati del documento - Amazon Kendra

È possibile aggiungere metadati, informazioni aggiuntive su un documento, ai documenti contenuti in un Amazon S3 bucket utilizzando un file di metadati. Ogni file di metadati è associato a un documento indicizzato.

I file di metadati devono essere archiviati nello stesso bucket dei file indicizzati. Puoi specificare una posizione all'interno del bucket per i tuoi file di metadati utilizzando la console o il S3Prefix campo del DocumentsMetadataConfiguration parametro quando crei un'origine dati. Amazon S3 Se non specificate un Amazon S3 prefisso, i file di metadati devono essere archiviati nella stessa posizione dei documenti indicizzati.

Se specificate un Amazon S3 prefisso per i file di metadati, questi si trovano in una struttura di directory parallela ai documenti indicizzati. Amazon Kendra cerca i tuoi metadati solo nella directory specificata. Se i metadati non vengono letti, verifica che la posizione della directory corrisponda alla posizione dei metadati.

Gli esempi seguenti mostrano come la posizione del documento indicizzato sia mappata alla posizione del file di metadati. Nota che la Amazon S3 chiave del documento viene aggiunta al Amazon S3 prefisso dei metadati e quindi dotata del suffisso per formare il percorso del file di metadati.metadata.json. Amazon S3 La Amazon S3 chiave combinata, con il Amazon S3 prefisso e il .metadata.json suffisso dei metadati, non deve superare un totale di 1024 caratteri. Si consiglia di mantenere la Amazon S3 chiave al di sotto dei 1000 caratteri per tenere conto dei caratteri aggiuntivi quando si combina la chiave con il prefisso e il suffisso.


Bucket name:
     s3://bucketName
Document path:
     documents
Metadata path:
     none
File mapping
     s3://bucketName/documents/file.txt -> 
        s3://bucketName/documents/file.txt.metadata.json


Bucket name:
     s3://bucketName
Document path:
     documents/legal
Metadata path:
     metadata
File mapping
     s3://bucketName/documents/legal/file.txt -> 
        s3://bucketName/metadata/documents/legal/file.txt.metadata.json

I metadati del documento sono definiti in un file JSON. Il file deve essere un file di testo UTF-8 senza un marcatore BOM. Il nome del file JSON deve essere. <document>.<extension>.metadata.json In questo esempio, «documento» è il nome del documento a cui si applicano i metadati e «estensione» è l'estensione del file del documento. L'ID del documento deve essere univoco in<document>.<extension>.metadata.json.

Il contenuto del file JSON segue questo modello. Tutti gli attributi/campi sono opzionali, quindi non è necessario includere tutti gli attributi. È necessario fornire un valore per ogni attributo che si desidera includere; il valore non può essere vuoto. Se non specifichi il_source_uri, i link restituiti da Amazon Kendra nei risultati della ricerca rimandano al Amazon S3 bucket che contiene il documento. DocumentIdè mappato sul campo s3_document_id ed è il percorso assoluto del documento in S3.


{
    "DocumentId": "S3 document ID, the S3 path to doc",
    "Attributes": {
        "_category": "document category",
        "_created_at": "ISO 8601 encoded string",
        "_last_updated_at": "ISO 8601 encoded string",
        "_source_uri": "document URI",
        "_version": "file version",
        "_view_count": number of times document has been viewed,
        "custom attribute key": "custom attribute value",
        additional custom attributes
    },
    "AccessControlList": [
         {
             "Name": "user name",
             "Type": "GROUP | USER",
             "Access": "ALLOW | DENY"
         }
    ],
    "Title": "document title",
    "ContentType": "For example HTML | PDF. For supported content types, see Types of documents."
}

I campi _created_at e _last_updated_at i metadati sono date codificate ISO 8601. Ad esempio, 2012-03-25T 12:30:10 + 01:00 è il formato data-ora ISO 8601 per il 25 marzo 2012 alle 12:30 (più 10 secondi) nel fuso orario dell'Europa centrale.

È possibile aggiungere informazioni aggiuntive al Attributes campo relativo a un documento utilizzato per filtrare le interrogazioni o raggruppare le risposte alle interrogazioni. Per ulteriori informazioni, consulta Creazione di campi di documento personalizzati.

È possibile utilizzare il AccessControlList campo per filtrare la risposta di una query. In questo modo, solo determinati utenti e gruppi hanno accesso ai documenti. Per ulteriori informazioni, consulta Filtraggio in base al contesto dell'utente.