Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Documenti
Questa sezione spiega come Amazon Kendra indicizza i numerosi formati di documenti supportati e i diversi campi/attributi dei documenti.
Tipi o formati di documenti
Amazon Kendra supporta i tipi o i formati di documenti più diffusi come PDF Word e altri. HTML PowerPoint Un indice può contenere più formati di documenti.
Amazon Kendra estrae il contenuto all'interno dei documenti per renderli ricercabili. I documenti vengono analizzati in modo da ottimizzare la ricerca sul testo estratto e su qualsiasi contenuto tabulare (HTMLtabelle) all'interno dei documenti. Ciò significa strutturare i documenti in campi o attributi utilizzati per la ricerca. I metadati del documento, come la data dell'ultima modifica, possono essere campi utili per la ricerca.
I documenti possono essere organizzati in righe e colonne. Ad esempio, ogni documento è una riga e ogni campo/attributo del documento, come il titolo e il contenuto del corpo, è una colonna. Ad esempio, se si utilizza un database come fonte di dati, i dati devono essere strutturati o organizzati in righe e colonne.
Puoi aggiungere documenti all'indice nei seguenti modi:
Se desideri aggiungere un FAQ file, usi il CreateFaqAPIper aggiungere il file archiviato in un Amazon S3 bucket. Puoi scegliere tra un CSV formato di base, un CSV formato che include campi/attributi personalizzati in un'intestazione e un JSON formato che include campi personalizzati. Il formato predefinito è di base. CSV
Di seguito vengono fornite informazioni su ogni formato di documento supportato e su come viene Amazon Kendra trattato ogni formato durante l'indicizzazione dei documenti.
Formato del documento | Trattata come | Come viene trattato il documento | Struttura originale |
---|---|---|---|
Formato di documento portatile (PDF) | HTML | Convertito inHTML, quindi il contenuto viene estratto. | Non strutturato |
HyperText Linguaggio di markup () HTML | HTML | HTMLi tag vengono filtrati per estrarre il contenuto. Il contenuto deve essere compreso tra i tag di HTML inizio e di chiusura principali (<HTML>content</HTML> ). |
Semistrutturato |
Linguaggio di markup estensibile () XML | XML | XMLi tag vengono filtrati per estrarre il contenuto. | Semistrutturato |
Trasformazione del linguaggio dei fogli di stile estensibili () XSLT | XSLT | I tag vengono filtrati per estrarre il contenuto. | Semistrutturato |
MarkDown (MD) | Testo semplice | Il contenuto viene estratto con la MarkDown sintassi inclusa. | Semistrutturato |
Valori separati da virgole () CSV | CSV | Contenuto estratto da ogni cella, con un singolo file trattato come risultato di un unico documento. | Strutturato per FAQ i file, altrimenti semistrutturato |
Microsoft Excel (XLSeXLSX) | XLS e XLSX | Contenuto estratto da ogni cella, con un singolo file trattato come risultato di un unico documento. | Semi-strutturato |
JavaScript Notazione degli oggetti () JSON | Testo semplice | Il contenuto viene estratto con la JSON sintassi inclusa. | Semistrutturato |
Formato RTF () RTF | RTF | RTFla sintassi viene filtrata per estrarre il contenuto. | Semistrutturato |
Microsoft PowerPoint (PPT) | PPT, PPTX | Solo il contenuto testuale viene estratto dalle PowerPoint diapositive per la ricerca. Le immagini e gli altri contenuti non vengono estratti. | Non strutturato |
Microsoft Word | DOC, DOCX | Solo il contenuto testuale viene estratto dalle pagine di Word per la ricerca. Le immagini e gli altri contenuti non vengono estratti. | Non strutturato |
Testo semplice () TXT | TXT | Tutto il testo del documento di testo viene estratto. | Non strutturato |
Attributi o campi del documento
A un documento sono associati attributi o campi. I campi di un documento sono le proprietà di un documento o ciò che è contenuto nella struttura di un documento. Ad esempio, ogni documento potrebbe contenere titolo, corpo del testo e autore. Puoi anche aggiungere campi personalizzati per documenti specifici. Ad esempio, se nell'indice vengono ricercate documenti fiscali, è possibile specificare un campo personalizzato per il tipo di documento fiscale, ad esempio W-2, 1099 e così via.
Prima di poter utilizzare un campo di documento in una query, è necessario mapparlo a un campo indice. Ad esempio, il campo del titolo può essere mappato al campo. _document_title
Per ulteriori informazioni, vedere Mappatura dei campi. Per aggiungere un nuovo campo, devi creare un campo indice a cui mappare il campo. È possibile creare campi indice utilizzando la console o utilizzando UpdateIndexAPI.
È possibile utilizzare i campi del documento per filtrare le risposte e creare risultati di ricerca sfaccettati. Ad esempio, puoi filtrare una risposta per restituire solo una versione specifica di un documento oppure puoi filtrare le ricerche per restituire solo 1099 tipi di documenti fiscali che corrispondono al termine di ricerca. Per ulteriori informazioni, consulta Filtraggio e ricerca sfaccettata.
Puoi anche utilizzare i campi del documento per ottimizzare manualmente la risposta alla query. Ad esempio, puoi scegliere di aumentare l'importanza del campo del titolo per aumentare il peso che viene Amazon Kendra assegnato al campo nel determinare quali documenti restituire nella risposta. Per ulteriori informazioni, consulta Ottimizzazione della pertinenza della ricerca.
Se si aggiunge un documento direttamente a un indice, si specificano i campi del parametro di input del documento su. BatchPutDocumentAPI Si specificano i valori dei campi personalizzati in una matrice di DocumentAttributeoggetti. Se si utilizza un'origine dati, il metodo utilizzato per aggiungere i campi del documento dipende dall'origine dati. Per ulteriori informazioni, consulta la sezione Mappatura dei campi di origine dei dati.
Utilizzo di campi di documento Amazon Kendra riservati o comuni
Con UpdateIndex API, è possibile creare campi riservati o comuni utilizzando DocumentMetadataConfigurationUpdates
e specificando il nome del campo indice Amazon Kendra
riservato da mappare all'attributo/nome di campo equivalente del documento. Puoi anche creare campi personalizzati. Se utilizzi un connettore di origine dati, la maggior parte include mappature di campi che mappano i campi del documento di origine dati ai campi Amazon Kendra indice. Se utilizzi la console, aggiorni i campi selezionando l'origine dati, selezionando l'azione di modifica e quindi procedendo accanto alla sezione delle mappature dei campi per configurare l'origine dati.
Puoi configurare l'Search
oggetto per impostare un campo come visualizzabile, personalizzabile, ricercabile e ordinabile. È possibile configurare l'Relevance
oggetto in modo da impostare l'ordine di classificazione, la durata dell'incremento o il periodo di tempo di un campo da applicare al valore di potenziamento, freschezza, importanza e ai valori di importanza mappati a valori di campo specifici. Se utilizzi la console, puoi configurare le impostazioni di ricerca per un campo selezionando l'opzione facet nel menu di navigazione. Per impostare l'ottimizzazione della pertinenza, seleziona l'opzione di ricerca nell'indice nel menu di navigazione, inserisci una query e utilizza le opzioni del pannello laterale per ottimizzare la pertinenza della ricerca. Non è possibile modificare il tipo di campo dopo averlo creato.
Amazon Kendra contiene i seguenti campi di documento riservati o comuni che è possibile utilizzare:
-
_authors
—Un elenco di uno o più autori responsabili del contenuto del documento. -
_category
—Una categoria che colloca un documento in un gruppo specifico. -
_created_at
—La data e l'ora in formato ISO 8601 in cui è stato creato il documento. Ad esempio, 2012-03-25T 12:30:10 + 01:00 è il formato data-ora ISO 8601 per il 25 marzo 2012 alle 12:30 (più 10 secondi) nell'ora dell'Europa centrale. -
_data_source_id
: l'identificatore dell'origine dati che contiene il documento. -
_document_body
—Il contenuto del documento. -
_document_id
—Un identificatore univoco per il documento. -
_document_title
—Il titolo del documento. -
_excerpt_page_number
—Il numero di pagina in un PDF file in cui viene visualizzato l'estratto del documento. Se l'indice è stato creato prima dell'8 settembre 2020, è necessario reindicizzare i documenti prima di poter utilizzare questo attributo. -
_faq_id
—Se si tratta di un documento di tipo domanda-risposta (FAQ), un identificatore univoco per. FAQ -
_file_type
—Il tipo di file del documento, ad esempio pdf o doc. -
_last_updated_at
—La data e l'ora in formato ISO 8601 dell'ultimo aggiornamento del documento. Ad esempio, 2012-03-25T 12:30:10 + 01:00 è il formato data-ora ISO 8601 per il 25 marzo 2012 alle 12:30 (più 10 secondi) nell'ora dell'Europa centrale. -
_source_uri
—Il luogo in cui è disponibile il documento. URI Ad esempio, la visualizzazione URI del documento sul sito Web di un'azienda. -
_version
—Un identificatore per la versione specifica di un documento. -
_view_count
—Il numero di volte in cui il documento è stato visualizzato. -
_language_code
(String) —Il codice per una lingua che si applica al documento. Il valore predefinito è l'inglese se non si specifica una lingua. Per ulteriori informazioni sulle lingue supportate, compresi i relativi codici, consulta Aggiungere documenti in lingue diverse dall'inglese.
Per i campi personalizzati, puoi creare questi campi utilizzando DocumentMetadataConfigurationUpdates
con UpdateIndex
API, proprio come quando crei un campo riservato o comune. È necessario impostare il tipo di dati appropriato per il campo personalizzato. Se utilizzi la console, aggiorni i campi selezionando l'origine dati, selezionando l'azione di modifica e quindi procedendo accanto alla sezione delle mappature dei campi per configurare l'origine dati. Alcune fonti di dati non supportano l'aggiunta di nuovi campi o campi personalizzati. Non è possibile modificare il tipo di campo dopo averlo creato.
Di seguito sono riportati i tipi che è possibile impostare per i campi personalizzati:
-
Data
-
Numero
-
Stringa
-
Elenco stringhe
Se hai aggiunto documenti all'indice utilizzando BatchPutDocumentAPI, Attributes
elenca i campi/gli attributi dei tuoi documenti e crei campi utilizzando l'oggetto. DocumentAttribute
Per i documenti indicizzati da una fonte di Amazon S3 dati, si creano campi utilizzando un file di JSON metadati che include le informazioni sui campi.
Se utilizzi un database supportato come fonte di dati, puoi configurare i campi utilizzando l'opzione di mappatura dei campi.