Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Per aggiungere sinonimi personalizzati a un indice, è necessario specificarli in un file del thesaurus. Nell'uso dei sinonimi è possibile includere termini aziendali specifici o specialistici. Amazon Kendra I sinonimi generici in inglese, ad esempioleader, head
, sono incorporati Amazon Kendra e non devono essere inclusi in un file del thesaurus, compresi i sinonimi generici che utilizzano trattini. Amazon Kendra supporta i sinonimi per tutti i tipi di risposta, che includono i tipi di DOCUMENT
risposta e/o i tipi di risposta. QUESTION_ANSWER
ANSWER
Amazon Kendra attualmente non supporta l'aggiunta di sinonimi contrassegnati come stopword. Questo sarà incluso in una versione futura.
Amazon Kendra crea correlazioni tra sinonimi. Ad esempio, utilizzando la coppia di sinonimiDynamo, Amazon DynamoDB
, Amazon Kendra correla Dynamo con. Amazon DynamoDB La domanda «Cos'è la dinamo?» quindi restituisce un documento come «Che cos'è Amazon DynamoDB?». Con i sinonimi, Amazon Kendra è possibile rilevare più facilmente la correlazione.
Il file del thesaurus è un file di testo memorizzato in un bucket. Amazon S3 Per informazioni, consulta Aggiungere un thesaurus a un indice.
Il file del thesaurus utilizza il formato dei sinonimi Solr.
I sinonimi possono essere utili nei seguenti scenari:
-
Termini specializzati che non sono sinonimi tradizionali della lingua inglese come
NLP, Natural Language Processing
. -
Nomi propri con associazioni semantiche complesse. Si tratta di sostantivi che è improbabile che il grande pubblico comprenda, ad esempio, nell'apprendimento automatico,.
cost, loss, model performance
-
Diverse forme di nomi di prodotto, ad esempio,.
Elastic Compute Cloud, EC2
-
Termini specifici del dominio o dell'azienda, come i nomi dei prodotti. Ad esempio
Route53, DNS
.
Non utilizzare sinonimi nei seguenti scenari:
-
Sinonimi generici in lingua inglese come
leader, head
. Questi sinonimi non sono specifici del dominio e l'utilizzo di sinonimi in questi scenari potrebbe avere effetti indesiderati. -
Errori tipografici come.
teh => the
-
Varianti morfologiche come i plurali e i possessivi dei sostantivi, la forma comparativa e superlativa degli aggettivi e il passato, il participio passato e la forma progressiva dei verbi. Un esempio di
good, better, best
aggettivi comparativi e superlativi è. -
Unigram (parola singola) interrompono parole come.
WHO
Le interruzioni Unigram non sono consentite nel thesaurus e sono escluse dalla ricerca. Ad esempio, viene rifiutato.WHO => World Health Organization
È possibile utilizzareW.H.O.
tuttavia come termine sinonimo e interrompere le parole chiave come parte di un sinonimo composto da più parole. Ad esempio, nonof
è consentito maUnited States of America
è accettato.
I sinonimi personalizzati facilitano la comprensione Amazon Kendra della terminologia specifica dell'azienda, ampliando le query per includere i sinonimi specifici dell'azienda. Sebbene i sinonimi possano migliorare la precisione della ricerca, è importante capire in che modo i sinonimi influiscono sulla latenza in modo da poterla ottimizzare.
Una regola generale per i sinonimi è: maggiore è il numero di termini nella query che vengono abbinati e ampliati con sinonimi, maggiore è il potenziale impatto sulla latenza. Altri fattori che influiscono sulla latenza includono la dimensione media dei documenti indicizzati, la dimensione dell'indice, qualsiasi filtro sui risultati di ricerca e il carico complessivo dell'indice. Amazon Kendra Le query che non corrispondono ad alcun sinonimo non sono interessate.
Una linea guida generale su come i sinonimi influiscono sulla latenza:
Caso d'uso | Aumento della latenza* |
---|---|
Tipiche query in linguaggio naturale o con parole chiave composte da 3 a 5 parole ciascuna | Meno del 15 percento |
1 termine di ricerca si espande a 3 sinonimi | |
Indice di circa 500.000 documenti (con una media di 10,48 KB di testo estratto per documento) o 30.000 coppie di domande e domande |
* Le prestazioni variano in base all'uso specifico dei sinonimi e delle configurazioni dell'indice. È consigliabile testare le prestazioni di ricerca per ottenere benchmark più accurati per il caso d'uso specifico.
Se il thesaurus è di grandi dimensioni, ha un rapporto di espansione a lungo termine elevato e l'aumento della latenza non rientra nei limiti accettabili, potete provare una o entrambe le seguenti soluzioni:
-
Taglia il thesaurus per ridurre il rapporto di espansione (numero di sinonimi per termine).
-
Riduci la copertura complessiva dei termini (numero di righe nel thesaurus).
In alternativa, è possibile aumentare la capacità di provisioning (unità di archiviazione virtuali) per compensare l'aumento della latenza.