Pencarian tabel untuk HTML

Mode fokus

Pencarian tabel untuk HTML - Amazon Kendra

catatan

Dukungan fitur bervariasi menurut jenis indeks dan API pencarian yang digunakan. Untuk melihat apakah fitur ini didukung untuk jenis indeks dan API penelusuran yang Anda gunakan, lihat Jenis indeks.

Amazon Kendra fitur pencarian tabular dapat mencari dan mengekstrak jawaban dari tabel yang disematkan dalam dokumen HTML. Saat Anda mencari indeks Anda, Amazon Kendra sertakan kutipan dari tabel jika relevan dengan kueri dan berikan informasi yang berguna.

Amazon Kendra melihat semua informasi dalam teks isi dokumen, termasuk informasi yang berguna dalam tabel. Misalnya, indeks berisi laporan bisnis dengan tabel tentang biaya operasi, pendapatan, dan informasi keuangan lainnya. Untuk pertanyaan, “berapa biaya operasi tahunan dari 2020-2022?” , Amazon Kendra dapat mengembalikan kutipan dari tabel yang berisi kolom tabel yang relevan “Operasi (jutaan USD)” dan “Tahun keuangan”, dan baris tabel yang berisi nilai pendapatan untuk tahun 2020, 2021, dan 2022. Kutipan tabel disertakan dalam hasil, bersama dengan judul dokumen, tautan ke dokumen lengkap, dan bidang dokumen lain yang Anda pilih untuk disertakan.

Kutipan tabel dapat ditampilkan dalam hasil pencarian apakah informasi tersebut ditemukan dalam satu sel tabel atau beberapa sel. Misalnya, Amazon Kendra dapat menampilkan kutipan tabel disesuaikan untuk masing-masing jenis query:

“kartu kredit suku bunga tertinggi pada tahun 2020"
“kartu kredit suku bunga tertinggi dari 2020-2022"
“3 kartu kredit suku bunga tertinggi di 2020-2022"
“kartu kredit dengan suku bunga kurang dari 10%”
“Semua kartu kredit bunga rendah yang tersedia”

Amazon Kendra menyoroti sel tabel atau sel yang paling relevan dengan kueri. Sel yang paling relevan dengan baris, kolom, dan nama kolom yang sesuai ditampilkan di hasil pencarian. Kutipan tabel menampilkan hingga lima kolom dan tiga baris, tergantung pada berapa banyak sel tabel yang relevan dengan kueri dan berapa banyak kolom yang tersedia di tabel asli. Sel paling relevan teratas ditampilkan dalam kutipan tabel, bersama dengan sel paling relevan berikutnya.

Responsnya mencakup keranjang kepercayaan (MEDIUMHIGH,,VERY_HIGH) untuk menunjukkan seberapa relevan jawaban tabel dengan kueri. Jika nilai sel tabel VERY_HIGH dalam kepercayaan diri, maka itu menjadi 'jawaban teratas' dan disorot. Untuk nilai sel tabel yang percaya HIGH diri, maka mereka disorot. Untuk nilai sel tabel yang percaya MEDIUM diri, maka mereka tidak disorot. Keyakinan keseluruhan untuk jawaban tabel dikembalikan dalam respons. Misalnya, jika tabel berisi sebagian besar sel tabel dengan HIGH keyakinan, maka kepercayaan keseluruhan yang dikembalikan dalam respons untuk jawaban tabel adalah HIGH kepercayaan diri.

Secara default, tabel tidak diberi tingkat kepentingan yang lebih tinggi atau lebih berat daripada komponen dokumen lainnya. Dalam dokumen, jika tabel hanya sedikit relevan dengan kueri, tetapi ada paragraf yang sangat relevan, Amazon Kendra mengembalikan kutipan paragraf. Hasil pencarian menampilkan bagian konten yang memberikan jawaban terbaik dan informasi yang paling berguna, dalam dokumen yang sama atau dokumen lain. Jika kepercayaan untuk tabel jatuh di bawah MEDIUM kepercayaan, maka kutipan tabel tidak dikembalikan dalam respons.

Untuk menggunakan pencarian tabular pada indeks yang ada, Anda harus mengindeks ulang konten Anda.

Amazon Kendra pencarian tabel mendukung sinonim (termasuk sinonim khusus). Amazon Kendra hanya mendukung dokumen dalam bahasa Inggris dengan tabel HTML yang ada di dalam tag tabel.

Contoh berikut menunjukkan kutipan tabel termasuk dalam hasil query. Untuk melihat contoh JSON dengan respons kueri, termasuk kutipan tabel, lihat Tanggapan dan jenis kueri.

Python


import boto3
import pprint

kendra = boto3.client("kendra")

# Provide the index ID
index_id = <index-id>
# Provide the query text
query = "search string"

response = kendra.query(
        QueryText = query,
        IndexId = index_id)

print("\nSearch results for query: " + query + "\n")        

for query_result in response["ResultItems"]:

    print("-------------------")
    print("Type: " + str(query_result["Type"]))
    print("Type: " + str(query_result["Format"]))
        
    if query_result["Type"]=="ANSWER" and query_result["Format"]=="TABLE":
        answer_table = query_result["TableExcerpt"]
        print(answer_table)
        
    if query_result["Type"]=="ANSWER" and query_result["Format"]=="TEXT":
        answer_text = query_result["DocumentExcerpt"]
        print(answer_text)
        
    if query_result["Type"]=="QUESTION_ANSWER":
        question_answer_text = query_result["DocumentExcerpt"]["Text"]
        print(question_answer_text)

    if query_result["Type"]=="DOCUMENT":
        if "DocumentTitle" in query_result:
            document_title = query_result["DocumentTitle"]["Text"]
            print("Title: " + document_title)
        document_text = query_result["DocumentExcerpt"]["Text"]
        print(document_text)

    print("------------------\n\n")

Java


package com.amazonaws.kendra;

import software.amazon.awssdk.services.kendra.KendraClient;
import software.amazon.awssdk.services.kendra.model.QueryRequest;
import software.amazon.awssdk.services.kendra.model.QueryResponse;
import software.amazon.awssdk.services.kendra.model.QueryResultItem;

public class SearchIndexExample {
    public static void main(String[] args) {
        KendraClient kendra = KendraClient.builder().build();

        String query = "search string";
        String indexId = "index-id";

        QueryRequest queryRequest = QueryRequest
            .builder()
            .queryText(query)
            .indexId(indexId)
            .build();

        QueryResponse queryResponse = kendra.query(queryRequest);

        System.out.println(String.format("\nSearch results for query: %s", query));
        for(QueryResultItem item: queryResponse.resultItems()) {
            System.out.println("----------------------");
            System.out.println(String.format("Type: %s", item.type()));
            System.out.println(String.format("Format: %s", item.format()));
            
            switch(item.format()) {
                case TABLE:
                    String answerTable = item.TableExcerpt();
                    System.out.println(answerTable);
                    break;
            }

            switch(item.format()) {
                case TEXT:
                    String answerText = item.DocumentExcerpt();
                    System.out.println(answerText);
                    break;
            }

            switch(item.type()) {
                case QUESTION_ANSWER:
                    String questionAnswerText = item.documentExcerpt().text();
                    System.out.println(questionAnswerText);
                    break;
                case DOCUMENT:
                    String documentTitle = item.documentTitle().text();
                    System.out.println(String.format("Title: %s", documentTitle));
                    String documentExcerpt = item.documentExcerpt().text();
                    System.out.println(String.format("Excerpt: %s", documentExcerpt));
                    break;
                default:
                    System.out.println(String.format("Unknown query result type: %s", item.type()));

            }

            System.out.println("-----------------------\n");
        }
    }
}

anchor anchor


import boto3
import pprint

kendra = boto3.client("kendra")

# Provide the index ID
index_id = <index-id>
# Provide the query text
query = "search string"

response = kendra.query(
        QueryText = query,
        IndexId = index_id)

print("\nSearch results for query: " + query + "\n")        

for query_result in response["ResultItems"]:

    print("-------------------")
    print("Type: " + str(query_result["Type"]))
    print("Type: " + str(query_result["Format"]))
        
    if query_result["Type"]=="ANSWER" and query_result["Format"]=="TABLE":
        answer_table = query_result["TableExcerpt"]
        print(answer_table)
        
    if query_result["Type"]=="ANSWER" and query_result["Format"]=="TEXT":
        answer_text = query_result["DocumentExcerpt"]
        print(answer_text)
        
    if query_result["Type"]=="QUESTION_ANSWER":
        question_answer_text = query_result["DocumentExcerpt"]["Text"]
        print(question_answer_text)

    if query_result["Type"]=="DOCUMENT":
        if "DocumentTitle" in query_result:
            document_title = query_result["DocumentTitle"]["Text"]
            print("Title: " + document_title)
        document_text = query_result["DocumentExcerpt"]["Text"]
        print(document_text)

    print("------------------\n\n")