Caricamento di dati su un dominio Amazon CloudSearch - Amazon CloudSearch

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caricamento di dati su un dominio Amazon CloudSearch

Importante

Prima di caricare dati su un CloudSearch dominio Amazon, segui queste linee guida:

  • Raggruppa i documenti in batch prima di caricarli. Il caricamento continuo di batch composti da un solo documento ha un impatto enorme e negativo sulla velocità con cui Amazon CloudSearch può elaborare gli aggiornamenti. Crea invece batch il più vicini possibile al limite e caricali meno frequentemente. Per ulteriori informazioni sulla dimensione massima dei batch e sulla frequenza di caricamento, consultaComprendere CloudSearch i limiti di Amazon.

  • Gli endpoint di ricerca e il documento di un dominio rimangono invariati per tutta la durata del dominio. Dovresti memorizzare gli endpoint nella cache invece di recuperarli prima di ciascuna richiesta di ricerca o caricamento. Interrogare il servizio di CloudSearch configurazione Amazon chiamando aws cloudsearch describe-domains o DescribeDomains prima di ogni richiesta probabilmente comporterà una limitazione delle richieste.

Crei batch di documenti per descrivere i dati che desideri caricare su un CloudSearch dominio Amazon. Un batch di documenti è una raccolta di operazioni di aggiunta ed eliminazione che rappresentano i documenti che desideri aggiungere, aggiornare o eliminare da un tuo dominio. I batch possono essere descritti in formato JSON o XML. Quando carichi batch di documenti in un dominio, i dati vengono indicizzati automaticamente in base alle opzioni di indicizzazione del dominio.

Man mano che i dati cambiano, carichi batch per aggiungere, modificare o eliminare documenti dal tuo indice. Amazon CloudSearch applica gli aggiornamenti in modo continuo. Se apporti delle modifiche alla configurazione che comportano l'attivazione dello stato NEEDS INDEXING (INDICIZZAZIONE RICHIESTA) del dominio o la necessità di aggiornare i suggeritori, è sufficiente che reindicizzi i dati in modo esplicito.

Per essere caricati nel dominio, i dati devono essere formattati come batch JSON o XML valido. I campi specificati in ogni documento deve corrispondono ai campi dell'indice configurati per il dominio. Tuttavia, un documento non deve contenere ogni campo dell'indice configurato. Per informazioni sulla creazione di batch di documenti, consultare Preparazione dei dati. Per ulteriori informazioni sulla configurazione dei campi dell'indice di un dominio, consultare configure indexing options.

Ti verrà addebitato il numero totale dei batch di documenti caricati nel tuo dominio di ricerca, inclusi i batch contenenti le operazioni di eliminazione. Per ulteriori informazioni sui CloudSearch prezzi di Amazon, consulta aws.amazon.com/cloudsearch/pricing/.

Puoi inviare un batch di documenti a un dominio utilizzando Amazon CloudSearch console, AWS CLI o posting it directly nell'endpoint del servizio documenti del dominio.

Per ulteriori informazioni sull'API del servizio documenti, consultare Document Service API.

Caricamenti collettivi su Amazon CloudSearch

I batch di documenti sono limitati a un batch ogni 10 secondi e 5 MB per batch. Per ulteriori informazioni, consultare Limiti. Tuttavia, puoi caricare i batch parallelamente per ridurre il tempo necessario a caricare tutti i dati.

Per eseguire un caricamento in blocco:

  • Imposta un tipo di istanza più grande rispetto a quello predefinito, search.small. Il numero di thread di caricamento che puoi utilizzare dipende dal tipo di istanza di ricerca utilizzata dal dominio, dalla natura dei dati e dalle opzioni di indicizzazione. I tipi di istanza più grandi hanno una maggiore capacità di caricamento. Solitamente, tentando di caricare parallelamente dei batch in un'istanza search.small viene restituita una percentuale elevata di errori 504 o 507. Per ulteriori informazioni sull'impostazione del tipo di istanza desiderato, consultare Configurazione delle opzioni di scalabilità in Amazon CloudSearch.

  • Una volta che le modifiche della configurazione sono attive, avvia il caricamento dei dati. Se riscontri una percentuale elevata di errori 5xx, dovrai ridurre la velocità di caricamento o passare a un tipo di istanza più grande. Se stai già utilizzando il tipo di istanza più grande, puoi aumentare il numero di partizioni desiderato per aumentare ulteriormente la capacità di caricamento.

    Importante

    Se invii un grande volume di aggiornamenti mentre il tuo dominio si trova nello stato PROCESSING (ELABORAZIONE), tuttavia, il tempo necessario per l’applicazione degli aggiornamenti all'indice di ricerca può aumentare. Per evitare questo ritardo di aggiornamento, attendi che il dominio sia nello stato ACTIVE (ATTIVO) prima di avviare il caricamento in blocco.

  • Al termine del caricamento in blocco, puoi reimpostare un tipo di istanza più piccolo. Se il tuo indice rientra in un tipo più piccolo, Amazon CloudSearch ridimensionerà automaticamente il tuo dominio. Amazon non CloudSearch scalerà a un tipo di istanza più piccolo del tipo di istanza desiderato configurato per il tuo dominio.

Per set di dati inferiori a 1 GB di dati o meno di un milione di documenti da 1 KB, dovrebbe essere sufficiente una piccola istanza di ricerca. Per caricare set di dati compresi tra 1 GB e 8 GB, consigliamo di impostare il tipo di istanza desiderato search.large prima di iniziare il caricamento. Per set di dati compresi tra 8 GB e 16 GB, inizia con un. search.xlarge Per set di dati compresi tra 16 GB e 32 GB, inizia con un. search.2xlarge Se hai più di 32 GB da caricare, seleziona il tipo di search.2xlarge istanza e aumenta il numero di partizioni desiderato per adattarlo al tuo set di dati. Ogni partizione può contenere fino a 32 GB di dati. Invia una richiesta di aumento del limite di servizio se hai bisogno di una maggiore capacità di caricamento o hai più di 500 GB da indicizzare.

Caricamento di dati tramite la console Amazon CloudSearch

Nella CloudSearch console Amazon, puoi caricare dati dal tuo file system locale o da Amazon S3 sul tuo dominio dalla dashboard del dominio. Durante il processo di caricamento, la console può convertire automaticamente i seguenti tipi di file in batch di documenti:

  • Batch di documenti in formato JSON o XML (.json,.xml)

  • Valori separati da virgola (.csv)

  • Documenti di testo (.txt)

Puoi anche convertire e caricare elementi da una tabella DynamoDB. Per ulteriori informazioni, consulta Uploading DynamoDB Data.

Nota

Per caricare dati da Amazon S3 o DynamoDB, devi disporre dell'autorizzazione per accedere sia al servizio che alle risorse che desideri caricare. Per ulteriori informazioni, consultare Utilizzo delle policy di bucket e delle policy utente e Using IAM to Control Access to DynamoDB Resources.

I file CSV vengono analizzati row-by-row e viene generato un documento separato per ogni riga. Tutti gli altri tipi di file vengono trattati come un singolo documento. Per ulteriori informazioni sulla generazione automatica di batch di documenti, consultare Preparazione dei dati.

Per inviare i dati a un dominio per l'indicizzazione
  1. Apri la CloudSearch console Amazon all'indirizzo https://console.aws.amazon.com/cloudsearch/home.

  2. Nel riquadro di navigazione a sinistra, scegli Domains (Domini).

  3. Scegli il nome del tuo dominio per aprire la configurazione del dominio.

  4. Scegli Azioni, Carica documenti.

  5. Seleziona la posizione dei dati da caricare nel dominio:

    • Computer locale

    • Amazon S3

    • Amazon DynamoDB

    • Dati campione

    Se carichi dati non formattati come batch di documenti, verranno convertiti automaticamente durante il processo di caricamento.

    Nota

    Se un batch non è valido, Amazon CloudSearch converte il contenuto in un batch valido che contiene un singolo campo di contenuto e campi di metadati generici. Poiché non si tratta dei campi normalmente configurati per il dominio, verranno restituiti degli errori che indicano che i campi non esistono.

  6. Carica i tuoi dati.

    1. Se stai caricando file locali, seleziona Scegli file per individuare i file da caricare.

    2. Se stai caricando oggetti da Amazon S3, fornisci l'URI del bucket da cui caricare.

    3. Se stai caricando elementi da DynamoDB, seleziona la tabella da cui caricare. Per limitare le unità di capacità di lettura che possono essere utilizzate durante la lettura dalla tabella, immettere la percentuale massima di unità utilizzabili. Per iniziare a leggere da un particolare elemento, specifica una chiave hash di avvio.

    4. Se stai caricando dati di esempio predefiniti, scegli il set di dati da utilizzare.

  7. Scegli Continua.

  8. Controlla i documenti da caricare e scegli Carica documenti.

  9. Nel riepilogo del caricamento, se un batch di documenti è stato generato automaticamente dai tuoi dati, puoi scegliere Scarica il batch di documenti generato per scaricarlo. Scegli Chiudi per tornare alla dashboard del dominio.

Caricamento dei dati utilizzando AWS CLI

Utilizzi il aws cloudsearch upload-documents comando per inviare batch di documenti al tuo dominio di ricerca. Per ulteriori informazioni sull'installazione e la configurazione di AWS CLI, consultare la Guida per l'utente di AWS Command Line Interface.

Per inviare batch di documenti a un dominio per l'indicizzazione
  • Esegui il comando aws cloudsearchdomain upload-documents per caricare i batch nel tuo dominio:

    aws cloudsearchdomain upload-documents --endpoint-url http://doc-movies-y6gelr4lv3jeu4rvoelunxsl2e.us-east-1.cloudsearch.amazonaws.com --content-type application/json --documents document-batch.json { "status": "success", "adds": 5000, "deletes": 0 }

Pubblicazione di documenti su un endpoint Document Service di un CloudSearch dominio Amazon tramite HTTP

Puoi utilizzare la risorsa documents/batch per pubblicare i batch di documenti nel tuo dominio per aggiungere, aggiornare o rimuovere documenti. Per esempio:

curl -X POST --upload-file movie-data-2013.json doc-movies-123456789012.us-east-1.cloudsearch.amazonaws.com/2013-01-01/documents/batch --header "Content-Type:application/json"