Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Caricamento di dati su un dominio Amazon CloudSearch
Importante
Prima di caricare dati su un CloudSearch dominio Amazon, segui queste linee guida:
-
Raggruppa i documenti in batch prima di caricarli. Il caricamento continuo di batch composti da un solo documento ha un impatto enorme e negativo sulla velocità con cui Amazon CloudSearch può elaborare gli aggiornamenti. Crea invece batch il più vicini possibile al limite e caricali meno frequentemente. Per ulteriori informazioni sulla dimensione massima dei batch e sulla frequenza di caricamento, consultaComprendere CloudSearch i limiti di Amazon.
-
Gli endpoint di ricerca e il documento di un dominio rimangono invariati per tutta la durata del dominio. Dovresti memorizzare gli endpoint nella cache invece di recuperarli prima di ciascuna richiesta di ricerca o caricamento. Interrogare il servizio di CloudSearch configurazione Amazon chiamando
aws cloudsearch describe-domains
oDescribeDomains
prima di ogni richiesta probabilmente comporterà una limitazione delle richieste.
Crei batch di documenti per descrivere i dati che desideri caricare su un CloudSearch dominio Amazon. Un batch di documenti è una raccolta di operazioni di aggiunta ed eliminazione che rappresentano i documenti che desideri aggiungere, aggiornare o eliminare da un tuo dominio. I batch possono essere descritti in formato JSON o XML. Quando carichi batch di documenti in un dominio, i dati vengono indicizzati automaticamente in base alle opzioni di indicizzazione del dominio.
Man mano che i dati cambiano, carichi batch per aggiungere, modificare o eliminare documenti dal tuo indice. Amazon CloudSearch applica gli aggiornamenti in modo continuo. Se apporti delle modifiche alla configurazione che comportano l'attivazione dello stato NEEDS INDEXING
(INDICIZZAZIONE RICHIESTA) del dominio o la necessità di aggiornare i suggeritori, è sufficiente che reindicizzi i dati in modo esplicito.
Per essere caricati nel dominio, i dati devono essere formattati come batch JSON o XML valido. I campi specificati in ogni documento deve corrispondono ai campi dell'indice configurati per il dominio. Tuttavia, un documento non deve contenere ogni campo dell'indice configurato. Per informazioni sulla creazione di batch di documenti, consultare Preparazione dei dati. Per ulteriori informazioni sulla configurazione dei campi dell'indice di un dominio, consultare configure indexing options.
Ti verrà addebitato il numero totale dei batch di documenti caricati nel tuo dominio di ricerca, inclusi i batch contenenti le operazioni di eliminazione. Per ulteriori informazioni sui CloudSearch prezzi di Amazon, consulta aws.amazon.com/cloudsearch/pricing/
Puoi inviare un batch di documenti a un dominio utilizzando Amazon CloudSearch console, AWS CLI o posting it directly nell'endpoint del servizio documenti del dominio.
Per ulteriori informazioni sull'API del servizio documenti, consultare Document Service API.
Argomenti
- Invio di richieste di caricamento di documenti a un dominio Amazon CloudSearch
- Caricamenti collettivi su Amazon CloudSearch
- Caricamento di dati tramite la console Amazon CloudSearch
- Caricamento dei dati utilizzando AWS CLI
- Pubblicazione di documenti su un endpoint Document Service di un CloudSearch dominio Amazon tramite HTTP
Caricamenti collettivi su Amazon CloudSearch
I batch di documenti sono limitati a un batch ogni 10 secondi e 5 MB per batch. Per ulteriori informazioni, consultare Limiti. Tuttavia, puoi caricare i batch parallelamente per ridurre il tempo necessario a caricare tutti i dati.
Per eseguire un caricamento in blocco:
-
Imposta un tipo di istanza più grande rispetto a quello predefinito,
search.small
. Il numero di thread di caricamento che puoi utilizzare dipende dal tipo di istanza di ricerca utilizzata dal dominio, dalla natura dei dati e dalle opzioni di indicizzazione. I tipi di istanza più grandi hanno una maggiore capacità di caricamento. Solitamente, tentando di caricare parallelamente dei batch in un'istanzasearch.small
viene restituita una percentuale elevata di errori 504 o 507. Per ulteriori informazioni sull'impostazione del tipo di istanza desiderato, consultare Configurazione delle opzioni di scalabilità in Amazon CloudSearch. -
Una volta che le modifiche della configurazione sono attive, avvia il caricamento dei dati. Se riscontri una percentuale elevata di errori 5xx, dovrai ridurre la velocità di caricamento o passare a un tipo di istanza più grande. Se stai già utilizzando il tipo di istanza più grande, puoi aumentare il numero di partizioni desiderato per aumentare ulteriormente la capacità di caricamento.
Importante
Se invii un grande volume di aggiornamenti mentre il tuo dominio si trova nello stato PROCESSING (ELABORAZIONE), tuttavia, il tempo necessario per l’applicazione degli aggiornamenti all'indice di ricerca può aumentare. Per evitare questo ritardo di aggiornamento, attendi che il dominio sia nello stato ACTIVE (ATTIVO) prima di avviare il caricamento in blocco.
-
Al termine del caricamento in blocco, puoi reimpostare un tipo di istanza più piccolo. Se il tuo indice rientra in un tipo più piccolo, Amazon CloudSearch ridimensionerà automaticamente il tuo dominio. Amazon non CloudSearch scalerà a un tipo di istanza più piccolo del tipo di istanza desiderato configurato per il tuo dominio.
Per set di dati inferiori a 1 GB di dati o meno di un milione di documenti da 1 KB, dovrebbe essere sufficiente una piccola istanza di ricerca. Per caricare set di dati compresi tra 1 GB e 8 GB, consigliamo di impostare il tipo di istanza desiderato search.large
prima di iniziare il caricamento. Per set di dati compresi tra 8 GB e 16 GB, inizia con un. search.xlarge
Per set di dati compresi tra 16 GB e 32 GB, inizia con un. search.2xlarge
Se hai più di 32 GB da caricare, seleziona il tipo di search.2xlarge
istanza e aumenta il numero di partizioni desiderato per adattarlo al tuo set di dati. Ogni partizione può contenere fino a 32 GB di dati. Invia una richiesta di aumento del limite di servizio
Caricamento di dati tramite la console Amazon CloudSearch
Nella CloudSearch console Amazon, puoi caricare dati dal tuo file system locale o da Amazon S3 sul tuo dominio dalla dashboard del dominio. Durante il processo di caricamento, la console può convertire automaticamente i seguenti tipi di file in batch di documenti:
-
Batch di documenti in formato JSON o XML (.json,.xml)
-
Valori separati da virgola (.csv)
-
Documenti di testo (.txt)
Puoi anche convertire e caricare elementi da una tabella DynamoDB. Per ulteriori informazioni, consulta Uploading DynamoDB Data.
Nota
Per caricare dati da Amazon S3 o DynamoDB, devi disporre dell'autorizzazione per accedere sia al servizio che alle risorse che desideri caricare. Per ulteriori informazioni, consultare Utilizzo delle policy di bucket e delle policy utente e Using IAM to Control Access to DynamoDB Resources.
I file CSV vengono analizzati row-by-row e viene generato un documento separato per ogni riga. Tutti gli altri tipi di file vengono trattati come un singolo documento. Per ulteriori informazioni sulla generazione automatica di batch di documenti, consultare Preparazione dei dati.
Per inviare i dati a un dominio per l'indicizzazione
-
Apri la CloudSearch console Amazon all'indirizzo https://console.aws.amazon.com/cloudsearch/home
. -
Nel riquadro di navigazione a sinistra, scegli Domains (Domini).
-
Scegli il nome del tuo dominio per aprire la configurazione del dominio.
-
Scegli Azioni, Carica documenti.
-
Seleziona la posizione dei dati da caricare nel dominio:
-
Computer locale
-
Amazon S3
-
Amazon DynamoDB
-
Dati campione
Se carichi dati non formattati come batch di documenti, verranno convertiti automaticamente durante il processo di caricamento.
Nota
Se un batch non è valido, Amazon CloudSearch converte il contenuto in un batch valido che contiene un singolo campo di contenuto e campi di metadati generici. Poiché non si tratta dei campi normalmente configurati per il dominio, verranno restituiti degli errori che indicano che i campi non esistono.
-
-
Carica i tuoi dati.
-
Se stai caricando file locali, seleziona Scegli file per individuare i file da caricare.
-
Se stai caricando oggetti da Amazon S3, fornisci l'URI del bucket da cui caricare.
-
Se stai caricando elementi da DynamoDB, seleziona la tabella da cui caricare. Per limitare le unità di capacità di lettura che possono essere utilizzate durante la lettura dalla tabella, immettere la percentuale massima di unità utilizzabili. Per iniziare a leggere da un particolare elemento, specifica una chiave hash di avvio.
-
Se stai caricando dati di esempio predefiniti, scegli il set di dati da utilizzare.
-
-
Scegli Continua.
-
Controlla i documenti da caricare e scegli Carica documenti.
-
Nel riepilogo del caricamento, se un batch di documenti è stato generato automaticamente dai tuoi dati, puoi scegliere Scarica il batch di documenti generato per scaricarlo. Scegli Chiudi per tornare alla dashboard del dominio.
Caricamento dei dati utilizzando AWS CLI
Utilizzi il aws cloudsearch upload-documents
comando per inviare batch di documenti al tuo dominio di ricerca. Per ulteriori informazioni sull'installazione e la configurazione di AWS CLI, consultare la Guida per l'utente di AWS Command Line Interface.
Per inviare batch di documenti a un dominio per l'indicizzazione
-
Esegui il comando
aws cloudsearchdomain upload-documents
per caricare i batch nel tuo dominio:aws cloudsearchdomain upload-documents --endpoint-url http://doc-movies-y6gelr4lv3jeu4rvoelunxsl2e.us-east-1.cloudsearch.amazonaws.com --content-type application/json --documents document-batch.json { "status": "success", "adds": 5000, "deletes": 0 }
Pubblicazione di documenti su un endpoint Document Service di un CloudSearch dominio Amazon tramite HTTP
Puoi utilizzare la risorsa documents/batch
per pubblicare i batch di documenti nel tuo dominio per aggiungere, aggiornare o rimuovere documenti. Per esempio:
curl -X POST --upload-file movie-data-2013.json doc-movies-123456789012.us-east-1.cloudsearch.amazonaws.com/2013-01-01/documents/batch --header "Content-Type:application/json"