Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon Titan Multimodal Embeddings G1 modello
I modelli Amazon Titan Foundation sono preaddestrati su set di dati di grandi dimensioni, il che li rende potenti modelli generici. Usali così come sono o personalizzali ottimizzando i modelli con i tuoi dati per un'attività particolare senza annotare grandi volumi di dati.
Esistono tre tipi di modelli Titan: incorporamenti, generazione di testo e generazione di immagini.
Ce ne sono due Titan Multimodal Embeddings G1 modelli. Il modello Titan Multimodal Embeddings G1 traduce gli input di testo (parole, frasi o possibilmente grandi unità di testo) in rappresentazioni numeriche (note come incorporamenti) che contengono il significato semantico del testo. Sebbene questo modello non generi testo, è utile per applicazioni come la personalizzazione e la ricerca. Confrontando gli incorporamenti, il modello produrrà risposte più pertinenti e contestuali rispetto alla corrispondenza delle parole. Il modello Multimodal Embeddings G1 viene utilizzato per casi d'uso come la ricerca di immagini per testo, per immagine per analogia o per una combinazione di testo e immagine. Traduce l'immagine o il testo di input in un incorporamento che contiene il significato semantico dell'immagine e del testo nello stesso spazio semantico.
I modelli Titan Text sono generativi LLMs per attività quali riepilogo, generazione di testo, classificazione, QnA aperto ed estrazione di informazioni. Sono inoltre addestrati su molti linguaggi di programmazione diversi, oltre a formati rich text come tabelle e file.csvJSON, tra gli altri formati.
Amazon Titan Multimodal Embeddings modello G1 - Modello testuale
ID modello:
amazon.titan-embed-image-v1
Numero massimo di token di testo in ingresso: 256
Lingue: inglese
Dimensione massima dell'immagine di input: 25 MB
Dimensione del vettore di output: 1.024 (impostazione predefinita), 384, 256
Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata
Casi d'uso supportati: ricerca, raccomandazione e personalizzazione.
Titan Text Embeddings V1 accetta come input una stringa non vuota con un massimo di 8.192 token e restituisce un incorporamento dimensionale di 1.024. Il rapporto caratteri/token in inglese è 4,6 char/token. Nota sui casi d'RAGuso: sebbene Titan Text Embeddings V2 sia in grado di ospitare fino a 8.192 token, consigliamo di segmentare i documenti in segmenti logici (come paragrafi o sezioni).
Lunghezza di incorporamento
L'impostazione di una lunghezza di incorporamento personalizzata è facoltativa. La lunghezza di incorporamento predefinita è di 1.024 caratteri, il che funzionerà per la maggior parte dei casi d'uso. La lunghezza di incorporamento può essere impostata su 256, 384 o 1.024 caratteri. Dimensioni di incorporamento maggiori creano risposte più dettagliate, ma aumentano anche il tempo di calcolo. Lunghezze di incorporamento più brevi sono meno dettagliate ma migliorano i tempi di risposta.
# EmbeddingConfig Shape { 'outputEmbeddingLength':
int
// Optional, One of: [256, 384, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })
Ottimizzazione
Ingresso ad Amazon Titan Multimodal Embeddings G1 il finetuning consiste in coppie immagine-testo.
Formati di immagine:PNG, JPEG
Limite di dimensione dell'immagine di input: 25 MB
Dimensioni dell'immagine: min: 256 px, max: 4.096 px
Numero massimo di token nella didascalia: 128
Intervallo dimensioni del set di dati di addestramento: 1.000–500.000
Intervallo dimensioni del set di dati di convalida: 8–50.000
Lunghezza della didascalia in caratteri: 0–2.560
Numero massimo di pixel totali per immagine: 2048*2048*3
Proporzioni (l/h): min: 0,25, max: 4
Preparazione di set di dati
Per il set di dati di addestramento, crea un .jsonl
file con più righe. JSON Ogni JSON riga contiene caption
attributi image-ref
e simili al formato Sagemaker Augmented Manifest. È richiesto un set di dati di convalida. I sottotitoli automatici non sono attualmente supportati.
{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}
Sia per i set di dati di addestramento che per quelli di convalida, .jsonl
creerai file con più righe. JSON
I percorsi Amazon S3 devono trovarsi nelle stesse cartelle in cui hai fornito le autorizzazioni ad Amazon Bedrock per accedere ai dati allegando una policy IAM al tuo ruolo di servizio Amazon Bedrock. Per ulteriori informazioni sulla concessione di IAM politiche per i dati di formazione, consulta Concedere ai lavori personalizzati l'accesso ai tuoi dati di formazione.
Iperparametri
Questi valori possono essere adattati per gli iperparametri del modello Multimodal Embeddings. I valori predefiniti saranno adatti alla maggior parte dei casi d'uso.
-
Velocità di apprendimento – (frequenza di apprendimento min/max) – impostazione predefinita: 5,00E-05, min: 5,00E-08, max: 1
-
Dimensione del batch – dimensione effettiva del batch – impostazione predefinita: 576, min: 256, max: 9.216
-
Numero massimo di epoche – impostazione predefinita: "auto", min: 1, max: 100