Meta Llama modelli - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Meta Llama modelli

Questa sezione descrive i parametri di richiesta e i campi di risposta per Meta Llama modelli. Usa queste informazioni per effettuare chiamate di inferenza a Meta Llama modelli con operazioni InvokeModeland InvokeModelWithResponseStream(streaming). Questa sezione include anche Python esempi di codice che mostrano come chiamare Meta Llama modelli. Per utilizzare un modello in un'operazione di inferenza, è necessario l'ID del modello. Per ottenere l'ID del modello, consultaModello Amazon Bedrock IDs. Alcuni modelli funzionano anche con Converse. API Per verificare se la Converse API supporta uno specifico Meta Llama modello, vediModelli e caratteristiche del modello supportati. Per altri esempi di codice, vediEsempi di codice per l'utilizzo di Amazon Bedrock AWS SDKs.

I modelli Foundation di Amazon Bedrock supportano modalità di input e output, che variano da modello a modello. Per verificare le modalità che Meta Llama supporto per i modelli, vediModelli di fondazione supportati in Amazon Bedrock. Per verificare quali Amazon Bedrock include Meta Llama modelli supportati, vediSupporto del modello per funzionalità. Per verificare quali AWS regioni Meta Llama i modelli sono disponibili in, vediSupporto del modello per AWS regione.

Quando si effettuano chiamate di inferenza con Meta Llama modelli, si include una richiesta per il modello. Per informazioni generali sulla creazione di prompt per i modelli supportati da Amazon Bedrock, consulta. Concetti ingegneristici rapidi In Meta Llama informazioni specifiche sui prompt, consulta il Meta Llama guida tecnica tempestiva.

Nota

Llama 3.2 Instruct i modelli utilizzano il geofencing. Ciò significa che questi modelli non possono essere utilizzati al di fuori delle AWS Regioni disponibili per questi modelli elencate nella tabella Regioni.

Questa sezione fornisce informazioni per l'utilizzo dei seguenti modelli di Meta.

  • Llama 2

  • Llama 2 Chat

  • Llama 3 Instruct

  • Llama 3.1 Instruct

  • Llama 3.2 Instruct

Richiesta e risposta

Il corpo della richiesta viene passato nel body campo di una richiesta a InvokeModelo InvokeModelWithResponseStream.

Request

Llama 2 Chat, Llama 2, Llama 3 Instruct, Llama 3.1 Instructe Llama 3.2 Instruct i modelli hanno i seguenti parametri di inferenza.

{ "prompt": string, "temperature": float, "top_p": float, "max_gen_len": int }

NOTE: I modelli Llama 3.2 si aggiungono images alla struttura della richiesta, che è un elenco di stringhe. Esempio: images: Optional[List[str]]

I seguenti sono parametri obbligatori.

  • prompt — (Obbligatorio) Il prompt che desiderate passare al modello. Con Llama 2 Chat, formatta la conversazione con il seguente modello.

    <|begin_of_text|><|start_header_id|>system<|end_header_id|> You are a helpful AI assistant for travel tips and recommendations<|eot_id|><|start_header_id|>user<|end_header_id|> What can you help me with?<|eot_id|><|start_header_id|>assistant<|end_header_id|>

    Le istruzioni tra i <<SYS>> token forniscono un prompt di sistema per il modello. Di seguito è riportato un prompt di esempio che include un prompt di sistema.

    <s>[INST] <<SYS>> You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. <</SYS>> There's a llama in my garden What should I do? [/INST]

    Per ulteriori informazioni, consulta gli argomenti seguenti.

I seguenti sono parametri opzionali.

  • temperatura: utilizza un valore inferiore per ridurre la casualità nella risposta.

    Predefinita Minimo Massimo

    0,5

    0

    1

  • top_p — Usa un valore più basso per ignorare le opzioni meno probabili. Imposta 0 o 1,0 per disabilitare questa funzionalità.

    Predefinita Minimo Massimo

    0.9

    0

    1

  • max_gen_len — Specificate il numero massimo di token da utilizzare nella risposta generata. Il modello tronca la risposta se il testo generato supera max_gen_len.

    Predefinita Minimo Massimo

    512

    1

    2048

Response

Llama 2 Chat, Llama 2e Llama 3 Instruct i modelli restituiscono i seguenti campi per una chiamata di inferenza per il completamento del testo.

{ "generation": "\n\n<response>", "prompt_token_count": int, "generation_token_count": int, "stop_reason" : string }

Di seguito sono fornite ulteriori informazioni su ciascun campo.

  • generation — Il testo generato.

  • prompt_token_count — Il numero di token nel prompt.

  • generation_token_count — Il numero di token nel testo generato.

  • stop_reason — Il motivo per cui la risposta ha smesso di generare testo. I valori possibili sono:

    • stop: il modello ha terminato la generazione del testo per il prompt di input.

    • length: la lunghezza dei token per il testo generato supera max_gen_len nella chiamata a InvokeModel (InvokeModelWithResponseStream, nel caso di streaming dell'output). La risposta viene troncata in base al valore max_gen_len specificato per i token. Valuta la possibilità di aumentare il valore di max_gen_len e riprovare.

Codice di esempio

Questo esempio mostra come chiamare il Meta Llama 2 Chat Modello 13B.

# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved. # SPDX-License-Identifier: Apache-2.0 """ Shows how to generate text with Meta Llama 2 Chat (on demand). """ import json import logging import boto3 from botocore.exceptions import ClientError logger = logging.getLogger(__name__) logging.basicConfig(level=logging.INFO) def generate_text(model_id, body): """ Generate an image using Meta Llama 2 Chat on demand. Args: model_id (str): The model ID to use. body (str) : The request body to use. Returns: response (JSON): The text that the model generated, token information, and the reason the model stopped generating text. """ logger.info("Generating image with Meta Llama 2 Chat model %s", model_id) bedrock = boto3.client(service_name='bedrock-runtime') response = bedrock.invoke_model( body=body, modelId=model_id) response_body = json.loads(response.get('body').read()) return response_body def main(): """ Entrypoint for Meta Llama 2 Chat example. """ logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s") model_id = "meta.llama2-13b-chat-v1" prompt = """<s>[INST] <<SYS>> You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. <</SYS>> There's a llama in my garden What should I do? [/INST]""" max_gen_len = 128 temperature = 0.1 top_p = 0.9 # Create request body. body = json.dumps({ "prompt": prompt, "max_gen_len": max_gen_len, "temperature": temperature, "top_p": top_p }) try: response = generate_text(model_id, body) print(f"Generated Text: {response['generation']}") print(f"Prompt Token count: {response['prompt_token_count']}") print(f"Generation Token count: {response['generation_token_count']}") print(f"Stop reason: {response['stop_reason']}") except ClientError as err: message = err.response["Error"]["Message"] logger.error("A client error occurred: %s", message) print("A client error occured: " + format(message)) else: print( f"Finished generating text with Meta Llama 2 Chat model {model_id}.") if __name__ == "__main__": main()