MetaLlamamodelli - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

MetaLlamamodelli

Questa sezione fornisce i parametri di inferenza e un esempio di codice per l'utilizzo dei seguenti modelli diMeta.

  • Llama 2

  • Llama 2 Chat

  • Llama 3 Instruct

Si effettuano richieste di inferenza ai Meta Llama modelli con InvokeModelor InvokeModelWithResponseStream(streaming). È necessario l'ID modello per il modello che desideri utilizzare. Per ottenere l'ID del modello, consultaID dei modelli Amazon Bedrock.

Richiesta e risposta

Il corpo della richiesta viene passato nel body campo di una richiesta a InvokeModelo InvokeModelWithResponseStream.

Request

Llama 2 ChatLlama 2, e Llama 3 Instruct i modelli hanno i seguenti parametri di inferenza.

{ "prompt": string, "temperature": float, "top_p": float, "max_gen_len": int }

I seguenti sono parametri obbligatori.

  • prompt — (Obbligatorio) Il prompt che desiderate passare al modello.

    Per informazioni sui formati dei prompt, vedere e. MetaLlama 2MetaLlama 3

I seguenti sono parametri opzionali.

  • temperatura: utilizza un valore più basso per ridurre la casualità nella risposta.

    Predefinita Minimo Massimo

    0,5

    0

    1

  • top_p — Usa un valore più basso per ignorare le opzioni meno probabili. Imposta 0 o 1,0 per disabilitare questa funzionalità.

    Predefinita Minimo Massimo

    0.9

    0

    1

  • max_gen_len — Specificate il numero massimo di token da utilizzare nella risposta generata. Il modello tronca la risposta se il testo generato supera max_gen_len.

    Predefinita Minimo Massimo

    512

    1

    2048

Response

Llama 2 ChatLlama 2, e i Llama 3 Instruct modelli restituiscono i seguenti campi per una chiamata di inferenza per il completamento del testo.

{ "generation": "\n\n<response>", "prompt_token_count": int, "generation_token_count": int, "stop_reason" : string }

Di seguito sono fornite ulteriori informazioni su ciascun campo.

  • generation — Il testo generato.

  • prompt_token_count — Il numero di token nel prompt.

  • generation_token_count — Il numero di token nel testo generato.

  • stop_reason — Il motivo per cui la risposta ha smesso di generare testo. I valori possibili sono:

    • stop: il modello ha terminato la generazione del testo per il prompt di input.

    • length: la lunghezza dei token per il testo generato supera max_gen_len nella chiamata a InvokeModel (InvokeModelWithResponseStream, nel caso di streaming dell'output). La risposta viene troncata in base al valore max_gen_len specificato per i token. Valuta la possibilità di aumentare il valore di max_gen_len e riprovare.

Codice di esempio

Questo esempio mostra come chiamare il modello MetaLlama 2 Chat13B.

# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved. # SPDX-License-Identifier: Apache-2.0 """ Shows how to generate text with Meta Llama 2 Chat (on demand). """ import json import logging import boto3 from botocore.exceptions import ClientError logger = logging.getLogger(__name__) logging.basicConfig(level=logging.INFO) def generate_text(model_id, body): """ Generate an image using Meta Llama 2 Chat on demand. Args: model_id (str): The model ID to use. body (str) : The request body to use. Returns: response (JSON): The text that the model generated, token information, and the reason the model stopped generating text. """ logger.info("Generating image with Meta Llama 2 Chat model %s", model_id) bedrock = boto3.client(service_name='bedrock-runtime') accept = "application/json" content_type = "application/json" response = bedrock.invoke_model( body=body, modelId=model_id, accept=accept, contentType=content_type ) response_body = json.loads(response.get('body').read()) return response_body def main(): """ Entrypoint for Meta Llama 2 Chat example. """ logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s") model_id = 'meta.llama2-13b-chat-v1' prompt = """What is the average lifespan of a Llama?""" max_gen_len = 128 temperature = 0.1 top_p = 0.9 # Create request body. body = json.dumps({ "prompt": prompt, "max_gen_len": max_gen_len, "temperature": temperature, "top_p": top_p }) try: response = generate_text(model_id, body) print(f"Generated Text: {response['generation']}") print(f"Prompt Token count: {response['prompt_token_count']}") print(f"Generation Token count: {response['generation_token_count']}") print(f"Stop reason: {response['stop_reason']}") except ClientError as err: message = err.response["Error"]["Message"] logger.error("A client error occurred: %s", message) print("A client error occured: " + format(message)) else: print( f"Finished generating text with Meta Llama 2 Chat model {model_id}.") if __name__ == "__main__": main()