MetaLlamamodel - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

MetaLlamamodel

Bagian ini memberikan parameter inferensi dan contoh kode untuk menggunakan model berikut dariMeta.

  • Llama 2

  • Llama 2 Chat

  • Llama 3 Instruct

Anda membuat permintaan inferensi ke Meta Llama model dengan InvokeModelatau InvokeModelWithResponseStream(streaming). Anda memerlukan ID model untuk model yang ingin Anda gunakan. Untuk mendapatkan ID model, lihatID model Amazon Bedrock.

Permintaan dan tanggapan

Badan permintaan diteruskan di body bidang permintaan ke InvokeModelatau InvokeModelWithResponseStream.

Request

Llama 2 Chat,Llama 2, dan Llama 3 Instruct model memiliki parameter inferensi berikut.

{ "prompt": string, "temperature": float, "top_p": float, "max_gen_len": int }

Berikut ini adalah parameter yang diperlukan.

  • prompt - (Wajib) Prompt yang ingin Anda lewatkan ke model.

    Untuk informasi tentang format prompt, lihat MetaLlama 2dan MetaLlama 3.

Berikut ini adalah parameter opsional.

  • suhu — Gunakan nilai yang lebih rendah untuk mengurangi keacakan dalam respons.

    Default Minimum Maksimum

    0,5

    0

    1

  • top_p — Gunakan nilai yang lebih rendah untuk mengabaikan opsi yang kurang mungkin. Setel ke 0 atau 1.0 untuk menonaktifkan.

    Default Minimum Maksimum

    0,9

    0

    1

  • max_gen_len — Tentukan jumlah maksimum token yang akan digunakan dalam respons yang dihasilkan. Model memotong respons setelah teks yang dihasilkan melebihi. max_gen_len

    Default Minimum Maksimum

    512

    1

    2048

Response

Llama 2 Chat,Llama 2, dan Llama 3 Instruct model mengembalikan bidang berikut untuk panggilan inferensi penyelesaian teks.

{ "generation": "\n\n<response>", "prompt_token_count": int, "generation_token_count": int, "stop_reason" : string }

Informasi lebih lanjut tentang setiap bidang disediakan di bawah ini.

  • Generasi - Teks yang dihasilkan.

  • prompt_token_count — Jumlah token dalam prompt.

  • generation_token_count — Jumlah token dalam teks yang dihasilkan.

  • stop_reason — Alasan mengapa respon berhenti menghasilkan teks. Kemungkinan nilainya adalah:

    • stop — Model telah selesai menghasilkan teks untuk prompt input.

    • panjang — Panjang token untuk teks yang dihasilkan melebihi nilai max_gen_len dalam panggilan ke InvokeModel (InvokeModelWithResponseStream, jika Anda streaming output). Respons terpotong menjadi token. max_gen_len Pertimbangkan untuk meningkatkan nilai max_gen_len dan mencoba lagi.

Contoh kode

Contoh ini menunjukkan cara memanggil model MetaLlama 2 Chat13B.

# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved. # SPDX-License-Identifier: Apache-2.0 """ Shows how to generate text with Meta Llama 2 Chat (on demand). """ import json import logging import boto3 from botocore.exceptions import ClientError logger = logging.getLogger(__name__) logging.basicConfig(level=logging.INFO) def generate_text(model_id, body): """ Generate an image using Meta Llama 2 Chat on demand. Args: model_id (str): The model ID to use. body (str) : The request body to use. Returns: response (JSON): The text that the model generated, token information, and the reason the model stopped generating text. """ logger.info("Generating image with Meta Llama 2 Chat model %s", model_id) bedrock = boto3.client(service_name='bedrock-runtime') accept = "application/json" content_type = "application/json" response = bedrock.invoke_model( body=body, modelId=model_id, accept=accept, contentType=content_type ) response_body = json.loads(response.get('body').read()) return response_body def main(): """ Entrypoint for Meta Llama 2 Chat example. """ logging.basicConfig(level=logging.INFO, format="%(levelname)s: %(message)s") model_id = 'meta.llama2-13b-chat-v1' prompt = """What is the average lifespan of a Llama?""" max_gen_len = 128 temperature = 0.1 top_p = 0.9 # Create request body. body = json.dumps({ "prompt": prompt, "max_gen_len": max_gen_len, "temperature": temperature, "top_p": top_p }) try: response = generate_text(model_id, body) print(f"Generated Text: {response['generation']}") print(f"Prompt Token count: {response['prompt_token_count']}") print(f"Generation Token count: {response['generation_token_count']}") print(f"Stop reason: {response['stop_reason']}") except ClientError as err: message = err.response["Error"]["Message"] logger.error("A client error occurred: %s", message) print("A client error occured: " + format(message)) else: print( f"Finished generating text with Meta Llama 2 Chat model {model_id}.") if __name__ == "__main__": main()