멀티모달 이해

Amazon Nova 2 Lite는 여러 입력 양식을 이해할 수 있습니다. 이 모델에는 이미지, 문서, 비디오 및 음성을 이해하고 분석하여 제공된 콘텐츠를 기반으로 질문을 추론하고 답변할 수 있는 비전 기능이 포함되어 있습니다.

이 섹션에서는 사용된 사전 처리 전략, 코드 예제 및 고려할 관련 제한 사항을 포함하여 Amazon Nova의 이미지, 문서 및 비디오 작업에 대한 지침을 간략하게 설명합니다.

모달별로 지원되는 콘텐츠 유형

다음 정보는 가 미디어 파일 유형에서 지원하는 파일 형식과 허용되는 입력 방법을 자세히 설명합니다.

미디어 파일 유형	지원되는 파일 형식	입력 방법	크기 제한 사항	객체 수
이미지	PNG, JPEG, GIF, WebP 참고: 애니메이션 GIF 또는 WebP 파일을 사용하는 경우 첫 번째 프레임만 사용됩니다.	요청에 데이터 임베딩 Converse API를 사용하는 경우 데이터를 바이트로 인코딩합니다. Invoke API를 사용하는 경우 데이터를 Base64 문자열로 인코딩합니다.	25MB	5
이미지		Amazon S3 URI	총 2GB	1000
비디오	MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP	요청에 데이터 임베딩 Converse API를 사용하는 경우 데이터를 바이트로 인코딩합니다. Invoke API를 사용하는 경우 데이터를 Base64 문자열로 인코딩합니다.	25MB	1
비디오	MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP	Amazon S3 URI	1GB	1

이미지 이해

이미지 이해란 이미지를 처리하고 다음과 같은 다양한 컴퓨터 비전 태스크를 수행하는 Amazon Nova의 기능을 말합니다.

객체 탐지 수행
시각적 질문 답변(VQA)을 통해 이미지에 대한 질문 답변
이미지 분류 및 요약
경계 상자 탐지 수행
광학 문자 인식(OCR)
객체 수 계산

이미지는 API에 바이트 배열로 전달되거나 S3 URI를 통해 전달되는 프롬프트로 포함될 수 있습니다.

주요 기술 정보

다음은 이 기능을 사용할 때 참고해야 할 주요 기술 정보입니다.

이미지 크기 조정 및 배율 조정

Amazon Nova는 이미지 배율을 자동으로 조정하여 품질과 성능을 최적화합니다.

가장 근접한 종횡비(예: 1:1, 1:2, 2:3 등)를 결정합니다.
한 면이 896픽셀 이상이거나 원본 이미지의 짧은 면 중 더 큰 쪽과 일치하도록 배율을 조정합니다.
종횡비 유지 관리
최대 8,000 × 8,000픽셀 해상도 지원

경계 상자 좌표:

스크린샷 또는 이미지 그라운딩에서 요소를 식별하는 등의 태스크에 유용합니다.
사후 처리에서 이미지의 원래 치수와 일치하도록 좌표 배율을 다시 조정할 수 있습니다.
[0, 1,000] 배율로 경계 상자를 반환합니다.

이미지 토큰 추정

Amazon Nova는 처리를 위한 토큰으로 각 이미지를 변환합니다. 처리된 토큰 수는 이미지 해상도와 종횡비에 따라 다르지만, 사용량은 이미지당 토큰 230개의 고정 요금으로 청구됩니다. API 직접 호출에서 반환된 inputTokens 수에는 이러한 230개의 토큰이 반영됩니다.

이미지 이해 예제

요청에 이미지 데이터를 직접 임베드하는 방법에 대한 예제는 코드 라이브러리의 임베디드 자산을 사용하는 멀티모달 입력 - Converse API(비스트리밍) 예제를 참조하세요.

전체 페이로드가 25MB를 초과하는 대용량 이미지 파일 또는 여러 이미지 파일을 업로드하려면 Amazon S3를 사용합니다. 이미지 입력에 Amazon S3 URI 참조를 사용하는 방법에 대한 전체 예제는 코드 라이브러리의 S3 URI를 사용하는 멀티모달 입력 - Converse API(비스트리밍) 예제를 참조하세요.

참고

S3를 사용하는 경우 Amazon Bedrock 서비스에 버킷 및 객체에 액세스할 수 있는 권한이 있는지 확인합니다.

주요 제한 사항

다음 목록은 이미지 이해 모델의 현재 제한 사항을 간략하게 설명합니다.

다국어 이미지 이해: 모델은 다국어 이미지 및 비디오 프레임에 대한 이해도가 제한적이며, 단순한 태스크에서 어려움을 겪거나 할루시네이션이 발생할 수 있습니다.
사람 식별: Amazon Nova 2 모델은 이미지, 문서 또는 비디오에서 개인을 식별하거나 이름을 지정하는 기능을 지원하지 않습니다.
공간 추론: Amazon Nova 2 모델에서는 공간 추론 기능이 제한적입니다. 따라서 정밀한 현지화 또는 레이아웃 분석이 필요한 태스크에서 어려움을 겪을 수 있습니다.
이미지 및 비디오의 작은 텍스트: 이미지 또는 비디오의 텍스트가 너무 작은 경우 필요한 맥락을 유지하면서 관련 섹션으로 잘라내어 이미지의 텍스트 상대 크기를 늘리는 방법을 고려합니다.

비디오 이해

비디오 이해란 비디오 입력을 처리하고 다음과 같은 다양한 비디오 이해 태스크를 수행하는 Amazon Nova의 기능을 말합니다.

키 프레임 분석 및 비디오 콘텐츠 요약
비디오 세그먼트에 대한 질문 답변(비디오 질문 답변 또는 비디오 QA)
여러 프레임에서 객체 탐지 및 추적
동작, 장면 및 이벤트 식별
시간 분할을 수행하여 특정 순간 찾기
설명 캡션 생성 또는 비디오 시퀀스 요약

주요 기술 정보

다음은 이 기능을 사용할 때 참고해야 할 주요 기술 정보입니다.

비디오 크기 정보

Amazon Nova 비디오 이해 기능은 여러 가로 세로 비율을 지원합니다. 모든 비디오는 모델에 입력되기 전에 672*672 정사각형 치수로 입력에 따라 위 또는 아래로 왜곡을 적용하여 크기가 조정됩니다.

모델은 비디오 길이에 기반한 동적 샘플링 전략을 활용합니다. 길이가 16분 이하인 비디오의 경우 Amazon Nova 2 Lite는 초당 1개 프레임(FPS)을 샘플링합니다. 그러나 길이가 16분을 초과하는 비디오의 경우 샘플링되는 프레임 수를 일관되게 960개로 유지하기 위해 샘플링 속도가 감소하며 프레임 샘플링 속도도 이에 따라 달라집니다. 이 접근 방식은 긴 비디오 콘텐츠에 비해 짧은 비디오에 대해 보다 정확한 장면 수준의 비디오 이해를 제공하도록 설계되었습니다.

움직임이 적은 비디오는 1시간 이내로, 움직임이 많은 비디오는 16분 이내로 비디오 길이를 유지하는 것이 좋습니다.

4k 버전의 비디오와 Full HD 버전을 분석할 때 차이가 없어야 합니다. 마찬가지로 샘플링 속도는 1FPS이므로 60FPS 비디오도 30FPS 비디오와 동일한 성능을 발휘해야 합니다. 필요한 것보다 높은 해상도와 FPS를 사용하는 것은 비디오 크기의 1GB 제한으로 인해 유용하지 않습니다. 이 경우 해당 크기 제한에 맞는 비디오 길이가 제한되므로 1GB보다 긴 비디오를 전처리해야 할 수 있습니다.

비디오 토큰

비디오 길이는 생성되는 토큰 수에 영향을 미치는 주요 요인입니다. 대략적인 비용을 계산하려면 예상 비디오 토큰 수에 사용 중인 특정 모델의 토큰당 가격을 곱합니다.

다음 표에는 Amazon Nova 2 Lite의 비디오 길이당 프레임 샘플링과 토큰 사용률에 대한 몇 가지 근사치가 나와 있습니다.

비디오 길이	샘플링할 프레임	샘플링 속도(fps)	토큰 근사치 계산
10초	10	1	2,880
30초	30	1	8,640
16분	960	1	276,480
20분	1200	1	345,600
30 분	1800	1	518,400
45분	2700	1	777,600

비디오 이해 예제

요청에 비디오 데이터를 직접 임베드하는 방법에 대한 예제는 코드 라이브러리의 임베디드 자산을 사용하는 멀티모달 입력 - Converse API(비스트리밍) 예제를 참조하세요.

비디오 입력에서 S3 URI 참조를 사용하는 방법에 대한 예제는 코드 라이브러리의 S3 URI를 사용하는 멀티모달 입력 - Converse API(비스트리밍) 예제를 참조하세요.

주요 제한 사항

다음은 모델 정확도와 성능이 보장되지 않을 수 있는 주요 모델 제한 사항입니다.

오디오 지원 없음: Amazon Nova모델은 현재 시각적 프레임에만 의존하여 비디오 콘텐츠를 처리하고 이해하도록 훈련되어 있습니다. 비디오의 오디오 트랙은 처리되거나 분석되지 않습니다.
다국어 이미지 이해: Amazon Nova 모델에서는 다국어 이미지와 비디오 프레임에 대한 이해가 제한적입니다. 단순한 태스크에서 어려움을 겪거나 할루시네이션이 발생할 수 있습니다.
사람 식별: Amazon Nova 모델은 이미지, 문서 또는 비디오에서 개인을 식별하거나 이름을 지정하는 기능을 지원하지 않습니다. 모델은 시각적 콘텐츠에 있는 사람의 이름이나 ID를 제공하지 않습니다.
비디오의 작은 텍스트: 이미지 또는 비디오의 텍스트가 너무 작은 경우 비디오의 텍스트 상대 크기를 늘리는 방법을 고려합니다.
공간 추론: Amazon Nova 2 모델에서는 공간 추론 기능이 제한적입니다. 비디오에서 객체 위치, 거리 또는 공간 관계를 정확하게 이해해야 하는 태스크에서 어려움을 겪을 수 있습니다.
부적절한 콘텐츠: Amazon Nova 모델은 이용 정책을 위반하는 부적절하거나 노골적인 이미지는 처리하지 않습니다.
의료 애플리케이션: Amazon Nova 모델은 의료 이미지 또는 비디오에 대한 일반적인 분석을 제공할 수 있긴 해도, 이러한 아티팩트의 민감한 특성으로 인해 복잡한 진단 스캔과 같은 민감한 의료 이미지 해석에는 사용하지 않는 것이 좋습니다. Amazon Nova 모델의 응답은 전문적인 의학적 조언을 대체하는 것으로 간주해서는 안 됩니다.

문서 이해

Amazon Nova의 문서 이해 기능을 사용하면 프롬프트에 전체 문서(PDF, Word 파일, 스프레드시트 등)를 프롬프트의 일부로 포함할 수 있습니다. 이를 통해 모델은 문서 콘텐츠를 분석하거나 요약하거나 여기서 정보를 추출하거나 이에 관한 질문에 답변할 수 있습니다.

Amazon Nova 2 Lite는 이러한 문서 내 텍스트 및 시각적 요소(예: 차트 또는 테이블)를 모두 해석할 수 있습니다. 이를 통해 질문 답변, 요약, 긴 보고서 또는 스캔 문서 분석과 같은 사용 사례를 지원할 수 있습니다.

주요 문서 이해 기능으로, 긴 문서를 위한 초대형 컨텍스트 창(1M 토큰)과 단일 쿼리에서 여러 문서를 처리할 수 있는 기능이 포함됩니다.

지원되는 문서 양식 및 형식

Amazon Nova는 문서 입력을 두 가지 유형으로 구분합니다.

텍스트 기반 문서(예: TXT, CSV, HTML, 마크다운 또는 DOC) 파일은 주로 텍스트 콘텐츠에서 처리됩니다. Amazon Nova는 이러한 문서의 텍스트에서 정보를 이해하고 추출합니다.
미디어 기반 문서(예: PDF, DOCX 파일)에는 복잡한 레이아웃, 이미지, 차트 또는 임베디드 그래픽이 포함될 수 있습니다. 미디어 기반 문서의 경우 Amazon Nova는 비전 기반 이해를 활용하여 문서 텍스트와 함께 차트, 테이블, 다이어그램 또는 스크린샷과 같은 시각적 콘텐츠를 해석합니다.

지원되는 파일 형식에는 다음과 같은 일반적인 문서 유형이 포함됩니다.

일반 텍스트 및 구조화된 텍스트 파일: CSV, TXT
스프레드시트: XLS, XLSX, HTML, 마크다운
표준 이미지 형식(문서 내 이미지의 경우): PNG, JPG, GIF, WebP
문서 형식: DOC, DOCX, PDF
CMYK 또는 SVG와 같은 이미지 인코딩이 포함된 PDF는 지원되지 않습니다.

문서 크기 제한 및 사용법 지침

제약 조건	Limit
최대 문서 수	요청당 최대 5개의 문서(직접 업로드와 Amazon S3 모두에 적용됨)
텍스트 기반 문서 크기	각 텍스트 문서는 4.5MB 이하여야 함
미디어 기반 문서 크기	PDF 및 DOCX 파일의 경우 개별 파일 크기 제한은 없습니다. 직접 업로드를 사용하는 경우 모든 미디어 문서의 결합된 크기는 25MB 이하여야 합니다. Amazon S3를 사용하는 경우 모든 미디어 문서의 결합된 크기는 2GB 이하여야 합니다.
지원되지 않는 PDF 콘텐츠	CMYK 색상 프로필 또는 SVG 이미지가 포함된 PDF는 지원되지 않습니다.

가격 책정

Amazon Nova는 토큰 기반 요금을 사용합니다. 입력 토큰(첨부된 문서를 포함하여 전송하는 모든 항목) 및 출력 토큰(모델의 응답)에 대한 비용을 지불합니다.

PD에 대한 토큰 예측: 계획 시 표준 8.5x11인치 PDF 페이지의 경우 2,560개의 입력 토큰을 가정합니다(이 예측에서는 일반적인 페이지에서 텍스트 및 시각적 요소를 모두 포함함).

예제: API 및 S3를 통한 Nova의 문서 이해 사용

API를 통해 이를 사용하는 방법에 대한 예제는 코드 라이브러리의 임베디드 자산을 사용하는 멀티모달 입력 - Converse API(비스트리밍) 예제를 참조하세요.

S3를 통해 이를 사용하는 방법에 대한 예제는 코드 라이브러리의 S3 URI를 사용하는 멀티모달 입력 - Converse API(비스트리밍) 예제를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

추론

음성-음성