影片 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

影片

BDA 提供一組標準輸出,用於處理和產生影片的洞見。以下是每個操作類型的詳細說明:

完整影片摘要

完整影片摘要會產生整個影片的整體摘要。它會將影片中呈現的關鍵主題、事件和資訊分割為簡潔的摘要。完整影片摘要已針對內容進行最佳化,並提供描述性對話,例如產品概觀、訓練、新聞投射、發言和紀錄片。BDA 會嘗試根據完整影片摘要和場景摘要中的音訊訊號 (例如,發言者自我介紹) 或視覺訊號 (例如,簡報投影片顯示發言者的名稱),為每個唯一的發言者提供名稱。當未解析唯一發言者的名稱時,將以唯一數字表示 (例如 speaker_0)。

章節摘要

影片章節摘要提供影片中個別場景的描述性摘要。影片章節是在影片中形成一致作用單位或敘述的一系列鏡頭。此功能會根據視覺和聲音提示將影片細分為有意義的區段,為這些區段提供時間戳記,並總結每個區段。

IAB 分類

互動式廣告局 (IAB) 分類會套用標準廣告分類,根據視覺和音訊元素來分類影片場景。對於預覽版,BDA 將支援 24 個最上層 (L1) 類別和 85 個第二層 (L2) 類別。若要下載 BDA 支援的 IAB 類別清單,請按一下這裡

完整音訊文字記錄

完整的音訊文字記錄功能提供音訊檔案中所有語音的完整文字表示。它使用進階語音辨識技術來準確轉錄對話、敘述和其他音訊元素。轉錄包含發言者身分,可讓您根據發言者輕鬆導覽和搜尋音訊內容。

影片中的文字

此功能會偵測並擷取影片中視覺顯示的文字。它可以同時識別靜態文字 (例如標題或字幕) 和動態文字 (例如在圖形中移動文字)。與影像文字偵測類似,它為每個偵測到的文字元素提供週框方塊資訊,允許在影片影格中精確地定位。

標誌偵測

此功能可識別影片中的標誌並提供週框方塊資訊,指出影片影格中每個偵測到標誌的座標,以及可信度分數。預設不會啟用此功能。

內容調節

內容審核會偵測影片中不適當、不想要或令人反感的內容。BDA 支援 7 個審核類別:隱含零件的明確、非明確裸數和 Kissing、泳衣或內衣、暴力、藥物和煙草、酒精、仇恨符號。影片中的明確文字不會加上旗標。

邊界方塊和相關聯的可信度分數可以啟用或停用文字偵測等相關功能,以在影片檔案中提供位置座標和時間戳記。根據預設,會啟用完整影片摘要、場景摘要和影片文字偵測。

注意

每個影片僅支援一個音軌。不支援字幕檔案格式 (例如 SRT、VTT 等)。

視訊標準輸出

以下是透過 BDA 處理之影片的標準輸出範例:

{ "metadata": { "id": "video_123", "semantic_modality": "VIDEO", "s3_bucket": "my-video-bucket", "s3_prefix": "videos/", "format": "MP4", "frame_rate": 24.0, "codec": "h264", "duration_millis": 120000, "frame_width": 1920, "frame_height": 1080 }, "video": { "summary": "A tech conference presentation discussing AI advancements and their impact on various industries.", "transcript": { "representation": { "text": "This is a sample video transcript. The video discusses various topics including technology, innovation, and the future of our society." } } }, "chapter": [ { "chapter_index": 0, "start_timecode_SMPTE": "00:00:00:00", "end_timecode_SMPTE": "00:00:30:00", "start_timestamp_millis": 0, "end_timestamp_millis": 30000, "start_frame_index": 0, "end_frame_index": 720, "duration_smpte": "00:00:30:00", "duration_millis": 30000, "duration_frames": 720, "shot_indices": [0, 1], "summary": "This scene introduces the main topic of the video and provides an overview of the key themes.", "transcript": { "representation": { "text": "Welcome to this video on the future of technology. In this presentation, we will explore the latest advancements in various fields, including artificial intelligence, renewable energy, and smart city initiatives." } }, "iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Technology & Computing", "confidence": 0.9, "parent_name": "Business & Industrial", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Renewable Energy", "confidence": 0.8, "parent_name": "Energy & Utilities", "taxonomy_level": 2 } ], "content_moderation": [ { "id": "mod_12345", "type": "CONTENT_MODERATION", "confidence": 0.1, "start_timestamp_millis": 0, "end_timestamp_millis": 30000, "moderation_categories": [ { "category": "profanity", "confidence": 0.2 } ] } ], "audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 30000, "id": "audio_segment_1", "type": "TRANSCRIPT", "text": "Welcome to this video on the future of technology. In this presentation, we will explore the latest advancements in various fields, including artificial intelligence, renewable energy, and smart city initiatives.", "speaker": { "speaker_id": "SPK_001" } } ], "frames": [ { "timecode_SMPTE": "00:00:05:00", "timestamp_millis": 5000, "index": 120, "features": { "content_moderation": [ { "id": "mod_67890", "type": "MODERATION", "category": "Adult", "confidence": 0.2, "parent_name": "Sensitive", "taxonomy_level": 2 } ], "text_words": [ { "id": "word_1", "text": "technology", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 0.1, "top": 0.2, "width": 0.2, "height": 0.1 }, "polygon": [ {"x": 0.1, "y": 0.2}, {"x": 0.3, "y": 0.2}, {"x": 0.3, "y": 0.3}, {"x": 0.1, "y": 0.3} ] } ] } ], "text_lines": [ { "id": "line_1", "text": "The future of technology", "confidence": 0.85, "locations": [ { "bounding_box": { "left": 0.05, "top": 0.1, "width": 0.4, "height": 0.2 }, "polygon": [ {"x": 0.05, "y": 0.1}, {"x": 0.45, "y": 0.1}, {"x": 0.45, "y": 0.3}, {"x": 0.05, "y": 0.3} ] } ] } ] } } ] } ], "statistics": { "entity_count": 20, "shot_count": 4, "chapter_count": 2, "speaker_count": 1 } }

這些範例說明 BDA 輸出的全面性,提供豐富、結構化的資料,可輕鬆整合到各種應用程式,以供進一步分析或處理。

BDA 影片處理限制

BDA 支援檔案格式為 MP4、MOV 搭配 H.264、VP8 和 VP9 的影片。影片檔案的長度上限為 120 分鐘,大小上限為 10240 MB。影片的寬度和高度必須大於 224 且小於 7680。如果音訊檔案具有多個音訊串流,則只會處理第一個串流。