動画 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

動画

BDA には、ビデオのインサイトを処理および生成するための一連の標準出力が用意されています。各オペレーションタイプの詳細を次に示します。

動画の詳細な概要

完全なビデオ概要は、ビデオ全体の全体的な概要を生成します。動画全体に表示される主要なテーマ、イベント、情報を簡潔な要約にまとめます。完全なビデオ概要は、製品概要、トレーニング、ニュースキャスト、トークショー、ドキュメンタリーなど、説明的な対話でコンテンツに最適化されています。BDA は、ビデオ全体の概要とシーンの概要で、音声信号 (スピーカーが自己紹介するなど) または視覚信号 (プレゼンテーションスライドにスピーカーの名前が表示されるなど) に基づいて、一意の各スピーカーの名前を指定しようとします。一意の発話者の名前が解決されない場合は、一意の番号 (speaker_0 など) で表されます。

チャプターの概要

動画の章の概要は、動画内の個々のシーンの記述的な概要を提供します。動画の章は、動画内の一貫した行動単位または説明文を形成する一連のショットです。この機能は、ビジュアルキューと音声キューに基づいて動画を意味のあるセグメントに分割し、それらのセグメントのタイムスタンプを提供し、それぞれを要約します。

IAB 分類

インタラクティブ広告局 (IAB) 分類は、ビジュアル要素とオーディオ要素に基づいてビデオシーンを分類するための標準的な広告分類を適用します。プレビューでは、BDA は 24 のトップレベル (L1) カテゴリと 85 のセカンドレベル (L2) カテゴリをサポートします。BDA でサポートされている IAB カテゴリのリストをダウンロードするには、ここをクリックします。

フルオーディオ文字起こし

完全な音声トランスクリプト機能では、音声ファイル内のすべての音声の完全なテキスト表現が提供されます。高度な音声認識テクノロジーを使用して、ダイアログ、ナレーション、その他のオーディオ要素を正確に文字起こしします。文字起こしには話者識別が含まれているため、話者に基づいて音声コンテンツを簡単にナビゲートおよび検索できます。

ビデオ内のテキスト

この機能は、ビデオに視覚的に表示されるテキストを検出して抽出します。静的テキスト (タイトルや字幕など) と動的テキスト (グラフィック内のテキストの移動など) の両方を識別できます。画像テキスト検出と同様に、検出された各テキスト要素の境界ボックス情報を提供するため、ビデオフレーム内で正確にローカリゼーションできます。

ロゴ検出

この機能は、ビデオ内のロゴを識別し、ビデオフレーム内で検出された各ロゴの座標と信頼スコアを示す境界ボックス情報を提供します。この機能はデフォルトでは有効になっていません。

コンテンツのモデレーション

コンテンツモデレーションは、ビデオ内の不適切、望ましくない、または不快なコンテンツを検出します。BDA は 7 つのモデレーションカテゴリをサポートしています。明示的、暗黙的なパーツの非明示的なヌード、キッシン、水着またはアンダーウェア、暴力、凡惨なタバコ、アルコール、ヘイトシンボルです。動画内の明示的なテキストにはフラグが付けられません。

境界ボックスと関連する信頼スコアは、テキスト検出などの関連機能に対して有効または無効にして、ビデオファイル内の位置座標とタイムスタンプを提供できます。デフォルトでは、完全な動画要約、シーン要約、動画テキスト検出が有効になっています。

注記

ビデオごとに 1 つのオーディオトラックのみがサポートされています。字幕ファイル形式 (SRT、VTT など) はサポートされていません。

ビデオ標準出力

BDA で処理されたビデオの標準出力の例を次に示します。

{ "metadata": { "id": "video_123", "semantic_modality": "VIDEO", "s3_bucket": "my-video-bucket", "s3_prefix": "videos/", "format": "MP4", "frame_rate": 24.0, "codec": "h264", "duration_millis": 120000, "frame_width": 1920, "frame_height": 1080 }, "video": { "summary": "A tech conference presentation discussing AI advancements and their impact on various industries.", "transcript": { "representation": { "text": "This is a sample video transcript. The video discusses various topics including technology, innovation, and the future of our society." } } }, "chapter": [ { "chapter_index": 0, "start_timecode_SMPTE": "00:00:00:00", "end_timecode_SMPTE": "00:00:30:00", "start_timestamp_millis": 0, "end_timestamp_millis": 30000, "start_frame_index": 0, "end_frame_index": 720, "duration_smpte": "00:00:30:00", "duration_millis": 30000, "duration_frames": 720, "shot_indices": [0, 1], "summary": "This scene introduces the main topic of the video and provides an overview of the key themes.", "transcript": { "representation": { "text": "Welcome to this video on the future of technology. In this presentation, we will explore the latest advancements in various fields, including artificial intelligence, renewable energy, and smart city initiatives." } }, "iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Technology & Computing", "confidence": 0.9, "parent_name": "Business & Industrial", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Renewable Energy", "confidence": 0.8, "parent_name": "Energy & Utilities", "taxonomy_level": 2 } ], "content_moderation": [ { "id": "mod_12345", "type": "CONTENT_MODERATION", "confidence": 0.1, "start_timestamp_millis": 0, "end_timestamp_millis": 30000, "moderation_categories": [ { "category": "profanity", "confidence": 0.2 } ] } ], "audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 30000, "id": "audio_segment_1", "type": "TRANSCRIPT", "text": "Welcome to this video on the future of technology. In this presentation, we will explore the latest advancements in various fields, including artificial intelligence, renewable energy, and smart city initiatives.", "speaker": { "speaker_id": "SPK_001" } } ], "frames": [ { "timecode_SMPTE": "00:00:05:00", "timestamp_millis": 5000, "index": 120, "features": { "content_moderation": [ { "id": "mod_67890", "type": "MODERATION", "category": "Adult", "confidence": 0.2, "parent_name": "Sensitive", "taxonomy_level": 2 } ], "text_words": [ { "id": "word_1", "text": "technology", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 0.1, "top": 0.2, "width": 0.2, "height": 0.1 }, "polygon": [ {"x": 0.1, "y": 0.2}, {"x": 0.3, "y": 0.2}, {"x": 0.3, "y": 0.3}, {"x": 0.1, "y": 0.3} ] } ] } ], "text_lines": [ { "id": "line_1", "text": "The future of technology", "confidence": 0.85, "locations": [ { "bounding_box": { "left": 0.05, "top": 0.1, "width": 0.4, "height": 0.2 }, "polygon": [ {"x": 0.05, "y": 0.1}, {"x": 0.45, "y": 0.1}, {"x": 0.45, "y": 0.3}, {"x": 0.05, "y": 0.3} ] } ] } ] } } ] } ], "statistics": { "entity_count": 20, "shot_count": 4, "chapter_count": 2, "speaker_count": 1 } }

これらの例は、 BDA 出力の包括的な性質を示しており、さまざまなアプリケーションに簡単に統合して詳細な分析や処理を行うことができるリッチで構造化されたデータを提供します。

BDA ビデオ処理の制限

BDA は、MP4、MOV と H.264、VP8、VP9 のファイル形式の動画をサポートしています。動画ファイルの最大長は 120 分、最大サイズは 10240 MB です。動画の幅と高さは 224 より大きく、7680 未満である必要があります。オーディオファイルに複数のオーディオストリームがある場合、最初のストリームのみが処理されます。