保存されたビデオ内のビデオセグメントの検出 - Amazon Rekognition

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

保存されたビデオ内のビデオセグメントの検出

Amazon Rekognition Video は、ブラックフレームやエンドクレジットなど、ビデオの有用なセグメントを特定する API を提供しています。

視聴者は以前にも増して、多くのコンテンツを閲覧するようになっています。特に、オーバーザトップ (OTT) およびビデオオンデマンド (VOD) プラットフォームでは、いつでも、どこでも、どんな画面でも、豊富なコンテンツを選択することができます。コンテンツ量が急増する中、メディア企業はコンテンツの準備と管理に関する課題に直面しています。これは、高品質の視聴体験を提供し、コンテンツの収益化を高めるために不可欠です。今日、企業はトレーニングを受けたスタッフによる大規模なチームを使用して、次のようなタスクを実行しています。

  • コンテンツ内のオープニングクレジットとエンドクレジットの位置を見つける。

  • サイレントブラックフレームシーケンスなど、広告を挿入するための適切なスポットを選択する

  • より良いインデックス作成のため、ビデオをより小さなクリップに分割する。

これらのマニュアルプロセスは高価で時間がかかるため、毎日作成され、ライセンス供与され、アーカイブから取得されるコンテンツのボリュームに合わせてスケールすることができません。

Amazon Rekognition Video を使用すると、機械学習 (ML) を活用したフルマネージドで専用に構築されたビデオセグメント検出 API を使用して、運用メディア分析タスクを自動化することができます。Amazon Rekognition Video セグメント API を使用すると、ラージボリュームのビデオを簡単に分析し、ブラックフレームやショット変更などのマーカーを検出できます。検出ごとに、SMPTE (米国映画テレビ技術者協会) のタイムコードとタイムスタンプ、フレーム数を取得します。ML の経験は必要ありません。

Amazon Rekognition Video は、Amazon Simple Storage Service (Amazon S3) バケットに保存されているビデオを分析します。返される SMPTE タイムコードのフレームは正確です。Amazon Rekognition Video は、検出されたビデオセグメントの正確なフレーム番号を提供し、さまざまなビデオフレームレート形式を自動的に処理します。Amazon Rekognition Video の正確なフレームのメタデータを使用して、特定のタスクを完全に自動化できます。また、トレーニングを受けたオペレーターのレビューのワークロードを大幅に削減して、オペレーターがよりクリエイティブな作業に集中できるようにします。コンテンツの準備、広告の挿入、コンテンツへの [ビンジマーカー] の追加などのタスクを、クラウド内で大規模に実行できます。

料金表の詳細については、「Amazon Rekognition の料金」を参照してください。

Amazon Rekognition Video セグメント検出は、テクニカルキュー 検出と ショット検出 の 2 種類のセグメンテーションタスクをサポートします。

テクニカルキュー

テクニカルキュー は、ビデオ内のブラックフレーム、カラーバー、オープニングクレジット、エンドクレジット、スタジオロゴ、および主要な番組コンテンツを識別します。

ブラックフレーム

ビデオには、広告を挿入する合図として、あるいはシーンやオープニングクレジットなどのセグメントの終了時点を区切るために、無音の空のブラックフレームが挿入されることがあります。Amazon Rekognition Video では、ブラックフレームのシーケンスを検出して、広告挿入を自動化したり、VOD のコンテンツをパッケージ化したり、プログラム内のセグメントやシーンを区切ったりすることができます。音声付きのブラックフレーム (フェードアウトやナレーション付きなど) はコンテンツとみなされて、検出されません。

クレジット

Amazon Rekognition Video を使用すると、映画やテレビ番組のオープニングクレジットとエンドクレジットの開始位置と終了位置の正確なフレームを自動的に特定できます。この情報をもとに、ビデオオンデマンド (VOD) アプリケーションで [次のエピソード] または [イントロをスキップ] など、[ビンジマーカー] またはインタラクティブな視聴者向けプロンプトを生成できます。ビデオ内の番組コンテンツの最初と最後のフレームを検出することもできます。Amazon Rekognition Video は、シンプルなローリングクレジットからコンテンツに沿ったより難しいクレジットまで、様々なオープニングとエンドクレジットのスタイルを処理するようにトレーニングされています。

カラーバー

Amazon Rekognition Video は、SMPTE のカラーバーが表示されているセクションの検出を許可します。カラーバーとは、色が正確に調整されているかをブロードキャストモニタリング、プログラム、カメラなどで確認するために、特定のパターンで表示される色のセットのことです。SMPTE カラーバーの詳細については、「SMPTE カラーバー」を参照してください。カラーバーのメタデータは、コンテンツからカラーバーのセグメントを削除するなど、VOD のアプリケーション向けにコンテンツを準備する際に便利です。あるいは、カラーバーがデフォルトの信号としてコンテンツの代わりに継続表示される場合、録画中に放送信号が紛失するといった問題を検出する際にも有用です。

スレート

スレートは、ビデオのセクションで、通常は冒頭付近にあり、エピソード、スタジオ、ビデオフォーマット、オーディオチャンネルなどに関するテキストメタデータを含んでいます。Amazon Rekognition Video は、スレートの開始と終了を識別できるため、最終視聴のためのコンテンツを準備する際に、テキストメタデータを使用したり、スレートを削除したりすることが容易にできます。

スタジオロゴ

スタジオロゴは、番組の制作に携わった制作スタジオのロゴやエンブレムを表示するシーケンスです。Amazon Rekognition Video は、これらのシーケンスを検出し、ユーザーがレビューをしてスタジオを特定できるようにします。

コンテンツ

コンテンツとは、テレビ番組や映画などの番組や関連要素を含む部分のことです。ブラックフレーム、クレジット、カラーバー、スレート、スタジオロゴはコンテンツとはみなされません。Amazon Rekognition Video では、ビデオ内の各コンテンツセグメントの開始と終了を検出できるため、番組の実行時間や特定のセグメントを見つけることができます。

コンテンツセグメントには次のようなものがありますが、これに限定されるものではありません:

  • 2 つの広告の間のプログラムシーン

  • ビデオの冒頭で前回のエピソードを簡単に振り返る

  • クレジット後のボーナスコンテンツ

  • [テキストレス] コンテンツとは、元々オーバーレイされたテキストが含まれていた番組シーンのうち、他の言語への翻訳をサポートするためにテキストが削除されたものを指します。

Amazon Rekognition Video がすべてのコンテンツセグメントの検出を完了したら、ドメイン知識を適用したり、ヒューマンレビュー用に送信して、各セグメントをさらに分類できます。例えば、常に振り返りから始まる動画を使用する場合、最初のコンテンツセグメントを振り返りに分類できます。

次の図表は、ショーや映画のタイムライン上のテクニカルキューセグメントを示しています。カラーバーとオープニングクレジット、総集編や本編などのコンテンツセグメント、映像全体のブラックフレーム、およびエンドクレジットに注目してください。

カラーバー、要約セグメント、2 つのプログラムコンテンツセグメント、ショーまたは映画のタイムラインを表すブラックフレーム。

ショット検出

ショットとは、1 台のカメラで継続的に撮影された、相互に関係する連続写真の集合のことで、同じ時間および空間内で行われた連続する動きを表現したものです。Amazon Rekognition Video では、各ショットの開始、終了、長さ、およびコンテンツ内のすべてのショットを検出できます。ショットのメタデータは次のようなタスクに使用できます。

  • 選択したショットを使用してプロモーションビデオを作成する。

  • 視聴者の体験を妨げない場所 (誰かが話しているときのショットの途中など) に広告を挿入する。

  • ショット間でトランジションがあるコンテンツを避けるプレビューサムネイルのセットを生成する。

ショット検出は、別のカメラへのハードカットがある正確なフレームでマークされます。あるカメラから別のカメラへのソフトトランジションがある場合、Amazon Rekognition Video はトランジションを省略します。これにより、ショットの開始時間と終了時間に、実際のコンテンツのないセクションが含まれなくなります。

次の図は、フィルムストリップ上のショット検出セグメントを示しています。各ショットは、あるカメラアングルまたは位置から次のカメラアングルまたは位置へのカットによって識別されます。

都市の通り、車のダッシュボード、フォレストパス、子、哺子牧場、哺子牧場のあるサンセットレイク、哺子牧場シルエットを示す 7 つの番号付きショット。

Amazon Rekognition Video セグメント検出 API について

保存された動画をセグメント化するには、非同期 StartSegmentDetectionおよび GetSegmentDetection API オペレーションを使用してセグメンテーションジョブを開始し、結果を取得します。セグメント検出は、Amazon S3 バケットに保存されたビデオを受け取り、JSON 出力を返します。StartSegmentdetection API リクエストを設定することで、テクニカルキューのみ、ショットの変更のみ、またはその両方を検出することを選択することができます。また、最小予測信頼度のしきい値を設定して、検出されたセグメントをフィルタリングすることもできます。詳細については、「Amazon Rekognition セグメント API を利用する 」を参照してください。サンプルコードについては、「例: 保存されたビデオ内のセグメントの検出」を参照してください。