데이터 입력 및 출력 - Amazon Transcribe

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 입력 및 출력

Amazon Transcribe 오디오 데이터를 Amazon S3 버킷 또는 미디어 스트림의 미디어 파일로 가져와 텍스트 데이터로 변환합니다.

Amazon S3 버킷에 저장된 미디어 파일을 트랜스크립션하는 경우 일괄 트랜스크립션을 수행하는 것입니다. 미디어 스트림을 트랜스크립션하는 경우 스트리밍 트랜스크립션을 수행하는 것입니다. 이 두 프로세스에는 다른 규칙과 요구 사항이 있습니다.

배치 트랜스크립션을 사용하면 모든 트랜스크립션 작업을 동시에 처리할 필요가 없는 경우 Job 대기열를 사용할 수 있습니다. 이렇게 하면 Amazon Transcribe 트랜스크립션 작업을 추적하고 슬롯이 있을 때 트랜스크립션 작업을 처리할 수 있습니다.

참고

Amazon Transcribe 분석 모델의 품질을 지속적으로 개선하기 위해 콘텐츠를 임시로 저장할 수 있습니다. 자세히 Amazon Transcribe FAQ알아보려면 를 참조하십시오. 에서 저장했을 수 있는 콘텐츠의 삭제를 요청하려면 를 사용하여 사례를 여십시오 AWS Support. Amazon Transcribe

미디어 형식

지원되는 미디어 유형은 배치 트랜스크립션과 스트리밍 트랜스크립션 간에 다르지만 둘 다 무손실 형식을 사용하는 것이 좋습니다. 자세한 내용은 다음 테이블을 참조하세요.

배치

스트리밍

지원되는 형식

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCM인코딩

권장 형식

  • FLAC

  • WAVPCM16비트 인코딩 사용

  • FLAC

  • PCM서명된 16비트 리틀 엔디안 오디오 (여기에는 포함되지 않음) WAV

최상의 결과를 얻으려면 16비트 인코딩과 같은 무손실 형식을 사용하십시오. FLAC WAV PCM

참고

일부 언어에서는 스트리밍 트랜스크립션이 지원되지 않습니다. 자세한 내용은 지원되는 언어 테이블의 '데이터 입력' 열을 참조하세요.

오디오 채널

Amazon Transcribe 단일 채널 및 이중 채널 미디어를 지원합니다. 채널이 2개가 넘는 미디어는 현재 지원되지 않습니다.

오디오의 한 채널에 여러 화자가 포함되어 있으며 트랜스크립션 출력에서 각 화자를 파티셔닝하여 레이블을 지정하려는 경우 화자 파티셔닝(분할)을 사용할 수 있습니다.

오디오의 별도의 두 채널에 음성이 포함되어 있는 경우 채널 식별을 사용하여 트랜스크립트 내에서 각 채널을 개별적으로 트랜스크립션할 수 있습니다.

이 두 옵션 모두 하나의 트랜스크립트 파일을 생성합니다.

참고

화자 파티셔닝 또는 채널 식별을 활성화하지 않으면 트랜스크립트 텍스트가 하나의 연속 섹션으로 제공됩니다.

샘플 속도

배치 트랜스크립션 작업의 경우 샘플 속도를 제공하도록 선택할 수 있지만 이 파라미터는 선택 사항입니다. 요청에 포함하는 경우 제공하는 값이 오디오의 실제 샘플 속도와 일치하는지 확인하세요. 오디오와 일치하지 않는 샘플 속도를 제공하면 작업이 실패할 수 있습니다.

스트리밍 트랜스크립션의 경우 요청에 샘플 속도를 포함해야 합니다. 배치 트랜스크립션 작업과 마찬가지로 제공하는 값이 오디오의 실제 샘플 속도와 일치하는지 확인하세요.

전화 녹음과 같은 저충실도 오디오의 샘플 속도는 일반적으로 8,000Hz를 사용합니다. 하이파이 오디오의 경우 16,000Hz에서 Amazon Transcribe 48,000Hz 사이의 값을 지원합니다.

출력

트랜스크립션 출력은 형식입니다. JSON 스크립트의 첫 부분에는 트랜스크립트 자체가 단락 형식으로 포함되며 그 뒤에 모든 단어와 구두점에 대한 추가 데이터가 포함됩니다. 제공되는 데이터는 요청에 포함한 기능에 따라 달라집니다. 트랜스크립트에는 최소한 모든 단어의 시작 시간, 종료 시간 및 신뢰도 점수가 포함됩니다. 다음 섹션에는 추가 옵션이나 기능이 포함되지 않은 기본 트랜스크립션 요청의 출력 예시가 나와 있습니다.

모든 배치 트랜스크립트는 버킷에 저장됩니다. Amazon S3 스크립트를 자체 Amazon S3 버킷에 저장하거나 안전한 기본 버킷을 Amazon Transcribe 사용하도록 선택할 수 있습니다. Amazon S3 버킷 생성 및 사용에 대해 자세히 알아보려면 버킷 작업을 참조하세요.

기록을 소유한 Amazon S3 버킷에 저장하려면 트랜스크립션 요청에 해당 버킷을 지정하세요. URI 일괄 트랜스크립션 작업을 시작하기 전에 이 버킷에 대한 Amazon Transcribe 쓰기 권한을 부여해야 합니다. 자체 버킷을 지정하는 경우 버킷을 제거할 때까지 트랜스크립트가 해당 버킷에 남아 있습니다.

Amazon S3 버킷을 지정하지 않으면 안전한 서비스 관리 버킷을 Amazon Transcribe 사용하고 스크립트를 다운로드하는 데 사용할 URI 수 있는 임시 버킷을 제공합니다. 임시 URIs 파일은 15분 동안 유효하다는 점에 유의하세요. 제공된 자료를 사용할 때 AccessDenied 오류가 발생하는 경우URI, URI 성적표용 임시 사본을 새로 발급해 GetTranscriptionJob 달라고 요청하십시오.

기본 버킷을 선택하면 작업이 만료될 때(90일) 트랜스크립트가 삭제됩니다. 이 만료일을 지나 트랜스크립트를 보관하려면 다운로드해야 합니다.

스트리밍 스크립트는 스트림에 사용하는 것과 동일한 메서드를 통해 반환됩니다.

작은 정보

JSON출력을 Word 형식의 turn-by-turn 트랜스크립트로 변환하려면 이 GitHub 예제 (Python3용) 를 참조하십시오. 이 스크립트는 통화 후 분석 트랜스크립트 및 분할이 활성화된 표준 배치 트랜스크립트와 함께 작동합니다.

출력 예시

대본은 단락 형식으로 완전한 필사본을 제공하며, 이어서 word-for-word 분류하여 모든 단어와 문장 부호에 대한 데이터를 제공합니다. 여기에는 시작 시간, 종료 시간, 신뢰도 점수 및 유형(pronunciation또는punctuation)이 포함됩니다.

다음 예시는 추가 기능이 포함되지 않은 단순한 배치 트랜스크립션 작업의 예입니다. 트랜스크립션 요청에 추가 기능을 적용할 때마다 트랜스크립션 출력 파일에 추가 데이터가 추가됩니다.

기본 배치 트랜스크립트에는 두 개의 메인 섹션이 있습니다.

  1. transcripts: 전체 트랜스크립트가 하나의 텍스트 블록에 들어 있습니다.

  2. items: transcripts 섹션의 각 단어 및 구두점에 대한 정보가 들어 있습니다.

  3. audio_segments: 오디오 세그먼트는 중단이나 중단이 최소화되어 끊김 없는 음성 언어를 포함하는 오디오 녹음의 특정 부분입니다. 이 세그먼트는 자연스러운 음성 흐름을 캡처하고 시작 시간 및 종료 시간과 audio_segments 함께 캡처됩니다. 오디오 세그먼트 내의 items 요소는 세그먼트 내 각 항목에 해당하는 일련의 식별자입니다.

트랜스크립션 요청에 포함시키는 각 추가 기능은 트랜스크립트에 추가 정보를 생성합니다.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }