데이터 입력 및 출력

Amazon Transcribe 는 오디오 데이터를 Amazon S3 버킷 또는 미디어 스트림의 미디어 파일로 가져와 텍스트 데이터로 변환합니다.

Amazon S3 버킷에 저장된 미디어 파일을 트랜스크립션하는 경우 배치 트랜스크립션을 수행합니다. 미디어 스트림을 트랜스크립션하는 경우 스트리밍 트랜스크립션을 수행하는 것입니다. 이 두 프로세스에는 다른 규칙과 요구 사항이 있습니다.

배치 트랜스크립션을 사용하면 모든 트랜스크립션 작업을 동시에 처리할 필요가 없는 경우 작업 대기열를 사용할 수 있습니다. 이렇게 하면 Amazon Transcribe 가 트랜스크립션 작업을 추적하고 슬롯을 사용할 수 있을 때 처리할 수 있습니다.

참고

Amazon Transcribe 는 분석 모델의 품질을 지속적으로 개선하기 위해 콘텐츠를 임시로 저장할 수 있습니다. 자세한 정보는 Amazon Transcribe FAQ를 참조하세요. 에서 저장했을 수 있는 콘텐츠의 삭제를 요청하려면에서 사례를 Amazon Transcribe엽니다지원.

미디어 형식

지원되는 미디어 유형은 배치 트랜스크립션과 스트리밍 트랜스크립션 간에 다르지만 둘 다 무손실 형식을 사용하는 것이 좋습니다. 자세한 내용은 다음 테이블을 참조하세요.

	배치	스트리밍
지원되는 형식	AMR FLAC M4A MP3 MP4 Ogg WebM WAV	FLAC Ogg Opus PCM 인코딩
권장 형식	FLAC PCM 16비트 인코딩을 사용하는 WAV	FLAC PCM 서명된 16비트 리틀 엔디안 오디오(WAV는 포함되지 않음)

최상의 결과를 얻으려면 PCM 16비트 인코딩을 사용하는 무손실 형식(예: FLAC 또는 WAV)을 사용하세요.

참고

일부 언어에서는 스트리밍 트랜스크립션이 지원되지 않습니다. 자세한 내용은 지원되는 언어 테이블의 '데이터 입력' 열을 참조하세요.

오디오 채널

Amazon Transcribe 는 단일 채널 및 이중 채널 미디어를 지원합니다. 채널이 2개가 넘는 미디어는 현재 지원되지 않습니다.

오디오의 한 채널에 여러 화자가 포함되어 있으며 트랜스크립션 출력에서 각 화자를 파티셔닝하여 레이블을 지정하려는 경우 화자 파티셔닝(분할)을 사용할 수 있습니다.

오디오의 별도의 두 채널에 음성이 포함되어 있는 경우 채널 식별을 사용하여 트랜스크립트 내에서 각 채널을 개별적으로 트랜스크립션할 수 있습니다.

이 두 옵션 모두 하나의 트랜스크립트 파일을 생성합니다.

참고

화자 파티셔닝 또는 채널 식별을 활성화하지 않으면 트랜스크립트 텍스트가 하나의 연속 섹션으로 제공됩니다.

샘플 속도

배치 트랜스크립션 작업의 경우 샘플 속도를 제공하도록 선택할 수 있지만 이 파라미터는 선택 사항입니다. 요청에 포함하는 경우 제공하는 값이 오디오의 실제 샘플 속도와 일치하는지 확인하세요. 오디오와 일치하지 않는 샘플 속도를 제공하면 작업이 실패할 수 있습니다.

스트리밍 트랜스크립션의 경우 요청에 샘플 속도를 포함해야 합니다. 배치 트랜스크립션 작업과 마찬가지로 제공하는 값이 오디오의 실제 샘플 속도와 일치하는지 확인하세요.

전화 녹음과 같은 저충실도 오디오의 샘플 속도는 일반적으로 8,000Hz를 사용합니다. 충실도가 높은 오디오의 경우는 16,000Hz~48,000Hz 사이의 값을 Amazon Transcribe 지원합니다.

출력

트랜스크립션 출력은 JSON 형식입니다. 스크립트의 첫 부분에는 트랜스크립트 자체가 단락 형식으로 포함되며 그 뒤에 모든 단어와 구두점에 대한 추가 데이터가 포함됩니다. 제공되는 데이터는 요청에 포함한 기능에 따라 달라집니다. 트랜스크립트에는 최소한 모든 단어의 시작 시간, 종료 시간 및 신뢰도 점수가 포함됩니다. 다음 섹션에는 추가 옵션이나 기능이 포함되지 않은 기본 트랜스크립션 요청의 출력 예시가 나와 있습니다.

모든 배치 트랜스크립트는 Amazon S3 버킷에 저장됩니다. 트랜스크립트를 자체 Amazon S3 버킷에 저장하거나 안전한 기본 버킷을 Amazon Transcribe 사용하도록 선택할 수 있습니다. Amazon S3 버킷 생성 및 사용에 대해 자세히 알아보려면 버킷 작업을 참조하세요.

소유한 Amazon S3 버킷에 트랜스크립트를 저장하려면 트랜스크립션 요청에 버킷의 URI를 지정합니다. 배치 트랜스크립션 작업을 시작하기 전에이 버킷에 대한 Amazon Transcribe 쓰기 권한을 부여해야 합니다. 자체 버킷을 지정하는 경우 버킷을 제거할 때까지 트랜스크립트가 해당 버킷에 남아 있습니다.

Amazon S3 버킷을 지정하지 않으면는 안전한 서비스 관리형 버킷을 Amazon Transcribe 사용하고 트랜스크립트를 다운로드하는 데 사용할 수 있는 임시 URI를 제공합니다. 임시 URI는 15분간 유효하다는 점에 유의하세요. 제공된 URI를 사용할 때 AccessDenied 오류가 발생하는 경우 트랜스크립트에 사용할 새 임시 URI를 GetTranscriptionJob 요청하세요.

기본 버킷을 선택하면 작업이 만료될 때(90일) 트랜스크립트가 삭제됩니다. 이 만료일을 지나 트랜스크립트를 보관하려면 다운로드해야 합니다.

스트리밍 스크립트는 스트림에 사용하는 것과 동일한 메서드를 통해 반환됩니다.

작은 정보

JSON 출력을 Word 형식의 단계별 트랜스크립트로 변환하려면 이 GitHub 예시(Python3용)를 참조하세요. 이 스크립트는 통화 후 분석 트랜스크립트 및 분할이 활성화된 표준 배치 트랜스크립트와 함께 작동합니다.

출력 예시

트랜스크립트는 단락 형식으로 완전한 트랜스크립션을 제공하며, 이어 등장하는 단어별 분석을 통해 모든 단어와 구두점에 대한 데이터를 제공합니다. 여기에는 시작 시간, 종료 시간, 신뢰도 점수 및 유형(pronunciation또는punctuation)이 포함됩니다.

다음 예시는 추가 기능이 포함되지 않은 단순한 배치 트랜스크립션 작업의 예입니다. 트랜스크립션 요청에 추가 기능을 적용할 때마다 트랜스크립션 출력 파일에 추가 데이터가 추가됩니다.

기본 배치 트랜스크립트에는 두 개의 메인 섹션이 있습니다.

transcripts: 전체 트랜스크립트가 하나의 텍스트 블록에 들어 있습니다.
items: transcripts 섹션의 각 단어 및 구두점에 대한 정보가 들어 있습니다.
audio_segments: 오디오 세그먼트는 중단 없는 음성 언어가 포함된 오디오 녹음의 특정 부분으로, 일시 중지 또는 중단이 최소화됩니다. 이 세그먼트는 자연적인 음성 흐름을 캡처하고 시작 시간 및 종료 시간으로 audio_segments에 포착됩니다. 오디오 세그먼트 내의 items 요소는 세그먼트 내의 각 항목에 해당하는 식별자 시퀀스입니다.

트랜스크립션 요청에 포함시키는 각 추가 기능은 트랜스크립트에 추가 정보를 생성합니다.


{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

작동 방식

번호 트랜스크립션