일괄 트랜스크립션에 사용자 지정 어휘 필터 사용 스트리밍 트랜스크립션에서 사용자 지정 어휘 필터 사용

사용자 지정 단어 필터 사용

사용자 지정 어휘 필터가 생성되면 이를 트랜스크립션 요청에 포함시킬 수 있습니다. 예를 보려면 다음 섹션을 참조하십시오.

요청에 포함하는 사용자 지정 어휘 필터의 언어는 미디어에 지정한 언어 코드와 일치해야 합니다. 언어 식별을 사용하고 여러 언어 옵션을 지정하는 경우 지정된 언어당 하나의 사용자 지정 어휘 필터를 포함할 수 있습니다. 사용자 지정 어휘 필터의 언어가 오디오에서 식별된 언어와 일치하지 않는 경우 필터가 트랜스크립션에 적용되지 않으며 경고나 오류가 발생하지 않습니다.

일괄 트랜스크립션에 사용자 지정 어휘 필터 사용

일괄 트랜스크립션과 함께 사용자 지정 어휘 필터를 사용하려면 다음 예제를 참조하십시오.

AWS Management Console에 로그인합니다.
탐색 창에서 트랜스크립션 작업을 선택한 다음 작업 생성 (오른쪽 상단) 을 선택합니다. 그러면 작업 세부 정보 지정 페이지가 열립니다.

작업 이름을 지정하고 입력 미디어를 지정합니다. 필요에 따라 다른 필드를 포함시킨 후 다음을 선택합니다.
작업 구성 페이지의 콘텐츠 제거 패널에서 어휘 필터링을 켜십시오.
드롭다운 메뉴에서 사용자 지정 어휘 필터를 선택하고 필터링 방법을 지정합니다.
작업 생성을 선택하여 트랜스크립션 작업을 실행합니다.

이 예제에서는 start-transcription-job명령 및Settings 매개 변수를VocabularyFilterName 및VocabularyFilterMethod 하위 매개 변수와 함께 사용합니다. 자세한 내용은 StartTranscriptionJob 및 Settings 단원을 참조하세요.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \
--output-bucket-name DOC-EXAMPLE-BUCKET \
--output-key my-output-files/ \
--language-code en-US \
--settings VocabularyFilterName=my-first-vocabulary-filter,VocabularyFilterMethod=mask

다음은 start-transcription-job명령을 사용하는 또 다른 예와 해당 작업에 대한 사용자 지정 어휘 필터를 포함하는 요청 본문입니다.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-vocabulary-filter-job.json

my-first-vocabulary-filter-job.json 파일에는 다음 요청 본문이 포함되어 있습니다.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "DOC-EXAMPLE-BUCKET",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "Settings": {
        "VocabularyFilterName": "my-first-vocabulary-filter",
        "VocabularyFilterMethod": "mask"
   }
}

이 예제에서는AWS SDK for Python (Boto3) 를 사용하여 start_transcription_job 메서드의Settings 인수를 사용하는 사용자 지정 어휘 필터를 포함합니다. 자세한 내용은 StartTranscriptionJob 및 Settings 단원을 참조하세요.

기능별, 시나리오 및 서비스 간 예제를 포함하여AWS SDK를 사용하는 추가 예제는 이Amazon Transcribe를 사용하는 코드 예제 AWS SDKs 장을 참조하십시오.


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'DOC-EXAMPLE-BUCKET',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Settings = {
        'VocabularyFilterName': 'my-first-vocabulary-filter',
        'VocabularyFilterMethod': 'mask' 
   }
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

스트리밍 트랜스크립션에서 사용자 지정 어휘 필터 사용

스트리밍 트랜스크립션과 함께 사용자 지정 어휘 필터를 사용하려면 다음 예제를 참조하십시오.

AWS Management Console에 로그인합니다.
탐색 창에서 실시간 트랜스크립션을 선택합니다. 아래로 스크롤하여 콘텐츠 제거 설정으로 이동한 다음 이 필드가 최소화된 경우 확장하십시오.
어휘 필터링을 켜세요. 드롭다운 메뉴에서 사용자 지정 어휘 필터를 선택하고 필터링 방법을 지정합니다.

스트림에 적용할 설정을 추가합니다.
이제 스트림을 변환할 준비가 되었습니다. 스트리밍 시작을 선택하고 말하기 시작하세요. 받아쓰기를 종료하려면 스트리밍 중지를 선택합니다.

이 예제에서는 사용자 지정 어휘 필터 및 필터 메서드가 포함된 HTTP/2 요청을 생성합니다. 에서 HTTP/2 스트리밍을 사용하는 방법에 대한 자세한 내용은 을Amazon Transcribe 참조하십시오HTTP/2 스트림 설정. 관련 매개변수와 헤더에 대한 자세한 내용은Amazon Transcribe 을 참조하십시오 StartStreamTranscription.


POST /stream-transcription HTTP/2
host: transcribestreaming.us-west-2.amazonaws.com
X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription
Content-Type: application/vnd.amazon.eventstream
X-Amz-Content-Sha256: string
X-Amz-Date: 20220208T235959Z
Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string
x-amzn-transcribe-language-code: en-US
x-amzn-transcribe-media-encoding: flac
x-amzn-transcribe-sample-rate: 16000      
x-amzn-transcribe-vocabulary-filter-name: my-first-vocabulary-filter
x-amzn-transcribe-vocabulary-filter-method: mask
transfer-encoding: chunked

파라미터 정의는 API 레퍼런스에서 찾을 수 있으며, 모든AWS API 작업에 공통적인 파라미터는 일반 파라미터 섹션에 나열되어 있습니다.

이 예시에서는 사용자 지정 어휘 필터를 WebSocket 스트림에 적용하는 미리 서명된 URL을 만듭니다. 가독성을 높이기 위해 줄바꿈이 추가되었습니다. 에서 WebSocket 스트림을 사용하는 방법에 대한 자세한 내용은Amazon Transcribe 을 참조하십시오 WebSocket 스트림 설정. 매개변수에 대한 자세한 내용은 을 참조하십시오 StartStreamTranscription.


GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket?
&X-Amz-Algorithm=AWS4-HMAC-SHA256
&X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request
&X-Amz-Date=20220208T235959Z
&X-Amz-Expires=300
&X-Amz-Security-Token=security-token
&X-Amz-Signature=string
&X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date
&language-code=en-US
&media-encoding=flac
&sample-rate=16000    
&vocabulary-filter-name=my-first-vocabulary-filter
&vocabulary-filter-method=mask

파라미터 정의는 API 레퍼런스에서 찾을 수 있으며, 모든AWS API 작업에 공통적인 파라미터는 일반 파라미터 섹션에 나열되어 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

어휘 필터 만들기

독성 음성 감지