긴 오디오 파일 생성

포커스 모드

긴 오디오 파일 생성 - Amazon Polly

Amazon Polly 콘솔을 사용하면 AWS CLI와 함께 사용할 수 있는 동일한 기능으로 비동기식 합성을 사용하여 긴 스피치를 생성할 수 있습니다. 이는 다른 합성과 같이 텍스트 투 스피치 탭을 사용하여 수행됩니다.

Console

다른 비동기식 합성 기능도 콘솔을 통해 사용할 수 있습니다. S3 합성 작업 탭은 ListSpeechSynthesisTasks 기능을 반영하므로 S3 버킷에 저장된 모든 작업을 표시하고 사용자가 원하는 경우 해당 작업을 필터링할 수 있습니다. GetSpeechSynthesisTask 기능 반영으로 인해 특정 단일 작업을 클릭하면 해당 세부 정보가 표시됩니다.

Amazon Polly 콘솔을 사용하여 큰 텍스트를 합성하려면

에 로그인 AWS Management Console 하고 https://console.aws.amazon.com/polly/ Amazon Polly 콘솔을 엽니다.
텍스트 투 스피치 탭을 선택합니다. 필요한 경우 엔진으로 롱폼을 선택합니다.
SSML을 비활성화 또는 활성화한 상태에서 입력란에 텍스트를 입력하거나 붙여 넣습니다.
해당 텍스트에 대한 언어, 리전 및 음성을 선택합니다.
S3에 저장을 선택합니다.

참고
실시간 SynthesizeSpeech 작업에서 텍스트 길이가 3,000자 제한을 초과하면 다운로드 및 듣기 옵션 모두 회색으로 표시됩니다.
콘솔에 양식이 열리고 출력 파일을 저장할 위치를 선택할 수 있습니다.
1. 대상 Amazon S3 버킷의 이름을 채웁니다.
2. 경우에 따라 출력의 접두사 키를 채웁니다.
  
  참고
  출력 S3 버킷은 쓰기 가능해야 합니다.
3. 합성 작업이 완료될 때 알림을 받으려면 옵션 SNS 주제 식별자를 제공합니다.
  
  참고
  현재 콘솔 사용자가 게시할 때 이 옵션을 사용하려면 SNS가 열려 있어야 합니다. 자세한 내용은 Amazon Simple Notification Service(SNS)를 참조하세요.
4. S3에 저장을 선택합니다.

스피치 합성 작업에 대한 정보를 검색하려면

콘솔에서 S3 합성 작업 탭을 선택합니다.
작업은 날짜 순서대로 표시됩니다. 상태를 기준으로 작업을 필터링하려면 모든 상태를 선택한 다음 사용할 상태를 선택합니다.
특정 작업의 세부 정보를 보려면 연결된 작업 ID를 선택합니다.

AWS CLI

Amazon Polly 비동기식 합성 기능은 다음 세 가지 SpeechSynthesisTask API를 사용하여 대량의 텍스트 작업을 수행합니다.

StartSpeechSynthesisTask: 새 합성 작업을 시작합니다.
GetSpeechSynthesisTask: 이전에 제출된 합성 작업에 대한 세부 정보를 반환합니다.
ListSpeechSynthesisTasks: 제출된 합성 작업을 모두 나열합니다.

대량의 텍스트 합성(StartSpeechSynthesisTask)

실시간 SynthesizeSpeech를 사용하여 생성할 수 있는 파일보다 큰 오디오 파일을 생성하려는 경우 StartSpeechSynthesisTask 작업을 사용합니다. StartSpeechSynthesisTask에는 SynthesizeSpeech 작업에 필요한 인수 이외에 Amazon S3 버킷 이름도 필요합니다. 작업에 대한 상태 알림을 받으려는 경우 다른 두 개의 옵션 인수인 출력 파일에 대한 키 접두사와 SNS 주제에 대한 ARN도 사용 가능합니다.

OutputS3BucketName: 합성을 업로드해야 하는 Amazon S3 버킷의 이름입니다. 이 버킷은 Amazon Polly 서비스와 동일한 리전에 있어야 합니다. 또한 호출하는 데 사용되는 IAM 사용자는 해당 버킷에 액세스할 수 있어야 합니다. [필수]
OutputS3KeyPrefix: 출력 파일의 키 접두사입니다. 버킷의 사용자 지정 디렉터리 종류의 키에 출력 스피치 파일을 저장하려는 경우 이 파라미터를 사용합니다. [선택 사항]
SnsTopicArn: 작업 상태에 대한 알림을 받으려는 경우 사용할 SNS 주제 ARN입니다. 이 SNS 주제는 Amazon Polly 서비스와 동일한 리전에 있어야 합니다. 또한 호출하는 데 사용되는 IAM 사용자는 해당 주제에 액세스할 수 있어야 합니다. [선택]

예를 들어 다음 예제를 사용하여 미국 동부(오하이오) 리전에서 start-speech-synthesis-task AWS CLI 명령을 실행할 수 있습니다.

다음 AWS CLI 예제는 Unix, Linux 및 macOS용 형식입니다. Windows의 경우 각 줄 끝에 있는 백슬래시(\) Unix 연속 문자를 캐럿(^)으로 바꿉니다. 입력 텍스트는 큰 따옴표(")로 감싸고 내부 태그에는 작은 따옴표(')를 사용합니다.


aws polly start-speech-synthesis-task \
  --region us-east-2 \
  --endpoint-url "https://polly.us-east-2.amazonaws.com/" \
  --output-format mp3 \
  --output-s3-bucket-name your-bucket-name \
  --output-s3-key-prefix optional/prefix/path/file \
  --voice-id Joanna \
  --text file://text_file.txt

이렇게 하면 다음과 비슷한 모양의 응답이 생성됩니다.


"SynthesisTask": 
{
     "OutputFormat": "mp3",
     "OutputUri": "https://s3.us-east-2.amazonaws.com/your-bucket-name/optional/prefix/path/file.<task_id>.mp3",
     "TextType": "text",
     "CreationTime": [..],
     "RequestCharacters": [..],
     "TaskStatus": "scheduled",
     "TaskId": [task_id],
     "VoiceId": "Joanna"
 }

start-speech-synthesis-task 작업은 다음과 같은 여러 새 필드를 반환합니다.

OutputUri: 출력 스피치 파일의 위치입니다.
TaskId: Amazon Polly에서 생성한 스피치 합성 작업의 고유 식별자입니다.
CreationTime: 작업이 처음 제출된 시점의 타임스탬프입니다.
RequestCharacters: 작업에서 요금이 청구되는 문자 수입니다.
TaskStatus: 제출된 작업의 상태에 대한 정보를 제공합니다.

작업이 제출될 때 초기 상태에서 scheduled를 표시합니다. Amazon Polly에서 작업 처리를 시작하면 상태가 inProgress로 변경되고 나중에 completed 또는 failed로 변경됩니다. 작업이 실패하면 GetSpeechSynthesisTask 또는 ListSpeechSynthesisTasks 작업을 호출할 때 오류 메시지가 반환됩니다.

작업이 완료되면 OutputUri에서 지정된 위치에서 스피치 파일을 사용할 수 있습니다.

스피치 합성 작업에 대한 정보 검색

GetSpeechSynthesisTask 작업을 사용하여 오류, 상태 등의 작업 정보를 가져올 수 있습니다. 이를 위해서는 task-id에 의해 반환된 StartSpeechSynthesisTask가 필요합니다.

예를 들어 다음 예제를 사용하여 get-speech-synthesis-task AWS CLI 명령을 실행할 수 있습니다.


aws polly get-speech-synthesis-task \
--region us-east-2 \
--endpoint-url "https:// polly.us-east-2.amazonaws.com/" \
--task-id task identifier

또한 ListSpeechSynthesisTasks 작업을 사용하여 현재 리전에서 실행한 스피치 합성 작업을 모두 나열할 수 있습니다.

예를 들어 다음 예제를 사용하여 list-speech-synthesis-tasks AWS CLI 명령을 실행할 수 있습니다.


aws polly list-speech-synthesis-tasks \
--region us-east-2 \
--endpoint-url "https:// polly.us-east-2.amazonaws.com/"

anchor anchor

Amazon Polly 콘솔을 사용하여 큰 텍스트를 합성하려면

에 로그인 AWS Management Console 하고 https://console.aws.amazon.com/polly/ Amazon Polly 콘솔을 엽니다.
텍스트 투 스피치 탭을 선택합니다. 필요한 경우 엔진으로 롱폼을 선택합니다.
SSML을 비활성화 또는 활성화한 상태에서 입력란에 텍스트를 입력하거나 붙여 넣습니다.
해당 텍스트에 대한 언어, 리전 및 음성을 선택합니다.
S3에 저장을 선택합니다.

참고
실시간 SynthesizeSpeech 작업에서 텍스트 길이가 3,000자 제한을 초과하면 다운로드 및 듣기 옵션 모두 회색으로 표시됩니다.
콘솔에 양식이 열리고 출력 파일을 저장할 위치를 선택할 수 있습니다.
1. 대상 Amazon S3 버킷의 이름을 채웁니다.
2. 경우에 따라 출력의 접두사 키를 채웁니다.
  
  참고
  출력 S3 버킷은 쓰기 가능해야 합니다.
3. 합성 작업이 완료될 때 알림을 받으려면 옵션 SNS 주제 식별자를 제공합니다.
  
  참고
  현재 콘솔 사용자가 게시할 때 이 옵션을 사용하려면 SNS가 열려 있어야 합니다. 자세한 내용은 Amazon Simple Notification Service(SNS)를 참조하세요.
4. S3에 저장을 선택합니다.