기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
사용자 지정 언어 모델
사용자 지정 언어 모델은 도메인별 음성의 트랜스크립션 정확도를 향상시키도록 설계되었습니다. 여기에는 일상적이고 일상적인 대화에서 들을 수 있는 내용 이외의 모든 콘텐츠가 포함됩니다. 예를 들어, 과학 컨퍼런스의 논문집을 필사하는 경우 표준 필사본으로는 발표자가 사용하는 많은 과학 용어를 인식하지 못할 수 있습니다. 이 경우 해당 분야에서 사용되는 특수 용어를 인식하도록 사용자 지정 언어 모델을 학습시킬 수 있습니다.
힌트 (예: 발음) 를 제공하여 단어 인식률을 높이는 사용자 지정 어휘와 달리 사용자 지정 언어 모델은 주어진 단어와 관련된 컨텍스트를 학습합니다. 여기에는 단어가 언제 어떻게 사용되는지, 단어와 다른 단어와의 관계가 포함됩니다. 예를 들어 기후 과학 연구 논문을 사용하여 모델을 학습시키면 모델은 '얼음 흐름'보다 '빙류'가 단어 쌍일 가능성이 더 높다는 것을 알게 될 수 있습니다.
사용자 지정 언어 모델에 지원되는 언어를 보려면 을 참조하십시오지원되는 언어 및 언어별 기능. 요청에 사용자 지정 언어 모델을 포함하는 경우 언어 식별을 활성화할 수 없습니다 (언어 코드를 지정해야 함).
사용자 지정 언어 모델 전용 API 작업
데이터 원본
원하는 모든 유형의 텍스트 데이터를 사용하여 모델을 학습시킬 수 있습니다. 그러나 텍스트 내용이 오디오 콘텐츠에 가까울수록 모델의 정확도가 높아집니다. 따라서 오디오와 동일한 컨텍스트에서 동일한 용어를 사용하는 텍스트 데이터를 선택하는 것이 중요합니다.
모델 학습에 가장 적합한 데이터는 정확한 성적표입니다. 이는 도메인 내 데이터로 간주됩니다. 도메인 내 텍스트 데이터는 트랜스크립션하려는 오디오와 용어, 용법 및 컨텍스트가 동일합니다.
정확한 녹취록이 없는 경우 저널 기사, 기술 보고서, 백서, 컨퍼런스 자료집, 사용 설명서, 뉴스 기사, 웹 사이트 콘텐츠 및 오디오와 유사한 상황에서 사용되는 원하는 용어가 포함된 기타 텍스트를 사용하십시오. 이는 도메인 관련 데이터로 간주됩니다.
강력한 사용자 지정 언어 모델을 만들려면 상당한 양의 텍스트 데이터가 필요할 수 있으며, 여기에는 오디오에서 사용되는 용어가 포함되어야 합니다. 모델 학습을 위해 최대 2GB의 텍스트 데이터를 제공할 Amazon Transcribe 수 있습니다. 이를 학습 데이터라고 합니다. 필요에 따라 도메인 내 트랜스크립트가 없거나 적은 경우 최대 200MB의 텍스트 데이터를 제공하여 Amazon Transcribe 모델을 튜닝할 수 있습니다. 이를 튜닝 데이터라고 합니다.
트레이닝 vs. 튜닝 데이터
학습 데이터의 목적은 새로운 용어를 인식하고 이러한 용어가 사용되는 맥락을 Amazon Transcribe 학습하도록 가르치는 것입니다. 견고한 모델을 만들려면 대량의 관련 텍스트 데이터가 Amazon Transcribe 필요할 수 있습니다. 최대 2GB 한도까지 가능한 한 많은 훈련 데이터를 제공하는 것이 좋습니다.
데이터 조정의 목적은 훈련 데이터에서 학습한 상황별 관계를 구체화하고 최적화하는 데 있습니다. 사용자 지정 언어 모델을 생성할 수 있는 튜닝 데이터는 필요하지 않습니다.
학습을 선택하고 선택적으로 데이터를 튜닝하는 최선의 방법을 결정하는 것은 사용자의 몫입니다. 각 사례는 고유하며 보유한 데이터의 유형과 양에 따라 달라집니다. 도메인 내 학습 데이터가 부족한 경우 데이터를 조정하는 것이 좋습니다.
두 데이터 유형을 모두 포함하려는 경우 훈련 데이터와 조정 데이터를 중첩하지 마십시오. 훈련 데이터와 조정 데이터는 고유해야 합니다. 데이터가 중복되면 사용자 지정 언어 모델이 편향되고 왜곡되어 정확성에 영향을 미칠 수 있습니다.
일반적인 지침으로 가능하면 정확한 도메인 내 텍스트를 학습 데이터로 사용하는 것이 좋습니다. 다음은 선호도에 따라 나열된 몇 가지 일반적인 시나리오입니다.
-
10,000단어 이상의 정확한 도메인 내 트랜스크립트 텍스트가 있는 경우 이를 학습 데이터로 사용하십시오. 이 경우 튜닝 데이터를 포함할 필요가 없습니다. 사용자 지정 언어 모델을 학습할 수 있는 이상적인 시나리오입니다.
-
10,000단어 미만인 정확한 도메인 내 트랜스크립트 텍스트가 있지만 원하는 결과를 얻지 못하는 경우 기술 보고서와 같은 도메인 관련 서면 텍스트로 교육 데이터를 보강하는 것이 좋습니다. 이 경우 도메인 내 트랜스크립트 데이터의 일부 (10~ 25%) 를 튜닝 데이터로 사용하도록 예약해 두십시오.
-
도메인 내 트랜스크립트 텍스트가 없는 경우 도메인 관련 텍스트를 모두 학습 데이터로 업로드하세요. 이 경우 서면 텍스트보다 스크립트 스타일의 텍스트를 사용하는 것이 좋습니다. 이는 사용자 지정 언어 모델 학습에 가장 효과적인 시나리오입니다.
모델을 생성할 준비가 되었을 때 을 참조하십시오사용자 지정 언어 모델 만들기.