• home
  • 적용기술분야
  • 대용량 연속 음성인식

대용량 연속 음성인식 (LVCSR)

음향모델과 언어모델을 통해 화자가 발성한 음성을 인식하는 기술로써 20만 단어 규모의 대용량 어휘로 구성된 연속 음성인식 시스템입니다. 서버-클라이언트 형태의 분산 음성 인식 시스템으로 구성되며, 신호처리 및 특징 추출로 이루어진 전처리부와 음향모델, 발음사전, 언어모델을 이용하는 탐색모듈과 후처리 모듈로 이루어져 있습니다.
핵심 알고리즘
음운변화를 반영한 음향모델과 형태소 분석에 따른 발음열 생성 규칙 알고리즘, 사전 크기, 미등록어(Out-of-Vocabulary) 등을 고려한 최적화된 언어처리 단위를 사용한 언어모델로 음성을 텍스트로 변화해 주는 기술입니다.
전처리 부
잡음 제거, 음질 향상
음성 구간 정보 추출
음성 특징 파라미터 추출
음향모델
시간적으로 변화하는 음성신호의 특징을 모델링
HMM, NN 등이 사용됨
발음사전
한국어 단어에 대한 발음열 자동 생성
다중 발음열 지원
언어모델
단어간 문법 고려, 인식 후보에 가중치를 줌으로써 문법에 맞는 문장이 더 높은 점수를 얻도록 함
FSN, n-gram 등 인식되는 대상 어휘의 수와 인식 속도, 인식 성능을 고려하여 언어모델 선택
WFST(Weighted Finite-State Transducer) 기반의 Decoder
고속 / 효율적 메모리 관리
Smart convergence / 차량 환경에 특화된 구어체 n-gram 기반 LM(Language model) 개발
후처리
인식 결과를 처리하여 인식 성능을 향상하거나 인식 결과의 신뢰도를 계산하는 모듈
기술 서비스
적용분야
*아이콘을 클릭하시면 자세한 기술 내용을 확인할 수 있습니다.