아크로팬

산업 경제 테크 게임
사회 생활 자동차 미디어

비토, NNLM 언어모델 도입으로 음성 인식률↑

  • 2022-06-21 21:04
  • ACROFAN=Newswire
  • newswire@acrofan.com
눈으로 보는 통화 앱 ‘비토’를 운영중인 리턴제로(대표 이참솔)에서 자체 개발한 음성인식(ASR) 모델 ‘소머즈(Sommers) 엔진’이 한 단계 더 진화했다.

비토는 이용자들이 더욱 빠르고 정확한 문자 변환 서비스를 경험할 수 있도록 새로운 인공신경망 언어모델 NNLM(Neural Net Language Model)을 도입해 최적의 서비스 환경을 선보인다고 21일 밝혔다.

그 동안 리턴제로는 칼디(Kaldi) 기반의 음성인식 모델에 리턴제로의 독자적인 기술을 결합해 비토 서비스를 제공해 왔다. 국내 AI 음성인식 시장에서 보편적으로 활용되고 있는 칼디는 음향모델, 음성모델, 언어모델 등 여러가지 모듈로 이루어져 있다. 다만, 칼디 방식의 경우 데이터가 방대해질 경우 전체 연산 과정에 소요되는 시간과 비용이 커져, 보다 빠르고 효과적인 모델 고안이 필요했다.

리턴제로는 이러한 점에 착안해 NNLM 모델을 새롭게 선보이며 한발 더 앞서나간 서비스를 선보이게 됐다. NNLM이란 AI가 인식한 통화 내용을 인공신경망 언어모델이 한 번 더 평가해 발화자가 말한 내용과 더 일치한 텍스트로 변환할 수 있도록 맥락에 맞게 다듬어 보여주는 것이 특징이다.

이 기술은 일반 이용자는 물론, 기업을 대상으로 한 서비스에도 접목된다. 이에 따라, 리턴제로의 음성인식 기술을 도입 및 활용중인 B2B 시장 전반에도 한층 고도화된 AI 음성인식 서비스가 확산될 전망이다. 리턴제로는 앞으로 업무와 관련된 특정 전문 용어를 수반하는 통화 내용에 있어서도 더욱 고도화된 솔루션을 제공할 수 있을 것으로 기대하고 있다.

뿐만 아니다. 리턴제로는 이번 NNLM이 적용된 음성인식 기술을 오픈API로 공개하기 위해 빠른 시일 내에 개발자 웹사이트를 런칭하고, 모든 개발자와 기업이 활용할 수 있도록 열린 생태계를 제공할 예정이다.

리턴제로 이참솔 대표는 “비토가 지속적인 서비스 업데이트로 꾸준히 진화하고 있다. 특히 이번 신규 언어모델 도입을 기점으로 더욱 완성도 높은 음성인식 엔진을 경험할 수 있을 것”이라며, “리턴제로는 앞으로도 자체 음성인식 기술을 고도화해 나가며 국내 인공지능 스타트업과 개발자 생태계를 지원할 계획”이라고 밝혔다.

한편, 리턴제로에서는 E2E(end-to-end) 음성인식 모델 탑재를 앞두고 있다. E2E는 하나의 모듈만을 가지고 음향, 언어, 발음 등 음성을 인식하는 전체 과정을 처리할 수 있는 기술로, E2E 모델을 적용할 경우 음성인식 효율성이 대폭 강화될 것으로 보고 있다.