달력

4

« 2024/4 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
반응형

자동화된 스피치 인식을 새로운 양상으로 바꿀 수 있도록 하는 사전학습에 의하여 규정된 표준이 없이도 특정 언어를 인식할 수 있도록 하는 새로운 기술이 개발되어 선보였다. 현재의 컴퓨터 기술로 키보드가 아닌 음성만으로 명령수행이 가능한 시스템을 작동하여 수행하기 위해서는 거의 하루 이상의 시간이 소요될 수도 있을 것이다.

모바일폰을 통한 말에 의한 검색은 이미 대다수의 사람들에게 일상적인 부분인데, 이번에 개발된 기술은 인터넷을 통하여 특정 오디오 파일이나 영화 동영상 파일 등을 검색할 때 유용한 것으로 전해지지만, 상당한 수준의 스피치 인식을 달성하는 상당히 어려운 작업이다. 구어체는 일상적인 문어체와는 여러 측면에서 차이가 있고 개인별로 나타나는 편차 또한 큰 것이 사실이기 때문이다.

노르웨이 소재 VERDIKT ICT의 핵심역량과 가치창출에 관한 프로그램의 후원으로 노르웨이 과학기술대학의 일련의 연구진이 개발한 이번의 방법은 매우 혁신적인 방법으로, 차세대 음성인식 기술을 새로이 개발한 것으로 평가받고 있다. 노르웨이 연구팀은 전 세계에는 수많은 언어가 존재하지만 언어패턴이 발생하는 방법에 있어서는 근본적인 공통점이 있다는 것을 증명하였는데, 이와 같은 방법을 통하여 특정 머신들에 대하여 각각의 개별언어들에 대한 음성 데이터들을 제공하지 않으면서 다양한 언어에 적용 가능한 방법을 개발하여 선보인 것으로 전문가들은 해석하고 있다.

연구팀은 자신들의 기술 개발을 위한 접근방법에 있어서 음성학에 기반을 두고 수행하였는데, 다시 말하자면 인간 언어 사운드에 대한 광범위한 연구 자료들을 바탕으로 작업들을 수행한 것으로 전해진다. 연구진은 추가적인 스피치와 언어 관련 지식들을 시스템에 통합시켰는데, 예를 들어 사운드 주파수와 단어들 간의 상관관계와 단어들이 문장에서 어떤 식으로 조합되는지에 관한 부분들을 총체적으로 포함하고 있는 것으로 전해진다.

Svendsen 박사외 연구진이 개발한 본 방법에는 언어 기관의 어떠한 부분들이 마이크로폰이 캡처할 수 있는 음파의 압력에 대한 분석을 통하여 수행할 수 있는지도 포함하고 있는 것으로 전해진다. 현재까지는 언어 인식 시스템에 대한 두 가지 접근방법들이 가장 우세한 것으로 전해지고 있다. 한 가지 접근방법은 컴퓨터로 하여금 개별적인 사항을 기반으로 서로 다른 언어들을 인식시키도록 만드는 스피치 데이터와 소스 텍스트의 사용에 주로 기반을 두고 있는 것으로 전해진다.

또 다른 접근방법은 개별 사용자의 단어들과 사운드를 관찰하여 컴퓨터에 입력될 수 있는 일련의 규칙들을 유추하는 방식을 취하도록 하는 것인데, 예를 들어 보컬 코드에 있어서 사운드의 생산 동안 진동이 일어나는지의 여부와 더불어 해당 사운드가 어떤 식으로 전달될 수 있는 지까지 포함하여 사용자에게 제공되도록 만드는 것을 의미하고 있다.

연구진은 작은 언어 세그먼트를 분석하면서 특정 사운드가 약 750에서 1200헤르츠의 공명을 가지고 움직이게 되면, 이것이 "a"라는 문자를 포함하는 것이라고 제시하고 있으며, 350에서 800헤르츠로 범주가 나타나게 되면, `u`자를 의미하는 것이라고 언급한다. 또 다른 접근방법은 컴퓨터로 하여금 상당한 분량의 자료들을 입력하여 지속적인 트레이닝 효과를 거둘 수 있도록 지원하는 것이라고 연구진은 제시한다.

본질적으로, 컴퓨터라는 기계는 모든 사운드 자체를 동일한 것으로 인지하게 되는데, 데이터 드리븐 학습이 지속되면, 보다 높은 주파수가 발생하게 되면서 보다 적은 확률적인 부분으로 연결되어 제공되는 것이라고 연구진은 설명한다. 이와 같은 유형의 접근방법은 연구진이 인간 사용자 기반의 접근방법을 사용하는 것보다 더 많은 스피치 데이터를 처리할 수 있도록 만드는데, 일반적으로 인간 사용자가 취급할 수 있는 데이터의 분량에는 한계가 있기 때문인 것으로 여겨진다.

연구진은 이와 같은 접근방법에 대한 고찰을 통하여 통계적인 접근방법을 통한 어떠한 선택적인 방법이 유리한지에 대해 확신할 수 있었던 것으로 파악되고 있다. 현실 속의 언어에 존재하는 일련의 예측성 패턴에 대한 고려를 통하여 연구진은 시스템에 관련된 정보들을 포함하면서 데이터 드리븐 학습과 규칙 기반의 접근방법을 혼합시킬 수 있었던 것으로 여겨지고 있다.

일상적인 언어패턴들은 개인들의 심리, 방언, 교육수준, 건강상태에 따라 다양하게 나타나게 되는데, 이와 같은 모든 부분들이 종합되어 음성과 문장구조의 생성에 영향을 미치게 된다. 기계 자체가 언어를 이해하는 방식을 학습할 수 있도록 만들기 위해서는 일상적인 스피치와 언어에 있어서 가장 공통적으로 나타날 수 있는 변이체계에 대한 구분이 필요한 것으로 전해진다.

연구진은 현재 음성 생성에 있어서 존재하거나 부재하는 고유한 특성들이 무엇이고, 이에 대한 확률들을 결정지을 수 있는 요소가 무엇인지에 대한 컴퓨터 프로그램을 개발하고 있는데, 예를 들어 보컬 코드 진동이 발생하게 되면, 어떤 음성이 필요한지를 종합적으로 분석하게 된다. 이를 통하여 음성 자체를 분류할 수 있는 기준들을 만들 수 있었다고 제시한다.

노르웨이 연구진이 향후에 추진하여야 할 다음 단계의 노력은 경쟁력 있는 음성 인식 제품을 설계하는데 있어서 사용 가능한 특정 언어에 대한 독립적인 모듈 자체를 개발하는 것이다. 본 솔루션은 시간과 비용이라는 관점에서 상당한 절감이 가능할 것으로 여겨지는 중요한 기술로, 노르웨이어와 같은 소수어를 사용하는 사용자들에게도 커다란 이익이 될 것으로 기대된다고 말한다.

제품 개발을 통한 또 다른 부산물로 이와 같은 유형의 기술들은 다양한 언어들이 사용되는 문맥 자체에 있어서 갖가지 우수한 효과를 가질 수 있을 것으로 기대되는데, 특정 언어를 인식하는데 있어서 30초에서 60초만에 이를 수행할 수 있도록 지원할 수 있을 것으로 기대되어, 특정언어에서 언급된 프레젠테이션이 다른 프레젠테이션에서 인용될 때 이를 어떻게 연결시킬 수 있는지도 지원할 수 있을 것으로 기대된다. 특정 개인이 말하는 것을 신속하게 인지할 수 있는 연구로서 노르웨이 연구진의 연구는 가치가 있을 것으로 기대된다.

자료를 가져가실 때에는 출처 : KISTI 미리안글로벌동향브리핑(GTB)』를 밝혀 주시기 바랍니다.

반응형
:
Posted by 째시기