달력

4

« 2024/4 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
반응형

자동화된 스피치 인식을 새로운 양상으로 바꿀 수 있도록 하는 사전학습에 의하여 규정된 표준이 없이도 특정 언어를 인식할 수 있도록 하는 새로운 기술이 개발되어 선보였다. 현재의 컴퓨터 기술로 키보드가 아닌 음성만으로 명령수행이 가능한 시스템을 작동하여 수행하기 위해서는 거의 하루 이상의 시간이 소요될 수도 있을 것이다.

모바일폰을 통한 말에 의한 검색은 이미 대다수의 사람들에게 일상적인 부분인데, 이번에 개발된 기술은 인터넷을 통하여 특정 오디오 파일이나 영화 동영상 파일 등을 검색할 때 유용한 것으로 전해지지만, 상당한 수준의 스피치 인식을 달성하는 상당히 어려운 작업이다. 구어체는 일상적인 문어체와는 여러 측면에서 차이가 있고 개인별로 나타나는 편차 또한 큰 것이 사실이기 때문이다.

노르웨이 소재 VERDIKT ICT의 핵심역량과 가치창출에 관한 프로그램의 후원으로 노르웨이 과학기술대학의 일련의 연구진이 개발한 이번의 방법은 매우 혁신적인 방법으로, 차세대 음성인식 기술을 새로이 개발한 것으로 평가받고 있다. 노르웨이 연구팀은 전 세계에는 수많은 언어가 존재하지만 언어패턴이 발생하는 방법에 있어서는 근본적인 공통점이 있다는 것을 증명하였는데, 이와 같은 방법을 통하여 특정 머신들에 대하여 각각의 개별언어들에 대한 음성 데이터들을 제공하지 않으면서 다양한 언어에 적용 가능한 방법을 개발하여 선보인 것으로 전문가들은 해석하고 있다.

연구팀은 자신들의 기술 개발을 위한 접근방법에 있어서 음성학에 기반을 두고 수행하였는데, 다시 말하자면 인간 언어 사운드에 대한 광범위한 연구 자료들을 바탕으로 작업들을 수행한 것으로 전해진다. 연구진은 추가적인 스피치와 언어 관련 지식들을 시스템에 통합시켰는데, 예를 들어 사운드 주파수와 단어들 간의 상관관계와 단어들이 문장에서 어떤 식으로 조합되는지에 관한 부분들을 총체적으로 포함하고 있는 것으로 전해진다.

Svendsen 박사외 연구진이 개발한 본 방법에는 언어 기관의 어떠한 부분들이 마이크로폰이 캡처할 수 있는 음파의 압력에 대한 분석을 통하여 수행할 수 있는지도 포함하고 있는 것으로 전해진다. 현재까지는 언어 인식 시스템에 대한 두 가지 접근방법들이 가장 우세한 것으로 전해지고 있다. 한 가지 접근방법은 컴퓨터로 하여금 개별적인 사항을 기반으로 서로 다른 언어들을 인식시키도록 만드는 스피치 데이터와 소스 텍스트의 사용에 주로 기반을 두고 있는 것으로 전해진다.

또 다른 접근방법은 개별 사용자의 단어들과 사운드를 관찰하여 컴퓨터에 입력될 수 있는 일련의 규칙들을 유추하는 방식을 취하도록 하는 것인데, 예를 들어 보컬 코드에 있어서 사운드의 생산 동안 진동이 일어나는지의 여부와 더불어 해당 사운드가 어떤 식으로 전달될 수 있는 지까지 포함하여 사용자에게 제공되도록 만드는 것을 의미하고 있다.

연구진은 작은 언어 세그먼트를 분석하면서 특정 사운드가 약 750에서 1200헤르츠의 공명을 가지고 움직이게 되면, 이것이 "a"라는 문자를 포함하는 것이라고 제시하고 있으며, 350에서 800헤르츠로 범주가 나타나게 되면, `u`자를 의미하는 것이라고 언급한다. 또 다른 접근방법은 컴퓨터로 하여금 상당한 분량의 자료들을 입력하여 지속적인 트레이닝 효과를 거둘 수 있도록 지원하는 것이라고 연구진은 제시한다.

본질적으로, 컴퓨터라는 기계는 모든 사운드 자체를 동일한 것으로 인지하게 되는데, 데이터 드리븐 학습이 지속되면, 보다 높은 주파수가 발생하게 되면서 보다 적은 확률적인 부분으로 연결되어 제공되는 것이라고 연구진은 설명한다. 이와 같은 유형의 접근방법은 연구진이 인간 사용자 기반의 접근방법을 사용하는 것보다 더 많은 스피치 데이터를 처리할 수 있도록 만드는데, 일반적으로 인간 사용자가 취급할 수 있는 데이터의 분량에는 한계가 있기 때문인 것으로 여겨진다.

연구진은 이와 같은 접근방법에 대한 고찰을 통하여 통계적인 접근방법을 통한 어떠한 선택적인 방법이 유리한지에 대해 확신할 수 있었던 것으로 파악되고 있다. 현실 속의 언어에 존재하는 일련의 예측성 패턴에 대한 고려를 통하여 연구진은 시스템에 관련된 정보들을 포함하면서 데이터 드리븐 학습과 규칙 기반의 접근방법을 혼합시킬 수 있었던 것으로 여겨지고 있다.

일상적인 언어패턴들은 개인들의 심리, 방언, 교육수준, 건강상태에 따라 다양하게 나타나게 되는데, 이와 같은 모든 부분들이 종합되어 음성과 문장구조의 생성에 영향을 미치게 된다. 기계 자체가 언어를 이해하는 방식을 학습할 수 있도록 만들기 위해서는 일상적인 스피치와 언어에 있어서 가장 공통적으로 나타날 수 있는 변이체계에 대한 구분이 필요한 것으로 전해진다.

연구진은 현재 음성 생성에 있어서 존재하거나 부재하는 고유한 특성들이 무엇이고, 이에 대한 확률들을 결정지을 수 있는 요소가 무엇인지에 대한 컴퓨터 프로그램을 개발하고 있는데, 예를 들어 보컬 코드 진동이 발생하게 되면, 어떤 음성이 필요한지를 종합적으로 분석하게 된다. 이를 통하여 음성 자체를 분류할 수 있는 기준들을 만들 수 있었다고 제시한다.

노르웨이 연구진이 향후에 추진하여야 할 다음 단계의 노력은 경쟁력 있는 음성 인식 제품을 설계하는데 있어서 사용 가능한 특정 언어에 대한 독립적인 모듈 자체를 개발하는 것이다. 본 솔루션은 시간과 비용이라는 관점에서 상당한 절감이 가능할 것으로 여겨지는 중요한 기술로, 노르웨이어와 같은 소수어를 사용하는 사용자들에게도 커다란 이익이 될 것으로 기대된다고 말한다.

제품 개발을 통한 또 다른 부산물로 이와 같은 유형의 기술들은 다양한 언어들이 사용되는 문맥 자체에 있어서 갖가지 우수한 효과를 가질 수 있을 것으로 기대되는데, 특정 언어를 인식하는데 있어서 30초에서 60초만에 이를 수행할 수 있도록 지원할 수 있을 것으로 기대되어, 특정언어에서 언급된 프레젠테이션이 다른 프레젠테이션에서 인용될 때 이를 어떻게 연결시킬 수 있는지도 지원할 수 있을 것으로 기대된다. 특정 개인이 말하는 것을 신속하게 인지할 수 있는 연구로서 노르웨이 연구진의 연구는 가치가 있을 것으로 기대된다.

자료를 가져가실 때에는 출처 : KISTI 미리안글로벌동향브리핑(GTB)』를 밝혀 주시기 바랍니다.

반응형
:
Posted by 째시기
반응형
애플사의 Siri와 같이 스마트폰 어시스턴트라고 명명된 기술을 중심으로 새로운 산업이 날로 관심을 더하고 있는 가운데, Evi라는 명칭을 가진 유사하면서도 새로운 기능을 제공하는 기술이 새롭게 선보였다. 영국 캠브리지에 소재한 시맨틱 기술 전문기업인 트루 날리지(True Knowledge)사가 개발한 본 기술은 일상적인 대화체로 질의응답이 가능하도록 선보인 기술중 하나이다.

최신형 아이폰에서만 구동이 가능한 Siri와는 다르게, Evi는 아이폰은 물론 구글사의 안드로이드 소프트웨어를 사용하는 폰에서도 운영이 가능하다. Siri와 기타 퍼스널 어시스턴트는 운용 자체가 제한적인 가운데 출발하였지만, 점점 대중화되는 가운데 기존 기업들과 신생 기업들을 중심으로 자신들이 수행하는 태스크들을 확대하는 가운데 새로운 양상으로 진화하고 있다. 트루 날리지사에서는 자신들이 지난 몇 년간에 걸쳐서 구축한 시맨틱 데이터베이스가 이러한 상황 속에 새로운 계기를 제공할 수 있을 것으로 기대하고 있다.

Evi의 가용성과 인공지능 애플리케이션으로써의 향후 전망은 아이폰에서는 99불, 안드로이드 폰에서는 무료로 제공된다는 저렴함이 가장 큰 무기인데, 2012년 1월 출시초기 그야말로 사용자가 폭주하여 다운로드가 곤란할 정도였던 것으로 전해진다. Evi는 단순히 Siri의 경쟁자가 아니라 기능 자체가 Siri가 제공하는 것과 다른 측면들이 존재한다.

Evi는 트루 날리지사가 웹 검색을 목적으로 지난 수년 동안 개발한 수억 개의 데이터 포인트 기반의 플랫폼을 사용한다. 이와 같은 데이터베이스상의 정보는 특정 의미들과 콘텍스트를 추가하고 태깅하는데 사용될 수 있다. 예를 들어, 애플사를 기업으로 분류하고 Tim Cook을 개인과 CEO로 분류하여 제시한다. 트루 날리지사의 창업자이자 CEO인 William Tunstall은 자신들이 개발한 애플리케이션으로 하여금 사람, 장소, 건물, 색깔등과 같은 상호작용이 가능한 모든 부분들을 이해하도록 만들 것이라고 제시하는데, 이를 통하여 다양한 종류의 애플리케이션 사용이 가능하게 만들면서, 다양한 종류의 질문에 대한 올바른 해답제시가 가능하도록 만들 것이라고 언급한다. 이와 같은 모든 종류의 정보에 더하여 Siri와 같이 Evi는 웹사이트밖에 존재하는 데이터에 대한 접근이 가능하도록 만들 것임을 또한 제시한다.

본질적으로, 해당 애플리케이션은 사용자의 구어체와 타이핑된 질문들을 이해하고 관련된 해답을 제공하는 Yelp와 같은 웹상으로부터 외부 데이터를 통하여 막대한 지식들을 사용할 수 있을 것으로 기대된다. 이와 같은 방식은 Siri가 작동하는 방식과 유사한데, 애플사의 Siri의 경우에는 전화걸기, 알람 설정하기나 문자 메시지 보내기와 같은 아이폰 애플리케이션과 관련된 작업들에 주로 초점이 맞추어진 반면에, Evi의 경우에는 이와 같은 종류의 작업들보다, 다른 새로운 작업들을 가지고 사용자들에게 가치를 제공하게 될 것이라고 나타내고 있다.

예를 들자면, Evi에게 "초콜릿 무시에 적합한 레시피가 무엇인지?"와 같은 질문을 한다면 특정 레시피를 제공하는데, Siri에게 동일한 질문을 한다면 웹을 검색하라는 답변을 받게 된다. 이와 유사하게 Evi에게 "다음 국경일이 언제인지?"에 대하여 질문하게 되면 해당 애플리케이션은 2012년 2월 20일이라고 답변을 하지만, Siri는 의미 없는 계산화된 지식 서비스만을 제공할 뿐인 것으로 전해진다.

Evi는 사용자가 선호하고 싫어하는 것이 무엇인지 이해할 수 있는데, 사용자가 Evi의 답변중 특정부분이 좋거나 나쁘다고 간주한다면, 엄지손가락을 올리거나 내리는 행위만으로 자신의 의사를 전달할 수 있다. Siri가 보이스 입력만을 가능하게 하는 반면에, Evi의 경우에는 음성이외에 타이핑에 의한 명령수행도 가능하게 한다. Siri와 마찬가지로 Evi는 아이폰 상에서 음성인식 기능을 제공하는 Nuance Communications사의 기술들을 사용하는데, 트루 날리지는 이의 라이선스 비용으로 일정부분을 지불하는 것으로 전해지고 있다. 안드로이드 버전의 경우 구글사의 음성인식 기술을 사용함으로 무료로 제공되는 것으로 전해진다.

시맨틱 웹서비스인 Twine의 창립자이면서 소셜 미디어 통합 서비스인 Bottlenose의 CEO인 Nova Spivack은 스마트폰 제조사들이 Evi로부터 라이선스와 동시에 핸드셋에 이를 기본적으로 포함시켜주는 것을 기대한다고 말하고 있고, Siri의 Killer 애플리케이션으로써 자리매김할 수도 있음을 시사하고 있다. 아직까지 많은 사용자들이 2012년 1월 Evi가 출시되었지만, 사용하여 본 사용자는 극소수이지만, Evi 서버는 현재 이를 다운로드 받으려는 사용자들이 몰려들고 있고, 미국과 영국에서 현재 서비스가 가능한 것으로 파악된다.

Evi에게 "나는 여기에 있다", "나는 일하고 있다.", "나는 서버로부터의 응답을 이끌어내는 것에 대하여 어려움을 겪고 있다"등으로 질의를 수행하게 되면, 수분내로 이에 대한 결과물을 얻을 수 있을 것으로 전해진다. Evi를 개발한 트루 날리지사의 관계자는 본 애플리케이션 다운로드가 원활하게 수행될 수 있도록 막대한 용량의 서버들을 설치할 것이고, 이와 같은 작업을 지속적으로 진행할 것이라고 언급한다. 일단 사용자들이 Evi를 써보기만 한다면, 사용자가 말하는 것이 진정으로 이해할 수 있을 것이라고 트루 날리지사의 관계자는 또한 제시한다.
출처 : http://www.technologyreview.com/printer_friendly_article.aspx?id=39560

KISTI 미리안글로벌동향브리핑2012-02-01

반응형
:
Posted by 째시기