달력

5

« 2024/5 »

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
반응형
카메라에 보이는 영상을 설명해주는 컴퓨터 비젼 시스템 개발
 
KISTI 미리안 『글로벌동향브리핑(GTB)』 2010-06-07

프로토타입 컴퓨터 비젼 시스템은 감시 카메라로부터 얻어진 영상에서 어떤일이 일어나고 있는지를 실시간 문자 설명으로 만들수 있다. 비록 상업용으로 준비되지는 않았지만, 시스템은 소프트웨어가 어떻게 비디오 또는 이미지 모음으로부터 취사 선택하는 것을 쉽게 만들어줄 수 있는지를 보여준다. 이 시스템은 ObjectVideo의 협력을 통해 University of California, Los Angeles의 연구원들에 의해 개발되었다.

(그림. 감시 카메라 영상에 보여진 물체 (위)와 컴퓨터 비젼 소프트웨어에 의해 각 물체 대한 설명이 붙여진 영상(아래))

"사용자는 주변에서 YouTube와 모든 다른 증가하고 있는 비디오 소소들의 존재를 알고 있고 비디오를 검색할 수 있다는 것은 큰 문제다"라고 연구 책임자이자 UCLA의 통계 및 컴퓨터 공학 교수인 Song-Chun Zhu는 말한다. "이미지 또는 비디오에 대한 거의 모든 검색은 여전히 관련된 문자를 이용하여 수행된다"라고 그는 말한다. Zhu와 UCLA 동료인 Benjamin Yao, Haifeng Gong 은 이를 바꾸기 위해 I2T (Image to Text)라 불리는 새로운 시스템을 개발했다.

이것은 일련의 컴퓨터 비젼 알고리즘을 시스템에 집적하여 이미지 또는 비디오 프레임을 입력하면 묘사된것에 대한 요약을 배출해낸다. "단순한 문자 검색을 사용하여 찾을 수도 있기 때문에, 매우 인간 친화적이다"라고 Zhu는 말한다.

연구팀은 I2T의 강점을 보여주기 위해 ObjectVideo의 Mun Wai Lee와 협력하여 감시 장면에 소프트웨어를 사용하였다. 이와 같은 시스템은 연관된 업무를 수행하는 사람들의 수는 그대로인 반면에 가령 거리와 군사 장비에 점점 더 많은 감시 카메라들이 존재하는 사실을 다루는데 있어 도움이 될 수 있다고 Zhu는 말한다.

I2T의 첫부분은 이미지를 분해하는 이미지 파서인데 이는 배경과 차량, 나무, 사람과 같은 물체들을 제거한다. 몇몇 물체들은 더욱 세부적으로 분리될 수 있는데, 가령, 사람의 팔 또는 자동차의 바퀴는 속한 대상물로부터 분리될 수 있다.

다음 단계로. 형태의 집합의 의미가 결정된다. "이러한 지식 표현 단계는 시스템의 가장 중요한 부분이다"라고 Zhu는 말한다. 이러한 지식은 인간의 지능으로부터 얻어진다. 2005년에, Zhu는 중국의 Ezhou에 비영리단체인 Lotus Hill Institute를 설립했고, 중국 정보의 일부 보조로, 컴퓨터 비젼 시스템을 보조하기 위한 이미지 라이브러리에 주석을 달기 위해 풀타임으로 일할 지역 미술 대학의 약 20명 정도의 졸업생을 모집했다. 결과로 500 카테고리 이상으로 확인되고 분류된 대상물을 포함하는 200만개 이상의 이미지의 데이터 베이스가 만들어졌다.

작업자들이 표준화된 방식으로 주석을 달도록 하기 위해, 소프트웨어는 작업자들이 작업하는 동안 지침을 제공한다. 그것은 분류하도록 해주는 주요 대상물들을 선택해내기 위한 최종 데이터로부터 결과적으로 이익을 얻게할 알고리즘들의 버젼들을 사용하고 기존의 데이터를 기반으로 분류되는 방법을 제안한다. 이미지 내의 대상물은 영단어를 의미에 따라 그룹으로 조직하는 Princeton의 WordNet 데이터베이스를 기반으로하는 카테고리 계층으로 분류된다. "일단 의미를 포함하는 시스템을 사용하여 이미지가 분석되도록 하면, 자연언어로의 필사는 어렵지 않다"라고 Zhu는 말한다. 그는 이미 다른 연구자들에게 몇몇 데이터를 무상으로 제공하고 있다. "그것은 고급 정보이고 우리들은 더 많은 사람들이 이것을 사용할 것이기를 바란다"라고 그는 말한다.

또한 비디오 프로세싱 시스템은 연속적인 프레임들에서 대상물의 움직임을 설명할 수 있는 알고리즘을 사용한다. 예를 들어 시스템은 "35 : 56과 37:23사이에 boat1이 boat2를 따라간다" 또는 "boat3는 40:01에 부표에 접근한다"와 같은 문장들을 만들어낸다. "가끔 그것은 장면을 떠났다가 되돌아온 대상물도 매치시킬 수 있다"라고 Zhu는 말한다. 자동차가 정지신호에서도 달리는 것과 같은 특정 이벤트를 설명하도록 돕기 위해 가상의 "트립와이어"를 정의하는 것이 가능하다.
비록 시스템이 Zhu가 컴퓨터 과학에 원대한 비젼이라고 말하는 것을 향해 한단계 나아갔음을 보이고 있지만, "I2T는 아직 상품화를 위한 준비가 되지 않았다. 감시 카메라 프로세싱은 카메라가 고정되어 배경이 고정되어 있기 때문에 상대적으로 쉽다; I2T는 사람이 할수 있는 다양한 대상물 또는 상황을 인식할 수 없다. 가령, 만약 일정치 않은 이미지 또는 비디오가 입력되면, I2T가 제대로 동작하기 어려울 것이다. Lotus Hill Institute 훈련 셋트에 많은 수의 이미지를 추가함으로써 대상물과 장면을 인식하는 방법에 대한 시스템의 지식을 향상시키는 것이 도움이 될 것이라고 Zhu는 말한다.

감시 프로토타입의 기초가 되는 I2T 시스템은 강력하다고 트래픽 감시와 차량 추적을 보조하기 위해 컴퓨터 비젼의 사용을 연구하는 University of California, Berkeley의 연구원 Zu Kim은 말한다. 비록 이 시스템이 인간의 성능에 근접할 수 없다고 하더라도 "이는 정말로 훌륭한 연구의 일부이다"라고 그는 말한다.

Kim은 더 나은 이미지 파싱이 모든 종류의 인공 지능 연구에 관련된다고 설명한다. "좋은 이미지 파서는 매우 많은 가능성이 있다. 가령, 맹인들로 하여금 웹 상의 이미지를 이해하게 하는 것이 가능하다".

Kim은 비디오로부터 텍스트를 만들어내는 것의 다른 사용들을 -가령 음성 합성기에 입력될 수 있다 - 기대할 수 있다고 말한다. "누군가 운전하면서 감시 카메라가 보고 있는 것을 알아야할 필요가 있을때 유용할 수 있다". 그러나, 인간은 인간들이 시각적 창조물이고 많은 상황에서 스스로 이미지 또는 비디오에서 일어나는 일을 결정하기를 선호할 것이라고 그는 덧붙여 말한다.정하는 것을 많은 경우에서 좋아할 것으로 예상될 수 있다.

survey_x220.jpg

출처 : http://www.technologyreview.com/computing/25439/?a=f
반응형
:
Posted by 째시기