재미있는 미래기술
디지털 도서 분석을 통한 문화적 게놈 프로젝트
째시기
2010. 12. 28. 13:13
반응형
디지털 도서를 일종의 문화적 게놈으로 사용하여 인류에 대한
정량적인 접근이 가능하게 되었다. 연구자들이 인류 문화에 대한 디지털 화석 레코드로써 발행된 전체 도서의 약 4퍼센트를 사용하여
시간별로 주요 도서에서 나타나고 있는 단어들이 무엇인지 분석하여 문화적 & 역사적 관점에서 살펴볼 수 있는 다양한 계량화된
개념을 발견한 것으로 평가된다.
미국 하버드 대학의 연구팀에 의하여 4년간 진행된 본 연구는 2010년 12월 세 번째 주, 저널 사이언스지에 게재되었다. 하버드 대학과 구글, 브리태니커 백과사전, 미국 유물 사전 등으로 구성된 본 연구팀은 자신들의 접근방법을 일종의 컬처노믹스로 간주하면서, 인류의 총체적인 메모리에 대하여 다양한 관점에서 통찰력을 제공할 수 있는 새로운 기회를 선사할 수 있을 것이라 제시하고 있다. 기술의 채택과 평판에 대한 다이내믹스, 검열과 유포된 정보간의 복합적인 작업들이 이와 같은 연구 프로젝트를 가능하도록 만들고 있다.
1950년대 인류사회와 사회과학 관련 데이터에 대한 컴퓨터 관점에서의 접근에 대한 관심이 나타나고 있고, 문화 연구에 대하여 일종의 계량화된 방법들을 적용하기 위한 시도들이 적절한 데이터 부족으로 인하여 방해가 되었는데, 이번의 연구를 통하여 대량 데이터셋에 대한 확보가 가능해졌고, 사용자 친화적이면서, 사용자에게 유용한 인터페이스 제공이 가능하게 되었다.
구글사에서는 이와 같은 연구 작업을 뒷받침할 수 있는 새로운 온라인 도구를 출시하였는데, 사용자로 하여금 특정 단어나 구절을 입력하기만 하면 지난 수세기동안 이와 같은 단어들이 얼마나 자주 사용되었는지를 제시하는 매우 단순한 인터페이스를 선보인 것이다.
컬처노믹스는 사회과학과 인류사회에 대한 새로운 현상에 대한 엄격한 질량차원의 관심관련 영역을 확장하고 있다고 말하면서, 이와 같은 문화적 기록들을 브라우징 하는 것은 시대별 인류에 있어서 무엇이 중요한지에 대한 관심을 가지고 있는 사용자에게 매혹적인 부분으로 다가올 수 있고, 인류와 사회과학 관련 학자들에게 있어서, 이와 같은 방법이 대단히 유용하면서, 강력한 도구로서 역할을 발휘할 수 있을 것으로 기대된다고 말하고 있다.
본 데이터 셋은 다운로드가 자유자재로 가능하고, 이전의 역사적 언어자료보다 수천 배 이상의 분량을 가지고 있다. 풀 텍스트는 거의 520만권 분량의 도서에 달하고 있고, 수록된 단어 수는 5천억 개에 이른다. 일렬로 쭉 연결한다면, 지구에서 달까지를 열 번 이상 왕복할 수 있는 분량인 것이다.
전 세계 도서에 관한 중요한 부분들이 디지털화되고 있고, 컴퓨터 기반의 분석을 통하여 역사, 문화, 언어, 사고에 있어서의 기존에 발견되지 않았던 트렌드들이 새롭게 조명되는 기회가 될 것이라고, 구글사의 도서 관련 엔지니어링 관계자는 말하고 있다. 본 연구는 새로운 접근방법에 대한 개발을 제시하면서, 지난 2세기에 걸쳐 나타나고 있는 다양한 종류의 애플리케이션들을 서베이하고 있는데, 이번 연구팀에서 발견한 사항들을 다음과 같이 일곱 가지로 제시할 수 있다.
첫째, 영어에 매년 8,500개의 새로운 단어들이 추가되고 있고, 1950년대와 2000년대 사이에 사전분량이 70퍼센트 이상 증가하였다. 새로 추가된 언어들 중 많은 부분들이 아직 사전에서 찾아보기 힘들고, 영어 어휘중 약 52퍼센트가 다양한 영서 관련 도서에서 사용되고 있고, 표준화된 참고사항에서 사실의 뒷받침이 없는 형태의 어휘들도 여전히 많은 것으로 조사되었다.
둘째, 인류사회는 과거보다 훨씬 빠르게 많은 부분들을 잊어가고 있는데, 하버드와 구글 연구팀에서는 1875년부터 1975년 사이에 이러한 현상이 어떻게 지속되었는지를 관찰하였는데, 19세기보다 훨씬 가속도를 띄고 있는 것으로 나타나고 있다.
셋째, 혁신의 진행속도가 이전보다 훨씬 빨라지고 있다. 예를 들어, 19세기말에 발명에 있어서의 속도는 19세기 초반보다 거의 두 배 이상 신속하게 진행된 것으로 나타나고 있다.
넷째, 현대 유명 인사들이 19세기보다 훨씬 젊어지고 있지만, 명성의 유지기간은 반비례로 짧아지고 있다. 1950년대 출생한 유명인사는 평균 29세에 유명세를 얻곤 하였는데, 이는 1800년대 출생한 유명 인사들이 자신의 유명세를 43세에 얻곤 하던 것에 비한다면 훨씬 짧아진 것으로 해석된다. 반면, 이와 같은 명성은 이전보다 거의 절반이상의 짧은 기간 동안 유지되지 못하고 있는 것으로 조사되었다.
다섯째, 유명 연예인은 30살 전후, 유명작가는 40살 전후, 정치가는 50살 전후에 유명세를 얻고 있는 것으로 나타났다. 최고 인기를 구사하는 정치가의 경우에는 최고 인기 배우보다 더욱 유명세를 가지는 것으로 나타났다.
여섯째, 컬처노믹스는 검열과 선전활동에 있어서 자동적으로 인식되는 강력한 도구로 나타났다. 예를 들어, 유대계 아티스트인 Marc Chagall은 1936년부터 1944년 사이에 전체 독일 어휘에서 단지 1번 언급되었는데, 영어권에서는 거의 다섯 배의 차이가 나는 비율로 언급정도가 높은 것으로 조사되었다. 톨스토이에 관련된 러시아 도서에서 언급된 정도나, 천안문 광장에 대한 중국어에 대하여 언급된 정도도 이와 유사한 것으로 조사되었다. 미국의 경우 할리우드 텐에 관한 어휘언급은 1947년까지만 해도 블랙리스트로 기록되고 있었다.
일곱 번째, 프로이드는 갈릴레오, 다윈, 아인슈타인보다 개개인의 잠재의식 속에 훨씬 뿌리박혀 있는 것으로 나타났다.
미국 하버드 대학의 연구팀에 의하여 4년간 진행된 본 연구는 2010년 12월 세 번째 주, 저널 사이언스지에 게재되었다. 하버드 대학과 구글, 브리태니커 백과사전, 미국 유물 사전 등으로 구성된 본 연구팀은 자신들의 접근방법을 일종의 컬처노믹스로 간주하면서, 인류의 총체적인 메모리에 대하여 다양한 관점에서 통찰력을 제공할 수 있는 새로운 기회를 선사할 수 있을 것이라 제시하고 있다. 기술의 채택과 평판에 대한 다이내믹스, 검열과 유포된 정보간의 복합적인 작업들이 이와 같은 연구 프로젝트를 가능하도록 만들고 있다.
1950년대 인류사회와 사회과학 관련 데이터에 대한 컴퓨터 관점에서의 접근에 대한 관심이 나타나고 있고, 문화 연구에 대하여 일종의 계량화된 방법들을 적용하기 위한 시도들이 적절한 데이터 부족으로 인하여 방해가 되었는데, 이번의 연구를 통하여 대량 데이터셋에 대한 확보가 가능해졌고, 사용자 친화적이면서, 사용자에게 유용한 인터페이스 제공이 가능하게 되었다.
구글사에서는 이와 같은 연구 작업을 뒷받침할 수 있는 새로운 온라인 도구를 출시하였는데, 사용자로 하여금 특정 단어나 구절을 입력하기만 하면 지난 수세기동안 이와 같은 단어들이 얼마나 자주 사용되었는지를 제시하는 매우 단순한 인터페이스를 선보인 것이다.
컬처노믹스는 사회과학과 인류사회에 대한 새로운 현상에 대한 엄격한 질량차원의 관심관련 영역을 확장하고 있다고 말하면서, 이와 같은 문화적 기록들을 브라우징 하는 것은 시대별 인류에 있어서 무엇이 중요한지에 대한 관심을 가지고 있는 사용자에게 매혹적인 부분으로 다가올 수 있고, 인류와 사회과학 관련 학자들에게 있어서, 이와 같은 방법이 대단히 유용하면서, 강력한 도구로서 역할을 발휘할 수 있을 것으로 기대된다고 말하고 있다.
본 데이터 셋은 다운로드가 자유자재로 가능하고, 이전의 역사적 언어자료보다 수천 배 이상의 분량을 가지고 있다. 풀 텍스트는 거의 520만권 분량의 도서에 달하고 있고, 수록된 단어 수는 5천억 개에 이른다. 일렬로 쭉 연결한다면, 지구에서 달까지를 열 번 이상 왕복할 수 있는 분량인 것이다.
전 세계 도서에 관한 중요한 부분들이 디지털화되고 있고, 컴퓨터 기반의 분석을 통하여 역사, 문화, 언어, 사고에 있어서의 기존에 발견되지 않았던 트렌드들이 새롭게 조명되는 기회가 될 것이라고, 구글사의 도서 관련 엔지니어링 관계자는 말하고 있다. 본 연구는 새로운 접근방법에 대한 개발을 제시하면서, 지난 2세기에 걸쳐 나타나고 있는 다양한 종류의 애플리케이션들을 서베이하고 있는데, 이번 연구팀에서 발견한 사항들을 다음과 같이 일곱 가지로 제시할 수 있다.
첫째, 영어에 매년 8,500개의 새로운 단어들이 추가되고 있고, 1950년대와 2000년대 사이에 사전분량이 70퍼센트 이상 증가하였다. 새로 추가된 언어들 중 많은 부분들이 아직 사전에서 찾아보기 힘들고, 영어 어휘중 약 52퍼센트가 다양한 영서 관련 도서에서 사용되고 있고, 표준화된 참고사항에서 사실의 뒷받침이 없는 형태의 어휘들도 여전히 많은 것으로 조사되었다.
둘째, 인류사회는 과거보다 훨씬 빠르게 많은 부분들을 잊어가고 있는데, 하버드와 구글 연구팀에서는 1875년부터 1975년 사이에 이러한 현상이 어떻게 지속되었는지를 관찰하였는데, 19세기보다 훨씬 가속도를 띄고 있는 것으로 나타나고 있다.
셋째, 혁신의 진행속도가 이전보다 훨씬 빨라지고 있다. 예를 들어, 19세기말에 발명에 있어서의 속도는 19세기 초반보다 거의 두 배 이상 신속하게 진행된 것으로 나타나고 있다.
넷째, 현대 유명 인사들이 19세기보다 훨씬 젊어지고 있지만, 명성의 유지기간은 반비례로 짧아지고 있다. 1950년대 출생한 유명인사는 평균 29세에 유명세를 얻곤 하였는데, 이는 1800년대 출생한 유명 인사들이 자신의 유명세를 43세에 얻곤 하던 것에 비한다면 훨씬 짧아진 것으로 해석된다. 반면, 이와 같은 명성은 이전보다 거의 절반이상의 짧은 기간 동안 유지되지 못하고 있는 것으로 조사되었다.
다섯째, 유명 연예인은 30살 전후, 유명작가는 40살 전후, 정치가는 50살 전후에 유명세를 얻고 있는 것으로 나타났다. 최고 인기를 구사하는 정치가의 경우에는 최고 인기 배우보다 더욱 유명세를 가지는 것으로 나타났다.
여섯째, 컬처노믹스는 검열과 선전활동에 있어서 자동적으로 인식되는 강력한 도구로 나타났다. 예를 들어, 유대계 아티스트인 Marc Chagall은 1936년부터 1944년 사이에 전체 독일 어휘에서 단지 1번 언급되었는데, 영어권에서는 거의 다섯 배의 차이가 나는 비율로 언급정도가 높은 것으로 조사되었다. 톨스토이에 관련된 러시아 도서에서 언급된 정도나, 천안문 광장에 대한 중국어에 대하여 언급된 정도도 이와 유사한 것으로 조사되었다. 미국의 경우 할리우드 텐에 관한 어휘언급은 1947년까지만 해도 블랙리스트로 기록되고 있었다.
일곱 번째, 프로이드는 갈릴레오, 다윈, 아인슈타인보다 개개인의 잠재의식 속에 훨씬 뿌리박혀 있는 것으로 나타났다.
반응형