상세보기

파페로와 프레즌스로 살펴본 인간과 로봇 간 의사소통의 진화 파페로와 프레즌스로 살펴본 인간과 로봇 간 의사소통의 진화 관리자 기자입력 2007-12-24 18:32:21

비록 현재의 로봇이 일부 놀라운 일을 수행할 수 있지만, 아직 인간과 수다를 나눌만한 능력은 갖추고 있지 않다. 그럼에도 불구하고 1970년대 이후, 연구자들은 음성에 기초한 인간과 기계 사이의 인터페이스를 개발하려고 노력하고 있는데, 본 내용에서 파페로와 프레즌스를 통해 현재의 기술수준을 살펴보도록 하겠다. <편집자 주>

자료 : yesKisTi(http://theengineer.co.uk, http://www.physorg.com)




음성 인식 기술을 이용하여 블로그를 만드는 파페로(PaPeRo)

최근 일본 NEC社는 음성 인식이 가능한 로봇에게 이야기를 하는 것만으로 자동으로 그날의 사건들을 기술하는 사용자의 멀티미디어 블로그를 만드는 시스템을 개발했다.


·자연어 텍스트 검색 기능 통해 블로그 업로드
일본 NEC의 시제품 로봇인 파페로(PaPeRo) 상에 개발된 이 시스템은 사용자가 파페로와 하루의 사건들에 대해 이야기를 시작할 때 초기화되고, 시스템은 이러한 이야기 내용을 기록하고 분석한다. 여기에는 대규모의 어휘, 이야기를 텍스트로 변환하여 주요한 핵심어를 추출하는 지속적인 언어 인식 기술, 인터넷 상에서 콘텐츠를 탐색하도록 하는 자연어 텍스트 검색 기술 등이 결합되어 있다.
다음으로, 파페로는 추출된 핵심어와 일치하는 이미지, 삽화, 음악 등을 포함하는 적당한 멀티미디어 콘텐츠를 인터넷 상에서 탐색한다. 시스템은 직접 목적어와 술어, 동사와 같은 구문론 관계를 분석하여 인터넷 상의 콘텐츠에 포함된 텍스트와 언어 인식에 의해 변환된 비디오 메시지 텍스트 사이의 유사성을 계산한다. 이것은 텍스트 메시지의 내용과 어울리는 멀티미디어의 정확한 위치를 탐색할 수 있게 하며, 탐색된 콘텐츠는 비디오 녹화물과 함께 자동으로 사용자의 블로그에 업로드 되고 편집된다. 그리하여 사용자는 멀티미디어 블로그를 손쉽게 만들 수 있게 된다.


·아직 실세계에서는 수준 미달-로봇
그러나 이러한 노력의 진전은 더디고, 심지어 현재 시스템의 성능이 실제 세계에 적용하는 데 필요한 적당한 수준에 도달하지 못할지도 모른다는 우려도 일부 존재한다. 비록로봇을 훈련시키는 데이터의 양이 기하급수적으로 증가하고 있지만, 로봇은 아직도 악센트가 있는 말투나 대화를 이해하는 데 서투르고, 말할 때 개성과 표현력이 부족하다.


새로운 인간과 기계 사이의 상호작용 모델 프레즌스(PRESENCE)

영국 셰필드대(University of Sheffield)의 컴퓨터 과학자인 로저 무어(Roger Moore)는 음성에 기초한 인간과 기계 사이의 상호작용에서 현재의 상향식 구조(Bottom-up architecture)가 결함이 있을 수 있다고 생각하고 있다.
따라서 최근에 음성을 기초로 한 인간과 기계 사이의 상호작용을 위한 대안 모델인 프레즌스(PRESENCE; PREdictive SENsorimotor Control)를 제안했다.
기존의 환원주의자 구조(Reduct-ionist Architecture)는 음성언어를 말하는 사람의 마음에서 듣는 사람의 마음으로 전달되는 일련의 변환으로 보는 반면, 프레즌스는 좀더 통합적인 접근을 취하고 있다.
그에 따르면, 프레즌스는 순환 피드백 제어 구조(Recursive Feedb-ack Control Structure)에 집중하고, 이러한 순환 피드백 제어 구조에서 로봇은 자신을 인간의 처지에 있다고 상상하여 인간의 감정을 공유하려고 하고, 이에 따라 말하기 패턴을 바꾼다.


·계층적 구조 이용한 인간형 로봇 구성
음성 언어 기술에서 기존의 방법과 비교하여 프레즌스가 가지는 차이점은 우선 음성 인식 및 발성 과정을 통합하여 시스템을 설정하는 데 추정되어야 하는 파라미터의 수를 줄였다는 것이다.
두 번째로는, 저수준의 말하기 처리 행위와 고수준인지 행위의 결합을 시도한다는 것이다. 이를 통해 프레즌스에 기초한 시스템은 이러한 공정들을 독립적인 것으로 취급하는 기존의 시스템과 비교하여 상당한 장점을 제공하고 각각의 공정들을 통합하여 일관성 있는 전체 시스템으로 이루기 위해 노력한다.
로저 무어의 모델은 모든 생물체의 의사소통 행위나 사람의 특별한 인지 능력과 같은 최근의 신경 생물학 연구 결과에서 영감을 받았다. 비록 이러한 연구 결과가 음성 언어와 직접적으로 연관되지는 않지만, 감각 활동과 운동 활동 사이의 강력한 관계, 음성피드백 조절(Negative Feedback Control) 능력, 미래의 사건을 예측하는 기억 능력 등과 같이 인간과 로봇 사이의 언어 능력에 대해 많은 시사점을 제공하고 있다.



로저 무어는 예비 조사의 일환으로 인간과 로봇 사이에 상대적으로 간단한 동기화 작업을 시연하기 위해 프레즌스의 계층적 구조를 이용하는 알파 렉스(ALPHA REX)라 불리는 레고(LEGO)의 인간형 로봇을 구성했다.
사람이 일정한 간격으로 ‘하나, 둘’이라고 말을 했을 때, 이 로봇은 톡톡 두드리기를 수행했다.
전체적인 제어 루프가 에러 신호를 만들었고, 이를 이용하여 사람의 말과 일치할 때까지 로봇의 톡톡 두드리는 리듬을 수정했다. 동기화는 사람이 8번째로 숫자를 세었을 때에 이루어졌으며, 기존의 모델을 사용했다면 복잡한 해석적 해법을 계산해야 하기 때문에 시스템 지연을 야기했을 것이다.


더욱이 알파 렉스는 인간의 행위를 예측할 수 있기 때문에, 사람이 세는 것을 멈춘 후에도 여분의 시간에 톡톡 두드리기를 수행했다.
비록 간단한 것처럼 보이지만, 이러한 종류의 조화, 반응, 예측 능력은 원하는 상태를 달성하고자 행위를 환경에 반응하여 신속하게 변경하는 프레즌스 모델에서 필수적이다. 로저 무어가 설명한 바와 같이, 프레즌스는 말하거나 듣는 것에 관한 것이라기보다는 서로 필요한 것을 만족시키기 위해 사람과 로봇이 상호작용하는 것에 관한 것이다.
또한, 이것은 음성 인식, 발성, 대화 등과 같은 요소들의 분해에 의존하는 기존의 모델과 확실히 대비되는 것이다.
프레즌스를 사용하는 미래의 로봇은 로봇 동료, 손이나 눈을 사용하지 않는 정보 검색 시스템 등과 같은 다양한 응용분야에 적용할 수 있다. 로저 무어는 프레즌스를 구현한 로봇이 현재의 시스템에서 갖추지 않은 적당한 억양, 음량 크기, 감정의 정도 등을 만들 수 있을 것으로 예측하고 있다.
그는 심지어 새로운 로봇이 음성학, 자연과학, 생명 과학, 전산학 등과 같은 여러 학문 분야를 통합하고, 프레즌스 자체에 영감을 제시한 신경 생물학 분야에도 통찰력을 제공할지도 모른다고 제안하고 있다.


·현재의 인터페이스를 혁신적으로 향상시켜 줄 수 있는 차세대 기술 필요
마지막으로 로저 무어는 인간과 로봇 사이에 음성에 의한 의사소통이 발전하는 속도와 그 정도를 예측하기 매우 어렵다고 설명하는데, 우리가 주로 좀 더 많은 데이터에 대한 훈련을 하는 현재의 연구 패러다임을 단순히 계속한다면, 자동 음성 인식이 키보드 등과 같은 대안 기술과 경쟁하기 위해 인간이 가진 음성 인식 능력의 절반 정도는 되어야 할 것이다(인간을 능가할 필요는 없다).


이것은 언제 달성될 것인가? 지난 10년간의 발전이 지속된다면 약 20년이 필요할 것이라고 이야기하고 있으나 이러한 속도의 발전이 앞으로도 지속할 가능성이 적어서 어쩌면 달성되지 않을 수도 있다.


프레즌스와 같이 사람과 로봇 사이의 인터페이스를 사람과 사람 사이처럼 자연스럽게 해주는 인간 중심의 인터페이스는 키보드나 마우스가 주를 이루는 현재의 인터페이스를 혁신적으로 향상시켜 줄 수 있는 차세대 기술이 될 것이다. 이러한 기술이 성공적으로 개발되면 로봇뿐만 아니라 휴대전화, 노트북, PC, MP3플레이어, PDA, 카메라 등 사람과의 인터페이스가 필요한 모든 분야에서 크게 진전을 이룰 것으로 기대된다.


이러한 인터페이스 기술의 개발은 사용자가 원하는 형태로 이루어져야 하므로, 기술 개발 과정에서 사용자의 성향이 잘 반영되어야 한다. 이를 위해 기술 개발을 위한 과학자 및 공학자뿐만 아니라 심리학자, 디자이너, 마케팅 전문가 등과의 공동 작업이 요청되고 있다.

프레즌스(presence)란 일반적으로 ‘신호를 28kHz 범위에서 쏘거나 마이크 가까이에서 녹음을 함으로써 그 소리가 생생하고 자연스러우며 따뜻하게 들리는 소리의 특성’을 뜻한다. 최근 이 기술은 로봇에 적용되며 시장을 넓히고 있다.

관리자 기자
로봇시대의 글로벌 리더를 만드는 로봇기술 뉴스레터 받기
전문보기
관련 뉴스
의견나누기 회원로그인