상세보기

다양한 로봇분야에 공통으로 적용되는 핵심 요소기술, HRI를 잡아라! 다양한 로봇분야에 공통으로 적용되는 핵심 요소기술, HRI를 잡아라! 김재호 기자입력 2011-12-28 00:00:00

인간로봇상호작용(HRI) 기술의 현황과 발전 방향

 

다양한 로봇분야에 공통으로

 

적용되는 핵심 요소기술, HRI를 잡아라!


인간과 로봇의 상호작용을 뜻하는 HRI는 로봇이 가지는 자율성, 상호작용의 양방향성, 상호작용 또는 제어 수준의 다양성 등에서 인간-컴퓨터 상호작용(HCI: Human-Computer Interaction)과는 근본적인 차이점을 가지고 로봇전문가들의 관심을 받고 있다. 인간과 로봇이 다양한 의사소통 채널을 통해 인지적/정서적 상호작용을 할 수 있도록 로봇시스템 및 상호작용 환경을 디자인, 구현 및 평가하는 기술을 의미하기도 하며, 로봇이 인간과의 자연스러운 의사소통 및 상호협력을 위해 사용자의 의도를 종합적으로 판단하고, 그에 맞는 반응 및 행동을 하기 위한 기술이라는 뜻도 갖는 HRI 기술의 현황과 발전 방향에 대해 한국산업기술평가관리원에서 발표한 내용을 본지에서 소개한다.

 

HRI  정의 및 중요성
HRI(Human-Robot Interaction)란 로봇이 사용자 의도를 판단하고, 적합한 반응과 행동을 수행함으로써 인간과의 의사소통 및 상호협력을 가능하게 하는 인식-판단-표현 기술이다.HRI 기술은 크게 인식(Perception), 판단(Cognition), 표현(Expression)의 3단계가 밀접하게 연계되어 수행될 때, 사용자의 만족도를 가장 많이 높일 수 있다. 인식 기술은 카메라나 마이크를 이용한 얼굴인식, 표정인식, 제스처인식, 물체인식, 휴먼 추종, 음원 인식, 음색인식, 음성인식 등의 기술 및 FSR(Force Sensing Register)이나 비접촉 터치 센서를 이용한 사용자의 접촉 인식, 매개체인 리모컨이나 아이콘 명령과 같은 매개인터페이스 기술을 포함한다.


로봇이 수행해야할 작업, 행동 및 감정을 판단하는 판단 기술은 인식기술에 의해 획득된 정보들을 상황인지(situation awareness) 모듈을 통해 로봇이 이해 가능한 상황 정보들로 바꾸며, 로봇은 인터랙션 모델, 태스크 모델, ontology, 사용자 정보들을 종합적으로 이용한 인지적인 프로세스를 거쳐 판단할 수 있다.


결정된 로봇의 감정, 행동은 multi-modal expression 모듈에서 여러 모달리티들을 통해 표현(expression)된다. 휠이나 다리를 이용한 주행(navigation), 팔을 이용한 조작(manipulation), 바디 모션과 제스처, 얼굴 로봇이나 아바타를 통한 로봇의 표정표현, TTS(Text To Speech)를 통한 언어 표현, 그리고 음향을 이용한 표현들을 통해 로봇의 의사 전달력과 표현력 증대가 가능하다.


HRI 기술은 지능형 로봇의 핵심원천기술로 서비스로봇의 상용화를 위해 확보해야할 필수 기술이다. 시각인식, 음성인식, 감정표현, 학습 등 인간의 다양한 감각기관·지능 역할을 담당하여 로봇에 생동감을 부여하는 것이다. 이 같은 지능형로봇의 핵심원천기술은 이동지능, 작업지능, 부품소재 및 시스템통합 기술, HRI(Human-Robot Interaction) 등이 있으며, 개인서비스 로봇뿐만 아니라 전문서비스 로봇 분야까지 폭넓게 적용되어 로봇융합 산업에 대한 파급력이 가장 큰 기술로, 최대 시장성장이 예측되는 서비스 로봇산업 육성을 위해 HRI의 기술적 난제 해결이 가장 시급하다.


현재 로봇산업 부활의 견인차는 연평균 15%의 성장을 보이는 HRI 기술 의존도가 큰 전문서비스 로봇이 담당하고 있다. 로봇의 수요가 인간친화 서비스 부문으로 영역이 확대될 것으로 보고 인식, 판단, 표현 등 HRI 기술 투자를 강화할 필요 있다.


미국은 2011년 HRI 기술이 중심이 되는 인간과 함께 일하는 로봇의 연구개발을 위해 NRI(National Robotics Initiative)를 발표하였고, EU는 FP7과 FP8에서 인지 로봇 및 HRI 기술 개발에 집중 투자하고 있다.

HRI  원천기술 동향
* 투자동향
정부투자 추이 분석에 따르면, 전체 R&D 투자에서 기초·원천기술의 비중이 25.4%이며, 원천기술 중에서도 HRI 분야에 가장 적은 투자가 이루어진다. 지금까지 로봇분야 연구개발은 상용화 위주로 투자가 전개되고 있어 시장이 본격적으로 열리게 되면 원천기술의 부족으로 경쟁력이 떨어질 것이 우려된다. 특히, 미래 막대한 시장규모를 갖게 될 서비스 로봇에서 부가가치가 큰 HRI 원천기술에 대한 투자를 획기적으로 늘릴 필요가 있다.

 

* 기술동향
기초적인 하드웨어 중심의 인식기술 위주에서 인지과학과 융합된 복합적 상황인지와 행동기술로 발전되고 분산 네트워크와 접목된 HRI 기술 개발도 시도되고 있다. 2010년에 접어들며 로봇기술 선진국에서의 HRI 기술은 인식 및 로봇 하드웨어와 같은 요소기술 위주에서, 복합적 상황 인식 및 인지 발달 연구로 집중되고 있다. RobotCub(EU), Pneuborn-7II(일본), PR2(미국) 등의 로봇 시스템에 대하여 인간의 인지 및 행동 패턴을 학습하는 인지 구조 모델이 개발 중이다.


분산 네트워크 기술을 토대로 방대한 환경 인식 정보 및 HRI 관련 자원의 공유 및 표준화가 시도되고 있다. Willow Garage사(미국)의 3차원 인식 클라우드 서비스인 PCL(Point Cloud Library)의 경우 오픈소스 정책에 따른 API의 보급 및 자료 공유가 진행되고 있고, 구글, 토요타, 엔비디아 등의 업체가 공동으로 참여 중이다.

 

* 개발동향
단위 인식 기능별 성능 향상을 목표로 개발하고 있다. 국내외 연구기관 모두 기존의 HRI 인식기술은 얼굴인식, 화자인식, 제스처인식, 휴먼추종, 음원추적 등의 단위 기능별로 개발하고 있으며, 로봇 환경이 아닌 지능형 영상처리 시스템의 경우 각각의 단위 인식 기술(예: 얼굴인식)은 전 세계적으로 관심이 폭발적으로 증가하고 있다.


애플은 2010년 스웨덴 얼굴인식 업체 폴라로즈를 인수, 구글은 올해 7월 얼굴인식 업체인 피트팻(PittPatt)을 인수했으며 MS는 얼굴인식 기능이 내장된 Window 8을 런칭하고 있다. 얼굴인식은 지난 수년간의 시행착오 끝에 상당한 발전을 이루었다. 관련 연구에 따르면 가만히 있는 얼굴정면 사진에서 얼굴과 이름 매치를 잘못 할 에러율은 1993년 79%에서 2010년 0.29%로 하락했다.

 

HRI  국내외 기술개발 현황
국내현황

 

* 휴먼 인식 기술
한국전자통신연구원에서는 휴먼 검출을 위해, 근거리(0.5~2.5m)에서는 얼굴검출기(정면/측면), 중거리(2m~5m)에서는 오메가(Ω)검출기, 원거리(4m~9m)에서는 바디검출기를 개발하였다. 중거리 및 근거리에서 휴먼이 검출되면, 추적하는 기술을 연동하고, 얼굴이 일정크기 이상 입력되면 얼굴 인식을 시도했으며, 화자인식을 결합한 멀티모달 사용자 인식기술을 개발했다.

 

* 제스처 인식 기술


ETRI에서 개발한 로봇 제어를 위한 원거리 제스처 인식기는 손을 흔드는 동작, 로봇을 부르는 동작, 한 손을 드는 동작, 양손을 드는 동작을 인식했다. 4가지 인식 제스처 이외의 일상생활 동작에 대해서는 반응하지 않도록 설계되어 실 환경에서 신뢰성 있게 동작하도록 개발되었다. 전자부품연구원에서는 고선명 공간투영 방식의 3D 디스플레이와 고정밀 핑거 공간터치 기술을 결합하여 공간에 투영된 3D 가상 물체를 터치하여 상호작용하는 시스템을 개발하였으며, TOF 카메라와 신경망을 이용한 제스처 인식기술을 개발하였다.

 

* 표정/음색인식 및 생체 신호 기반의 휴먼 감정인식 기술
ETRI 인지기술팀은 표정 변화에 따라 발생되는 정면얼굴 각 특징점의 위치 변화를 감지해서 무표정, 웃음, 찡그림, 놀람의 4가지 표정을 자연스럽게 인식할 수 있는 표정 인식기를 개발하였다.포스텍(POSTECH) 김대진 교수팀은 미세한 표정을 과장된 표정으로 변환할 수 있는 ‘모션증폭’ 기술을 이용하여 4가지 표정을 인식. 20명을 대상으로 실시한 실험에서 88%의 성공률을 보임. 영국 과학전문지 ‘뉴사이언티스트’에 공개했다. 숭실대학교는 임베디드 시스템에서 실시간 표정인식을 위해 가버 웨이블릿 특징기반으로 화남, 행복, 평온, 슬픔, 놀람의 5가지 표정인식에서 평균 10.25ms의 수행시간과 87~93%의 인식 성능을 보였다.

* 로봇 표현기술
KAIST의 HRI Group에서는 6가지 모달리티를 활용하여 다양한 표현을 하는 로봇KaMERo를 개발하였다. KaMERo는 터치, 음성 등으로 들어온 사람의 감정 정보와 주변 상황정보에 따라 로봇의 감정 상태를 결정하여 얼굴 표정, 안테나, LED, 음향, 감정 TTS, 몸 움직임의 멀티 모달리티를 이용하여 표현했다. 감정 TTS의 경우 일반적인 TTS의 단조로운 톤을 피하기 위해 개발된 새로운 형태의 TTS 방식으로써 로봇의 감정 상태에 따라 억양과 말의 속도 등이 변화하여 발화됐다.

 

해외현황

 

* 제스처 인식 기술
미국 Microsoft가 2009년 1월 E3에서 발표한 Kinect 프로젝트는 기존의 게임기와 달리 별도의 제어장치 없이 게임을 즐길 수 있도록 카메라 및 센서 디바이스를 이용하여 사용자 움직임을 인지하고 그에 따라 반응하며, 음성인식 및 얼굴인식을 통해 사용자의 명령을 인식함으로써 보다 혁신적인 사용자 인터랙션 기능을 개발했다.


또한 미국 MIT 대학의 Media Lab에서 2009년 2월 발표한 `Sixth Sense`는 실세계에 디지털 정보를 보다 편리하게 연결하여 사용할 수 있도록 개발된 새로운 형태의 착용형 마커로 표시된 손가락 및 움직임을 인식하고 제스처를 통해 사용자 명령을 인식하는 제스처 기반 인터페이스 기술을 개발했으며, Willow Garage에서는 Hand Detection과 Image Descriptors를 이용하여 로봇에게 제스처로 시작 및 종료 명령을 내렸다.

 

* 표정/음색인식 및 생체 신호 기반의 휴먼 감정인식 기술
EEG(신경활동)와 감정/정서/인지 인식 기술 연구에 대해 국외에서는 간편화된 EEG 측정 시스템을 활용하여 뉴로피드백에 기반한 게임기(NEUROBOY, neurosky inc) 등이 개발되어 상용화됐다. 즉, EG 신호를 측정하고 이를 분석하여 특정 상대방에게 전화를 걸 수 있도록 하는 연구가 수행되고 있다. 독일의 Fraunhofer Institute에서는 Glove 형태의 Multi Sensor 시스템을 개발하여 사람의 감정에 따른 피부전도도 및 심박수를 감지하여 Bluetooth 등을 통해 단말기 상에서 측정 신호를 분석하는 시스템 개발했다. 뇌파 조정기 개발업체 이모티브(Emotiv)가 사람의 표정을 읽어 컴퓨터에 반응하는 신개념 헤드세트 ‘Emotiv EPOC’을 출시했다.


16개의 센서가 장착되어 뇌의 전기신호를 감지하는 EEG를 이용해, 뇌 세포가 만들어 내는 전기적 신호를 읽고 그것을 게임 속 명령으로 번역했다. 헤드셋이 30가지의 감정과 얼굴표현을 읽어낼 수 있다고 제작사는 설명했다. 미소, 웃음, 윙크, 충격, 화 등이 감정은 물론이고, 밀고 들고 당기며 떨어뜨리고 돌리는 등의 육체적 의도 헤드셋이 해석한다.


미국 뉴로스카이사도 뇌파기반의 인터페이스 ‘MindSet’을 상용화할 계획으로, 뇌파감지센서가 부착된 헤드셋으로 사용자의 의도를 인식하며, 사이버 키네틱스는 전신마비 환자의 머리에 센서칩을 장착하여 TV나 컴퓨터 조작에 성공했다. Willow Garage에서는 실내에서 사용자를 인식, 추종할 수 있는 로봇 시스템을 개발했다.

 

* 로봇 표현 기술
미국 MIT의 Kismet, Leonardo 등의 robotic companion을 통해 생명체로서의 self motivation을 통해 내부 drive를 발현하고, 환경 정보로부터 다양한 감정적 대응을 자연스럽게 함으로서, 환경에 효과적으로 적응하거나 혹은 그것을 새롭게 구성하고자 하는 adaptive 혹은 proactive capability를 구현하는 연구가 개발되고 있다.


미국 USC의 Robotics Research Lab.내의 Interaction Lab. (Prof. Maja Mataric)에서는 멀티채널을 활용한 로봇의 표현을 활발하게 연구했다. 얼굴 표정과 몸동작을 통한 표현을 연구하기 위한 테스트베드로 Bandit를 개발하였으며, 두 번째 버전까지 완성된 상태이다.


Bandit와는 별개로 사람의 동작을 그대로 모사하면서 사람처럼 움직일 수 있도록 다자유도 로봇 시스템인 Sparky도 함께 개발하였으며, 이 로봇은 tendon-driven 방식으로 총 18개의 모터를 제어하여 움직임을 표현했다. 일본 와세다대학의 Takanishi Lab.에서는 의인화 기법을 활용하여 로봇을 디자인하고 그에 맞는 멀티채널 표현이 가능하도록 연구하고 있다. 의인화 기법이란 사람의 모습을 그대로 모사해서 제작하는 것은 물론, 그 구조 역시 사람의 것과 동일하게 만드는 것으로, 실린더를 이용하여 사람의 폐를 모사하고, 성대, 혀, 치아 등의 구강 구조 역시 흉내 내어 제작하는 방법이 있다.


다양한 로봇들이 개발되고 있지만 그 중에서도 WE-4RII는 감정 표현에 특화시켜 개발하고 있는 로봇이다.

 

HRI  향후 발전 방향


* HRI 원천기술의 개발 방향
HRI1.0은 지금까지 개발된 HRI 원천기술로서 단위기능별 성능 향상을 목표로 한 기술로 정형화된 환경에서 인식가능하며, 시장 미성숙에 따른 수요자의 요구사항이 충분히 반영되지 않아 기업의 활용도가 낮다.
이후 버전인 HRI2.0은 시장 참여자와 기술 공급자가 클라우드 환경에서 목표성능을 공유하고 컴퓨팅 자원들의 효율적 사용으로 실제 서비스에 대한 대응력을 높인 시장 지향의 개방형 HRI 기술이다. 실제 로봇서비스가 제공되는 환경조건과 성능목표에 대한 데이터베이스에 기초하며 자원들의 상호연동이 가능한 라이브러리의 형태로 기술이 표현되어 활용성이 뛰어나다.

 

* HRI 원천기술의 개발 로드맵
개별적 기능 위주의 개발에서 실 환경 적용 위주의 개발로 전환됐다. 인지 기능별로 상황을 인식하는 HRI 개발에서 상황을 판단하고 표현하는 기술 개발을 목표로 한다.
최종적으로는 상황에 맞춰 스스로 서비스 하는 HRI 기술로 발전하여야 하며, 사람-로봇-스마트장치 간 통합 인터렉션 융합되고 있다.

 

* HRI 2.0 기술 개발 방향 전환
최근 동향을 보면 연속적인 모니터링에 기반한 인식기술 개발에서 환경 센서 및 분산 자원 융합 인식기술 개발로 전환됐다. 인식 이후에 서비스 시나리오에 기반한 인식/판단/표현이 유기적으로 연동해 서비스를 제공한다.


기존의 3H(who, what, where)문제를 해결하는 인식(Perception)중심의 연구에서 지능의 복합 활용인 5W1H (who, what, where, why, when, how) 문제의 해결로 전환한다.

- who : 얼굴인식, 화자인식, 얼굴/화자 융합 / what: 제스처인식 / where: 휴먼추적, 위치추적
- why: 상황추론, 지능(추론엔진/온톨로지 연계) / when: 학습에 따른 상황적 시간 연계(누가 ~ 했을 때)
- how: 시나리오 및 감성 표현 장치(햅틱, 메뉴퓨레이터 등)와 연계 

 


한국산업기술평가관리원  www.keit.re.kr

 


 

김재호 기자
로봇시대의 글로벌 리더를 만드는 로봇기술 뉴스레터 받기
전문보기
관련 뉴스
의견나누기 회원로그인
  • 자동등록방지