상세보기

로봇의 탐색과 장면 이해를 돕는 알고리즘 정대상 기자입력 2014-04-08 18:35:20

사물의 방향을 결정하기 위한 알고리즘이 로봇의 탐색과 장면 이해를 도와주는데 사용될 것이다. 

만약 당신이 대도시의 익숙하지 않은 지역을 찾으려고 할 때, 기준이 되는 지점으로서 특별한 여러 개의 고층빌딩을 사용하게 될 것이다. 교통 체증과 일방통행 도로가 당신을 이상한 곳으로 가게 할 것이며, 랜드마크가 시야에서 사라지게 될 것이다. 그것들이 다시 나타났을 때, 탐색지점으로 이것을 사용하기 위해서, 당신은 이것이 이전에 추적했었던 같은 건물이라는 것을 감지할 수 있어야만 할 것이다. 이뿐만 아니라, 당신이 있는 지점이 그것들과 가까이 있다는 것도 감지해야 한다. 

사람들에게 이러한 종류의 재식별은 아주 간단한 일이지만, 컴퓨터에게는 어려운 일이다. 6월에 열리게 되는 IEEE 컴퓨터 비전 및 패턴인식 컨퍼런스(IEEE Conference on Computer Vision and Pattern Recognition)에서 MIT 연구원들은 3D 장면의 주요한 방향을 식별하도록 함으로써 이것을 더 쉽게 만들 수 있는 새로운 알고리즘을 발표할 예정이다. 또한 같은 알고리즘이 컴퓨터 비전연구의 주요한 도전 중 하나인 장면 이해 문제를 단순화할 수 있을 것이다. 

이 알고리즘은 익숙하지 않은 건물을 탐색하는 로봇을 돕기 위해서 만들어진 것이다. 낯선 도시를 탐색하는 운전자를 위한 것은 아니지만 그 원리는 같은 것이다. 이것은 주어진 장면에서 가장 주요한 방향을 감지하여 동작하게 되며, 구에 포함된 “맨해튼 프레임(Manhattan frames)”이라는 한 셋의 축으로 나타나게 된다. 로봇이 움직이게 되면, 반대 방향에서 회전하는 구를 관찰하게 되며, 축과 관련된 방향을 측정할 수 있게 된다. 이것이 자체적으로 새로운 방향을 찾고자 할 때마다, 랜드마크의 정면이 그것을 향해야만 하는지를 알고 있어야만 한다. 왜냐하면 감지하는 것이 더 쉽기 때문이다. 

이것이 판명되면, 같은 알고리즘은 또한 면 분할에 대한 문제를 매우 단순화할 수 있거나, 시각적인 장면의 요소들이 얼마의 깊이를 가지고 어떤 면에 놓여있는지를 결정하게 된다. 면 분할은 컴퓨터가 장면에서 사물에 대한 상자 모양의 3D 모델을 만들 수 있도록 해준다. 그 다음에 알려진 사물에 대한 3D 모델을 저장하기 위해서 일치시킬 수 있게 된다. 

MIT 전기공학 및 컴퓨터과학과의 대학원생인 Julian Straub가 이 연구논문의 주저자이다. 그는 MIT 컴퓨터과학 및 인공지능 연구실의 선임연구과학자인 John Fisher, 기계 및 해양공학과 John Leonard 교수 및 피셔스 센싱, 학습 및 추론그룹(Fisher`s Sensing, Learning, and Inference Group)의 박사 후 과정생인 Oren Freifeld와 Guy Rosman과 함께 연구를 진행하였다. 

연구원들의 새로운 알고리즘은 MS 키네틱(Microsoft Kinect) 또는 레이저거리측정기(laser rangefinders)에 의해서 포착된 3D 데이터를 가지고 동작하였다. 먼저 확실한 방법을 사용한 이 알고리즘은 장면 내의 여러 개 개별적인 지점에 대한 방향을 추정하게 되었다. 이러한 방향들은 구의 표면에서 지점으로서 나타나게 되며, 구의 중심과 특별한 각도를 갖는 각각의 지점을 갖게 된다. 

초기의 방향 추정이 대략적인 것이었기 때문에, 구위의 지점들은 구별하기 어려울 수 있는 정밀하지 않은 클러스터를 만들게 된다. 초기 방향 추정의 불확실성에 관하여 통계학적인 정보를 사용함으로써, 이 알고리즘은 구 위의 지점에 대하여 맨해튼 프레임을 적합하도록 하는 시도를 하였다. 

기본적인 아이디어는 지점에 대하여 가장 최적으로 점들이 분산되어 있는 줄을 찾는 회귀 분석(regression analysis)과 유사하다. 그러나 이것은 구의 형상에 의해서 복잡하게 된다. “대부분의 고전적인 통계학은 선형성과 유클리드 거리에 기반을 두기 때문에 두 지점을 찾아서 그것들을 합치고, 둘로 나누어 평균치를 갖게 되는 것이다. 그러나 비선형적인 공간에서 동작해야 된다면, 평균치를 취한 값이 공간 밖을 넘어서게 된다”고 Freifeld가 말했다. 

예를 들어, 지리적인 거리를 측정하는 사례를 고려해보자. “당신이 동경에 있고, 나는 뉴욕에 있다. 우리는 중동에 있게 되는 평균을 원하지 않는다”라고 Freifeld가 말했다. 새로운 알고리즘이 중요한 것은 장면에 관한 통계적인 추론을 이러한 기하학과 통합할 수 있다는 것이다. 

원리적으로, 이것은 수백 개의 다른 맨해튼 프레임을 사용함으로써 매우 정확한 지점 데이터를 추정하는 것이 가능하다. 그러나 이것은 사용하기에 너무나 복잡한 모델을 만들어내게 된다. 알고리즘의 또 다른 측면은 많은 프레임에 대하여 추정의 정확도를 가늠하는 비용함수(cost function)를 사용하게 된다. 이 알고리즘은 고정된 프레임의 수를 가지고 출발하게 된다. 즉, 3에서 10 사이에 있는 것으로서 장면의 예측된 복잡성에 의존하는 숫자이다. 그리고 전체적인 비용함수를 수정하지 않고도 그 수를 감소시킬 수 있게 된다. 

맨해튼 프레임의 결과는 서로서로 약간씩 잘못 정렬된 사물들 간의 미묘한 차이를 나타내는 것이 아니라, 이러한 차이들이 네비게이션 시스템에 매우 유용하지 않다는 것을 말해주는 것이다. “당신이 방을 탐색하는 방법을 생각해보십시오. 당신 환경에 대한 정확한 모델을 만들고 있지 않다. 이것은 의자에 걸려 넘어지지 않거나 이와 같은 정도로 당신의 작업을 완성할 수 있는 대략적인 통계를 추적할 수 있도록 해주는 것”이라고 Fisher가 말했다. 

맨해튼 프레임 셋이 결정된다면, 면 분할 문제는 쉬워질 것이다. 너무 작거나, 멀거나 또는 가려져 있어서 시야의 대부분을 차지하지 않는 사물들은 기존의 면 분할 알고리즘에서 문제를 발생시키게 된다. 왜냐하면, 깊이 정보가 거의 없기 때문에, 그것들의 방향을 유추할 수 없기 때문이다. 그러나 만약 이 문제가 잠재적인 무한성이 아닌 몇 가지 가능한 방향 중에서 선택하는 것이라면, 좀 더 다루기 쉬워지게 될 것이다.  

 

* 자료 - KISTI 미리안 글로벌동향브리핑

정대상 기자
로봇시대의 글로벌 리더를 만드는 로봇기술 뉴스레터 받기
전문보기
관련 뉴스
의견나누기 회원로그인