상세보기

시행 착오를 통해 새로운 기술을 익히는 로봇 시행 착오를 통해 새로운 기술을 익히는 로봇 정대상 기자입력 2015-05-26 18:58:47

megtb_img1_1432304820978.jpg 

 

미국 캘리포니아 대 버클리 캠퍼스(University of California, Berkeley)의 연구자들이 인간이 배우는 방식을 좀 더 근접하게 모사하는 공정을 이용하여 로봇이 시행착오를 통하여 동작 임무를 배우도록 하는 알고리즘을 개발하였다. 이것은 인공 지능 분야에서 주요한 이정표를 달성한 것이다.

연구자들은 로봇이 환경에 대하여 사전에 프로그래밍된 상세정보 없이 옷걸이를 선반에 걸기, 장난감 비행기를 조립하기, 뚜껑을 돌려서 물병에 결합하기 등의 다양한 작업을 완수하도록 하여 일종의 강화 학습(reinforcement learning)이라는 기법을 시연하였다. 

"우리가 여기서 시연한 것은 로봇에게 학습할 능력을 부여하는 새로운 방법이다. 이러한 방법의 핵심은 로봇이 새로운 무언가에 직면하였을 때, 우리는 이에 대응하여 다시 프로그래밍할 필요가 없다는 것이다. 로봇이 어떻게 배울 수 있는지를 코드화한 바로 그 소프트웨어를 사용하여 로봇이 우리가 부여한 서로 다른 임무를 학습하는 데에 사용되었다”고 미국 캘리포니아 공대 버클리 캠퍼스(UC Berkeley) 전기공학 및 컴퓨터 과학과의 피에타 아베엘(Pieter Abbeel) 교수가 말했다. 

이러한 최신의 개발 결과는 2015년 5월 28일에 미국 시애틀에서 열리는 로봇 및 자동화 관련 국제학술대회(ICRA: International Conference on Robotics and Automation)에서 발표될 예정이다. 피에타 아베엘 교수는 캘리포니아 공대 버클리 캠퍼스 교수이자 버클리 비전 및 학습 센터(Berkeley Vision and Learning Center)의 책임자인 트레보 다렐(Trevor Darrell)과 함께 이 프로젝트를 이끌고 있다. 이 프로젝트의 다른 연구자들로는 박사 후 연구원인 세르게이 레빈(Sergey Levine), 박사과정생인 첼시 핀(Chelsea Finn) 등이 포함된다.

“대부분의 로봇 응용분야는 물체가 예측 가능한 위치에 있는 통제된 환경 속에 있다. 로봇을 가정이나 사무실처럼 실생활 환경 속에 적용하는 데에 있어 도전과제는 계속 변한다는 것이다. 로봇은 환경을 인식하고 적응할 수 있어야 한다”고 트레보 다렐 교수가 말했다. 

[인간의 신경 시스템에서 얻은 영감]

로봇이 3차원 세계에서 적응하도록 돕는 기존의 방법에는 가능한 다양하고 방대한 양의 시나리오를 다루도록 미리 프로그래밍하거나, 로봇이 동작하는 환경을 모사하여 만드는 것 등이 있지만, 이를 구현하는 것은 비현실적이다. 

이러한 비현실적인 방법 대신에 캘리포니아 공대 버클리 캠퍼스의 연구자들은 심도 학습(deep learning)이라고 알려진 새로운 인공 지능 분야에 의지하였다. 심도 학습은 대략 인간이 세계를 인식하거나 세계와 상호작용할 때 인간의 뇌에 있는 신경회로의 동작에서 영감을 받은 것이다. 

"인간이 가지는 다재다능함을 위하여 우리는 스위스 군용 칼처럼 활용할 수 있는 행동의 목록을 가지고 태어나지 않았으며, 프로그래밍을 할 필요가 없다. 대신에 우리는 경험으로부터 그리고 다른 인간으로부터 살아가는 과정에서 새로운 기술을 배운다. 이러한 학습 과정은 인간의 신경 시스템에 깊이 뿌리박고 있어서 우리는 심지어 결과적으로 얻는 기술이 어떻게 실행되어야 하는지를 다른 사람에게 정확하게 전달할 수 없다. 우리는 기껏해야 다른 사람이 스스로 학습하는 과정에서 조언이나 안내를 제공할 수 있기를 희망한다”고 세르게이 레빈 박사가 말했다. 

인공 지능의 세계에서 심도 학습 프로그램은 ‘신경 회로망(neural net)’을 만든다. 신경 회로망에서 인공 신경(artificial neuron)의 층들은 음파이든 또는 이미지 픽셀이든 원시의 감각 데이터를 중첩시키는 처리를 수행한다. 이것은 로봇이 수신하는 데이터 가운데서 패턴과 범주를 인식하도록 돕는다. 애플(Apple)의 시리(Siri), 구글(Google)의 음성-문자 전환 프로그램, 구글의 스트리트 뷰(Street View) 등을 사용하는 사람들은 심도 학습이 음성 인식이나 비전 인식 분야에서 제공한 상당한 발전으로부터 이미 혜택을 받은 것일 수 있다.

그러나 심도 강화 학습을 동작 임무에 적용하는 것은 이미지나 소리를 수동으로 인식하는 것을 넘어 훨씬 어려운 난관을 가진다. 

“구조화되어 있지 않은 3차원 환경에서 돌아다니는 것은 완전히 다른 작업이다. 방향 표지도 없고, 미리 문제를 해결하는 방법에 대한 사례로 없다. 음성 인식 프로그램이나 비전 인식 프로그램에서는 대부분 가지고 있는 정답에 대한 사례도 없다”고 첼시 핀이 말했다. 

[훈련이 완벽을 만든다.]

캘리포니아 공대 버클리 캠퍼스의 연구자들은 브렛(BRETT: Berkeley Robot for the Elimination of Tedious Tasks)이라는 별명을 가지는 윌로우 거라지(Willow Garage) 개인용 로봇 2(PR2)를 가지고 실험을 수행하였다. 

연구자들은 브렛 로봇에게 블록을 이와 부합하는 구멍에 넣거나 레고 블록을 쌓는 것과 같은 일련의 동작 임무를 부여하였다. 브렛 로봇의 학습을 제어하는 알고리즘은 로봇이 임무를 어떻게 잘 수행하는지에 기초하여 점수를 부여하는 보상 기능이 포함되었다.

브렛 로봇은 카메라에서 보는 것처럼 자신의 팔과 손의 위치를 포함하는 장면을 받아들인다. 알고리즘은 로봇의 동작에 기초하는 점수를 통하여 실시간 피드백을 제공한다. 로봇이 임무를 완수하는 데에 더 가깝게 되는 동작은 그렇지 않은 동작보다 더 많은 점수를 얻을 것이다. 이 점수는 신경 회로망을 통하여 피드백되어서 로봇은 당면한 임무에 더 적합한 동작이 무엇인지를 배울 수 있다. 

이러한 종단 간 훈련 방법(end-to-end training process)은 로봇이 스스로 학습할 수 있는 능력의 기저를 이룬다. 브렛 로봇이 관절을 움직이고 물체를 조작함에 따라 알고리즘은 학습할 필요가 있는 신경 회로망의 92,000개 매개변수에 대한 양호한 값을 계산한다. 

이러한 방법으로 임무의 시작과 끝에 대한 상대적 좌표가 주어졌을 때 브렛 로봇은 약 10분 내에 할당된 과제를 숙달할 수 있다. 한편, 장면에서 브렛 로봇에게 물체들의 위치를 제공하지 않은 경우 비전과 제어 모두를 학습할 필요가 있으며, 이러한 학습 과정은 약 3시간 정도 소요된다.

방대한 양의 데이터를 처리하는 능력이 향상됨에 따라 이 분야는 현저한 개선이 예측된다고 피에타 아베엘 교수가 말했다. 

“더 많은 데이터를 가지면 좀 더 복잡한 일을 배울 수 있다. 로봇이 집안을 청소하거나 세탁물을 분류하는 것을 배우려면 아직도 가야 할 길이 멀다. 그러나 우리가 이룩한 초기 결과에 따르면 이러한 종류의 심도 학습 기법은 로봇이 아무것도 없는 상태에서 복잡한 임무를 배울 수 있게 한다는 측면에서 흐름을 변화시키는 효과를 가질 수 있다. 향후 10년 내에 우리는 이러한 종류의 연구를 통하여 로봇 학습 능력의 상당한 진전을 목격하게 될지도 모른다”고 피에타 아베엘 교수가 말했다. 

 

출처 KISTI 미리안 글로벌동향브리핑


정대상 기자
로봇시대의 글로벌 리더를 만드는 로봇기술 뉴스레터 받기
전문보기
관련 뉴스
의견나누기 회원로그인