카메라에 잡힌 영상을 설명해주는 비전 시스템
ObjectVideo의 협력을 통해 University of Callifornia, Los Angeles의 연구원들에 의해 개발된 프로토 타입 컴퓨터 비전 시스템은 감시 카메라로부터 얻어진 영상에서 어떤 일이 일어나고 있는지를 파악해 실시간으로 문자화된 설명으로 만든다. 연구 책임자이자 UCLA의 통계 및 컴퓨터 공학교수인 Song-Shun Zhu는 “YouTube를 비롯한 많은 비디오 클립들 사이에서 원하는 비디오를 검색하기란 힘들기 때문에 이미지 또는 비디오에 대한 거의 모든 검색은 여전히 관련된 문자를 이용하여 수행된다”라고 말한다. Zhu와 UCLA 동료인 Benjamin Yao, Haifeng Gong는 이를 위해 I2T(Image to Text)라 불리는 새로운 시스템을 개발했다.
연구팀은 I2T의 강점을 보여주기 위해 Object Video의 Mun Wai Lee와 협력하여 감시 장비에 본 소프트웨어를 적용하였다. 이와 같은 시스템은 감시 업무를 수행하는 사람들의 수는 그대로인 반면에 점점 더 많은 감시 카메라들이 존재할 때에 큰 도움이 될 수 있다고 Zhu는 말한다. I2T의 첫 단계에서는 이미지를 분해하는 이미지 파서인데 이는 배경과 차량, 나무, 사람과 같은 물체들을 제거한다. 몇몇 물체들은 더욱 세부적으로 분리될 수 있는데, 가령 사람의 팔 또는 자동차의 바퀴는 속한 대상물로부터 분리될 수 있다.
다음 단계로 형태의 집합 의미가 결정된다. “이러한 지식표현단계는 시스템의 가장 중요한 부분”이라고 Zhu는 말한다. 이러한 지식은 인간의 지능으로부터 얻어진다. 2005년에 Zhu는 중국의 Ezhou에 비영리단체인 Lotus hill Institute를 설립했고, 중국 정부의 일부 보조로 컴퓨터 비전 시스템을 보조하기 위한 이미지 라이브러리에 주석을 달기 위해 풀타임으로 일할 지역 미술 대학의 약 20명 정도의 졸업생을 모집했다. 이에 따라 200만개 이상의 이미지 데이터 베이스가 만들어졌다.또한 작업자들이 표준화된 방식으로 주석을 달도록 하기 위해, 소프트웨어는 작업자들이 작업하는 동안 지침을 제공한다.