암, 치매 등 인류의 건강수명을 위협하는 질병들과 코로나19 사태 등 새롭게 발생하는 치명적인 감염병들의 병인을 규명하고 치료법을 제시하기 위해 인공지능, 항암, 항바이러스, 감염, 미세먼지, 면역치료 등을 키워드로 생명과학과 의과학·의공학의 유기적인 공동연구를 수행하고 있는 지스트 연구센터의 이름은 무엇일까요?
※ 수집된 개인정보는 선물 발송을 위한 용도 외에는 사용하지 않으며, 발송 후 바로 폐기됩니다.
AI대학원 전해곤 교수 Visual AI Lab
실세계의 더 복잡하고 정교한 사회적 규범을 컴퓨터비전과 인공지능 기법으로 모델링하고, 그 지식을 가상의 새로운 공간에서 구현하고자 하는 연구팀이 있다. 세계 최고의 컴퓨터비전 기술을 만들어 내기 위해 연구 중인 전해곤 교수와 연구팀을 만났다.
주로 컴퓨터비전을 연구하고 있는 Visual AI Lab.은 대표적으로 보행자 이동 경로 추정 기법, 3차원 복원 기법, 그리고 영상 개선 등을 연구하고 있습니다. 최근에는 저희가 제안한 컴퓨터비전 기술을 활용하여 다양한 인공지능 응용 기법들을 선보이고 있습니다. 예를 들어 태풍의 이동 경로 탐지/위험 지역 예측 등 사회적으로 도움이 되는 인공지능 기술, 예술가의 사진 보정 기법 모사/움직이는 타이포그래피 생성 등 창작 콘텐츠를 위한 인공지능 기술 등을 연구하고 있습니다.
제가 미국 Carnegie Mellon University에서 박사후연구원으로 일하던 시절부터 관심이 있던 기술이었습니다. 당시엔 자율주행 연구가 컴퓨터비전을 비롯하여 인공지능 분야 전반에 광풍이 불었는데요, 자율주행 핵심 기술 중 하나가 보행자 경로 예측입니다. 보행자의 이동 경로를 추론하는 것은 경험적 지식으로 체득한 사회 규범을 컴퓨터로 모델링하는 것이라고 볼 수 있습니다. 사회적 관계까지 고려해 보행자가 어디로 향할지 예측하는 AI 기술은 지난 6월 세계 최고 권위의 컴퓨터비전 국제학술대회에서 발표되기도 했습니다.
자율주행 분야에 핵심 알고리즘으로 사람/자동차의 보행 가능 경로 및 도착 위치 추정이 사용되기 때문입니다. 인공지능이 컴퓨터비전 분야에 본격적으로 사용된 2015년부터 보행 가능 경로를 측정함으로써, 자율주행 자동차를 타는 사람과 그 주변의 보행자들이 심리적 거부감 혹은 공포감을 느끼지 않도록 안전하게 운전 및 회피하는 기술을 만드는 것이 목적이었습니다. 즉, 자율주행 자동차는 주변 보행자가 어느 방향/속도로 움직일지 예측할 수 있으면, 미리 보행자들을 회피할 수 있는 것입니다.
자율주행 자동차 혹은 학교에 주행 중인 배달 로봇과 같은 운송체와 사람이 공존하는 세상에 도움이 되는 기술을 만들고자 하였습니다. 운송체가 보행자의 경로를 방해하지 않으며, 충돌 사고의 위험을 최소화하는 것이 저희 연구의 목적입니다.
보행자 이동 경로 추정 연구는 크게 세 가지 파트로 나눠서 연구되고 있습니다. (1) 영상 내의 보행자들의 물리적 관계성 및 시간에 따른 변화 모델링, (2) 사회과학 이론을 접목하여 사람 행동의 본질을 알고리즘에 반영하는 기법, (3) 각 보행자의 이동 경로를 최적화하는 기법. 우리 연구팀은 이 세 가지 연구 분야를 하나로 통합시켰다는 데에 특장점이 있습니다. 본질적으로 보행자 이동 경로 예측은 실제 보행자의 동선과 도착지를 제대로 예측하는 데 그 목적이 있습니다. 기존에 각 파트별로 나눠서 제안되던 기법들을 하나로 묶을 때, 기대 성능 대비 만족스럽지 못한 성능을 보아 왔던 것이 사실입니다. 우리 연구팀은 이러한 문제를 극복하고자 하나의 통합된 프레임워크를 제안했습니다.
기존 연구들은 컨볼루션 뉴럴 네트워크(2015년~2017년), 생성형 모델(2018년~2019년), 그래프 뉴럴 네트워크(2020년~2021년), 트랜스포머(2022년~2023년) 등 컴퓨터비전 분야에서 가장 인기있는 프레임워크를 보행자 이동 경로 추정 문제에 도입했습니다. 물론 당시 열거한 프레임워크들이 컴퓨터비전 분야 전반에서 상당히 각광을 받았고, 보행자 이동 경로 추정 문제에 있어서도 주목할 만한 성능을 보였습니다. 하지만 이러한 프레임워크들은 각기 다른 접근법으로 고안된 기법들을 하나로 통합시킬 수 없는 단점이 있습니다. 물리적으로 통합시킨다 하더라도 그 성능이 각 파트의 기대 성능을 합친 것에 못 미치는 게 사실입니다.
우리 연구팀은 컴퓨터비전 문제를 푸는 데 Chat-GPT와 같은 자연어처리 모델을 사용했습니다. 이를 통해 보행자 이동 경로 추정에 통합적이며, 최고의 성능을 보이는 방법론을 제시했습니다. 우리가 집중했던 것은 자연어처리 모델의 외삽(Extrapolation) 추론 능력이 상당히 뛰어나다는 것이었습니다. 예를 들어 Chat-GPT에 자기소개서를 써달라고 주문을 하면, 꽤 그럴듯한 결과물을 받아 볼 수 있습니다. 이는 Chat-GPT가 자기소개서라는 키워드로 학습한 언어 데이터들을 외삽하여 만들어 낸 추론 결과입니다. 우리는 영상 내의 보행자의 일정 구간의 이동 경로 좌표를 키워드로 활용하여 향후 경로와 목적지를 언어 모델로부터 얻어내는 데 성공했습니다. 언어 모델에서 사용하는 각 단어들과 그 조합이 기계에서 숫자로 인식되듯이, 이동 경로 역시 언어 모델 안에서는 각 단어이자 그 조합으로 구성된 것으로 해석되기 때문에 가능한 결과입니다.
언어 모델을 사용하다 보니 영상 기반의 모델을 사용할 때 당연하게 처리되던 것들이 안 되는 경우가 있었습니다. 예를 들어 사람이 거리를 걸을 때, 건물 옆을 걷고 마주오는 사람을 피하는 등의 사회적 행동을 합니다. 하지만 언어 모델에게 보행자의 이동 경로 추론을 맡기면, 마주오는 사람끼리 부딪히는 예측을 하거나 건물을 뚫고 가는 이동 경로 추론 결과를 내놓습니다. 언어 모델에 영상 정보를 넣을 방법이 없으니까요. 이러한 언어 모델 기반 방법론의 내재적 한계를 극복하기 위해, 연구팀은 프롬프트 기법을 제안했습니다. 언어 모델에 모든 것을 맡기는 것이 아니라, 보행자 간의 충돌 가능성, 각 보행자의 예상 목적지, 같은 경로를 걷고 있는 보행자 정보 등을 대화하듯이 언어 모델에게 물어보는 것입니다. 사람의 질문이 계속될수록 언어 모델은 정확한 보행자의 이동 경로를 산출했고, 이 질의응답 과정을 알고리즘으로 자동화시켜 최종 방법론을 만들어 냈습니다.
저희가 연구한 세계 최고 기술을 사회적으로 도움이 되는 기술로 새활용(Upcycling)하고 있습니다. 예를 들어 보행자 이동 경로 추정 방법론의 노하우를 최근 태풍의 이동 경로 예측 모델에 도입했습니다. 우리나라 같은 선진국은 기상 예측에 상당히 좋은 장비를 사용하고 있습니다. 하지만 아시아 대륙에는 슈퍼컴퓨터가 없어 기상 예측에 어려움을 겪는 나라가 많습니다. 우리 연구팀은 올해 세계 최고 기계 학습 분야 학술대회 중 하나인 ICLR 2024에서 실시간 태풍 경로 예측 모델을 발표했습니다. 동아시아 지역의 태풍의 이동 경로를 기상청 예측 대비 훨씬 정확한 성능을 보이며(약 200km 거리 오차 → 약 70km 거리 오차) 단일 GPU로 구동 가능한 모델을 제안한 것입니다.