암, 치매 등 인류의 건강수명을 위협하는 질병들과 코로나19 사태 등 새롭게 발생하는 치명적인 감염병들의 병인을 규명하고 치료법을 제시하기 위해 인공지능, 항암, 항바이러스, 감염, 미세먼지, 면역치료 등을 키워드로 생명과학과 의과학·의공학의 유기적인 공동연구를 수행하고 있는 지스트 연구센터의 이름은 무엇일까요?
※ 수집된 개인정보는 선물 발송을 위한 용도 외에는 사용하지 않으며, 발송 후 바로 폐기됩니다.
인공지능이 어떻게 사람의 생활에 적용되고 사람의 건강을 증진시킬 수 있을지를 연구하기 위해, 높은 퀄리티를 유지하면서도 개인정보를 보호할 수 있는 ‘안전한 인공지능 기반 의료데이터 생성 시스템’을 구축하고 있는 인공지능 헬스케어팀을 찾았다.
저희가 사용하는 인공지능(AI)은 미리 수집된 데이터 기반으로 어떠한 행동을 하는 것이 좋을지 학습합니다. 이전에 수행된 치료들을 참고해 어떤 환자에게 어떠한 치료를 하는 것이 가장 좋은지를 학습하는 식입니다. 그러다 보니 인공지능 모델이 다양한 환자의 샘플을 접하고, 이를 통해 다양한 환자들의 케이스를 학습해야 성능 높은 인공지능 모델을 만들 수 있습니다.
그런데 이렇게 다양한 케이스를 가진 환자 데이터를 획득하는 것이 굉장히 어렵습니다. 환자의 치료 데이터는 환자의 개인정보를 담고 있기에 외부에 공유하기가 굉장히 까다롭거든요. 저희는 이러한 데이터의 부족, 공유 불가능성이 인공지능 기반 헬스케어 연구를 하는 데에 큰 장벽이라고 생각했습니다. 그래서 직접 이 문제를 해결해 보려고 연구를 시작하게 되었습니다.
높은 퀄리티를 유지하면서도 개인정보를 보호할 수 있는 안전한 인공지능 기반 의료 데이터 생성 시스템을 구축하는 것입니다. 개인정보 문제 때문에 직접 의료 데이터를 공유할 수 없으니, 기관 내에서 저희 프로그램을 활용해 각 기관의 데이터와 유사한 의료 데이터를 생성하고 이를 자유롭게 공유할 수 있게 하는 것이 목표입니다. 각 기관의 데이터로 학습을 하기에 기관에서 수집된 데이터의 특성은 잃지 않으면서도, 완전히 새롭게 생성된 데이터이기에 개인정보를 침해하지 않고 안전하게 공유할 수 있다는 특징이 있습니다.
군집화(Clustering) 및 조건부 적대적 생성신경망(CGAN)이라는 두 개의 구조를 활용했습니다. 먼저 군집화는 환자들을 그룹으로 분류하는 데 활용됩니다. 의료 데이터에는 다양한 분포로 환자들의 데이터가 존재합니다. 이때, 환자 그룹을 군집화하고 각각에 이름을 붙여 사용자가 필요에 따라 원하는 군집의 데이터를 충분히 생성할 수 있도록 군집화 구조를 활용합니다.
이후 조건부 적대적 생성 신경망이 활용되는데, 해당 구조는 앞서 생성된 군집들 중 생성을 원하는 군집의 이름 및 랜덤한 노이즈를 활용해서 새로운 데이터를 생성하는 역할을 합니다. 이때, 신경망은 생성한 데이터가 같은 군집의 진짜 데이터와 비교해 어떤 것이 생성된 데이터이고 진짜 데이터인지 구분이 안 될 때까지 지속적으로 학습합니다. 최종적으로 조건부 적대적 생성 신경망은 우리가 원하는 군집의 이름과 노이즈데이터를 입력으로 주었을 때, 실제 그 군집에 있는 데이터와 유사한 데이터를 생성하여 제공해 주게 됩니다.
단순히 새롭게 생성된 의료 데이터가 아니라 실제로 사용할 수 있을 만한 높은 퀄리티를 가지는 의료 데이터를 생성하는 것이 목표였기 때문에, 생성된 데이터를 사용해서 다른 인공지능 헬스케어 모델을 학습시켰을 때 실제 데이터를 사용한 것과 유사한 성능이 나오지 않았을 때가 힘들었습니다. 팀원들과 지속적으로 알고리즘 구조에 대해 논의하면서 학습 과정을 모니터링하고 모델을 업데이트해 문제를 해결했습니다.
실험을 돌렸을 때 예상과 다를 때와 돌리고 나서 보니 코딩을 잘못했을 때도 대처가 좀 힘들었습니다. 또한 GAN 기반 의료 데이터 생성 초반, 특히 합성된 의료 데이터를 기반으로 환자 치료 모델을 학습시키는 것을 효과적으로 수행하지 못했던 점도 큰 난관이었습니다. 그래서 기존에 가지고 있던 강화학습 지식을 활용해 솔루션을 개발했습니다. 환자의 상태 변화와 같은 중요한 전이 정보(transition)를 예측할 수 있는 추가적인 모델을 학습시키고, 해당 모델을 우리 모델에 적용하여 더 정교한 데이터를 생성했습니다. 이렇게 개선된 모델이 생성한 데이터는 최적의 치료 전략 도출에 크게 기여했습니다.
의료 데이터가 부족해 높은 성능에 도달하기 힘든 문제, 의료 데이터가 불균등하게 분포하여 편향된 결과를 내는 문제는 많은 헬스케어 연구자들이 겪고 있는 문제라고 생각합니다. 저희의 연구 결과가 의료 데이터가 부족하거나 불균등한 분포의 의료 데이터를 활용해야 하는 다양한 인공지능 헬스케어 연구에 활용될 수 있을 것이라 기대합니다.
의료 데이터 기반으로 패혈증 환자를 치료하고 새로운 치료 방향을 제시하는 논문이 〈Communications medicine〉 저널의 최종 퀄리티 체크를 받고 있습니다. 또한 각 기관에 분산된 의료 데이터를 활용해 패혈증 환자 치료 모델을 개발하는 연구가 리뷰어들의 심사를 받고 있습니다.
지금까지의 결과를 정리해서 논문화할 예정입니다. 또한 지금까지는 환자 치료 데이터에 집중해서 치료 모델을 만들고 개발하는 것에 힘써왔는데, 앞으로는 재활이나 보행 보조 등의 영역에서 재활 데이터나 보행 데이터를 직접 모으고 이를 보조해 주는 인공지능 모델을 개발할 계획을 세우고 있습니다.
최윤호 : 연구는 참 어려운 것 같습니다. 예상치 못하게 오랜 시간이 걸리기도 하고, 그렇게 많은 시간을 들여 나온 결과가 마음에 들지 않을 때도 많은 것 같습니다. 그럴 때마다 힘들고 마음도 아프지만 버티고 다시 나아가다 보면 언젠간 성장하고 좋은 결과들을 얻을 수 있는 것 같기도 합니다. 멋진 연구를 하고 계신 여러분 모두 파이팅입니다.
박상연 : 지금 이게 맞는지 아닌지 잘 모르겠지만 버티고 하다 보면 뭔가 나오는 것 같다는 생각이 듭니다. 저도 아직 한참 부족하지만, 열심히 하시면 모두 좋은 성과 거둘 수 있을 것이라고 생각합니다. 지스트 석사 여러분들 모두 파이팅입니다!
하태관 : 지스트에서 연구와 학업을 이어가면서 많은 도전과 기회를 만났습니다. 예상치 못한 문제에 부딪혀 좌절한 순간도 있었지만, 그 과정에서 얻은 통찰과 배움이 더 값졌다고 생각합니다. 여러분도 두려움 없이 도전의 기회를 적극적으로 활용하시길 바랍니다. 지스트에서 쌓은 지식과 경험을 바탕으로 자신만의 길을 만들어 나가시길 바라며, 여러분의 도전과 성취를 진심으로 응원합니다!