지난해 3월 구글의 알파고와 이세돌 9단의 바둑 대결은 인공지능(Aritificial Intelligence, AI)에 대한
전 세계인의 관심을 증폭시켰다. 그중에서도 최근 학계에서 주목하는 분야는
딥러닝(Deep Learning) 기반의 음성인식 기술로, GIST는 일찍이 전기전자컴퓨터공학부 김홍국 교수를 필두로
AI 음성인식 분야의 미래 지도를 새롭게 그려나가고 있다.
김홍국 교수를 만나 그가 꿈꾸는 AI 기술의 가치와 가능성을 확인해 봤다.
지난해 3월 구글의 알파고와 이세돌 9단의 바둑 대결은 인공지능(Aritificial Intelligence, AI)에 대한 전 세계인의 관심을 증폭시켰다. 그중에서도 최근 학계에서 주목하는 분야는 딥러닝(Deep Learning) 기반의 음성인식 기술로, GIST는 일찍이 전기전자컴퓨터공학부 김홍국 교수를 필두로 AI 음성인식 분야의 미래 지도를 새롭게 그려나가고 있다. 김홍국 교수를 만나 그가 꿈꾸는 AI 기술의 가치와 가능성을 확인해 봤다.
지난해 3월 구글의 알파고와 이세돌 9단의 바둑 대결은 인공지능(Aritificial Intelligence, AI)에 대한 전 세계인의 관심을 증폭시켰다. 그중에서도 최근 학계에서 주목하는 분야는 딥러닝(Deep Learning) 기반의 음성인식 기술로, GIST는 일찍이 전기전자컴퓨터공학부 김홍국 교수를 필두로 AI 음성인식 분야의 미래 지도를 새롭게 그려나가고 있다. 김홍국 교수를 만나 그가 꿈꾸는 AI 기술의 가치와 가능성을 확인해 봤다.
인공지능(이하, AI)이란 단어는 우리 생활 깊숙이 파고들어 이제 대중에게도 낯설지 않다. 최근 AI 음성인식 기술은 사람의 말을 정확히 알아듣는 것은 물론 오랜 기간 쌓은 데이터를 파악해 오류를 수정하거나 학습할 수 있는 수준에 이르렀다. 지난해 마이크로소프트사에서 발표한 바에 따르면, 사람과 기계 간 대화에서 단어 인식 정확도가 94.9%로 높아졌다고 한다. 이는 딥러닝 기술이 있기에 가능한 것이다.
AI 음성인식 기술로 가장 알려진 것은 바로 ‘AI 스피커’. 우리는 스피커를 통해 원하는 노래를 틀어달라고 하거나 날씨 정보 등을 파악할 수도 있다. 이는 AI 기술이 인간과 상호 소통이 가능한 정도로 발전했음을 증명한다. 김홍국 교수는 “AI가 인간과 소통할 수 있게 된 데에는 딥러닝 기술을 빼놓고 설명하기 어렵다”면서, “알파고의 작동 원리로 알려진 딥러닝은 컴퓨터가 축적한 데이터를 바탕으로 스스로 인지・학습・소통할 수 있으며, 이미지 및 객체 인식, 사물인터넷, 음성인식 등의 분야에 지대한 발전을 불러올 미래지향적인 기술로 꼽힌다”고 설명했다. 딥러닝 기술을 통해 음성인식의 정확도가 몰라보게 높아졌지만, 사람과 AI가 자유롭게 대화할 수 있는 것은 아니다. AI 영상인식은 일부 정보가 누락되더라도 사람의 인지능력과 비슷한 수준으로 그 정보를 예측해 대체할 수 있지만, AI 음성인식에서는 일부 데이터만 누락돼도 전혀 다른 문장으로 인식될 수 있다. 그만큼 예민하고 고도화된 기술이 필요한 게 바로 음성인식 분야다.
그렇다면 김 교수는 왜 이렇게 어려운 연구 분야인 ‘소리’를 선택했을까. 이에 대해 그는 “음성인식 분야는 딥러닝뿐만 아니라 머신러닝 기법, 오디오 신호처리 등 AI 기술 전반에 대한 이해를 바탕으로 한 고도의 기술력이 필요하다”며, “이 분야의 연구가 큰 도전이자 기회가 될 것으로 생각했다”고 밝혔다.
그의 도전은 2003년 GIST 부임 때로 거슬러 올라간다. 당시 ‘휴먼컴퓨팅’ 연구실을 운영하며 인간의 오감인 보고, 듣고, 말하고, 느끼고, 만지는 것에 대해 심층 있는 연구를 수행했으며, 최근 연구실 이름을 ‘오디오 지능 연구실’로 바꾸고 보다 ‘소리’에 관한 연구에 주력하고 있다. 그간의 연구 또한 머신러닝 기반의 음성인식・합성・오디오 처리부터 AI 관련 딥러닝 기술까지 축적되면서 자타공인 음성인식 분야 전문가로 인정받고 있다. 최근 김 교수는 음성인식 기술을 응용한 제품을 양산해 해외 진출 쾌거를 이뤄내기도 했다.
과거 음성인식 기술은 극히 제한적으로만 사용돼 오다가 최근에 컴퓨팅 기술 개발과 클라우드 인프라가 갖춰지면서 급속도로 발전을 거듭하고 있습니다. 그 시작은 1950년대 미국벨연구소(Bell Labs)에서 진행했던 단일 음성을 숫자로 인식하는 ‘오드레이(Audrey)’ 시스템의 개발이었습니다. 이후 1970년대에는 미국 국방부를 중심으로 대규모 음성 이해 프로젝트를 추진하면서 연속 음성 인식기가 탄생했고, 1980년대에는 IBM에서 대규모 음성시스템을 개발하면서 1만 단어까지 인식이 가능하게 됐죠. 1990년대에는 우리가 흔히 알고 있는 ARS 서비스가 본격화되면서 자동 음성인식 시스템의 시대가 도래했습니다. 하지만 이때까지도 패턴 매칭과 같은 단순화된 기법이 쓰였는데, 2000년대에 들어서면서 애플사의 ‘시리(Siri)’나 구글의 지능형 개인비서인 ‘나우(Now)’를 필두로 본격적으로 상용화의 길을 걷게 됩니다.
‘오디오 지능 연구실’에서는 AI 기반의 청각지능 전반에 대해 연구하고 있습니다. 구체적으로 설명하면, 음성이나 오디오의 신호 처리, 주변 잡음에 영향을 받지 않는 다채널 음성인식, 음성 코딩 분야의 국제표준화, 딥러닝 기반 음성 복원 등이 연구 대상입니다. 대개 청각지능 중에서도 사람의 음성인식에 대해 주로 연구하지만, 이 외에도 새소리, 총소리, 그릇 깨지는 소리 등 포괄적인 소리가 혼재된 상황에서 각각의 소리를 추출 및 분석할 수 있는 기술 개발도 진행 중입니다. 이 기술로 전기전자기술자협회(IEEE)가 진행하는 ‘음향 장면 및 사건의 검출과 분류’ 챌린지에 참여해 기술 경쟁을 벌이고 있습니다.
한화테크윈과 공동 개발을 통해 완성한 ‘도어벨’ 제품이 양산에 성공, 미국시장에 진출했습니다. 이 제품은 도어벨에 마이크를 부착, 사람의 음성과 함께 들려오는 주변의 미세한 소리까지 인식해 주변 사건을 식별할 수 있는 기술입니다. 또 한 가지는 터널 내 사고 감지에 있어 카메라 CCTV가 활용되고 있지만, 어두운 곳이나 사각지대에서는 영상 식별이 어려워 정보에 오류가 많았습니다. 이를 개선하고자 카메라에 마이크를 설치해 영상으로 식별하기 어려운 상황에서도 충돌음으로 사고를 감지할 수 있는 기술 개발 및 이전을 진행 중입니다.
최근에 구글사에서 딥러닝 기반의 음성 합성기를 개발한 바 있습니다. 기기를 통해 생성한 음성으로 미용실 예약 시연을 했는데, 당시 미용실 직원은 자신이 하는 대화가 합성기를 통해 가상으로 만들어진 음성으로 이루어졌다는 사실을 알아채지 못했습니다. 이 사례를 보면, 현재 음성인식 기술은 듣는 것은 물론 말하는 것도 사람과 유사한 정도로 완성 단계에 있다고 할 수 있습니다. 향후 AI 스스로 의사 표현이 가능하게 된다면 사람과 AI 간 자유롭게 소통을 할 수 있는 시대가 올 것입니다. 영화에서나 볼 수 있는 자유 의지의 로봇 개발이 머지않았습니다.
학교에서 유명 기업들의 기술 개발 속도를 따라잡기는 쉽지 않습니다. 기업과는 달리 기본 원리 등에 대한 교육을 우선으로 하기에 학생들 입장에서는 흥미를 갖고 참여하는 것도 어려운 일이죠. 다행히 최근 학생들이 AI 기술에 관심이 많아 우리 연구실에도 제2의 붐이 일고 있습니다. 과거에는 청각지능 알고리즘의 실현이 불가능에 가까웠지만, 이제는 컴퓨팅 인프라가 잘 갖춰져 머릿속에 있는 것을 구현해낼 수 있게 됐습니다. 저도 교육자로서 학생들이 이론적인 연구를 넘어 실생활에 활용될 수 있는 기술을 개발하도록 독려하고 있습니다. 우리 연구실에서 주변 환경과 사람의 감정까지도 인지할 수 있는 특별한 기술을 개발하는 것이 목표입니다.
사람으로 치면 성년으로 발돋움하는 나이죠. 성년은 스스로는 물론, 법적으로도 책임감을 가져야 합니다. GIST의 25주년은 책임감 있는 연구를 통해 우리나라 국가 기술 발전에 큰 역할을 해내야 할 때임을 보여줍니다. 앞으로 GIST 구성원들이 더 열심히 공부, 연구해 지역과 국가에 기여해야 한다고 생각합니다. 과거 25년을 잘 해왔듯 앞으로의 25년에도 GIST의 새로운 역사가 쓰일 수 있기를 기대합니다.
AI를 실제 데이터에 적용 가능하도록 하는 방법 중 하나로, 주어진 데이터의 특징을 추출해 이를 분류 및 분석해 앞으로의 행동을 예측하는 기술이다. 예를 들어, AI에게 숫자 일(1)부터 십(10)을 말하는 열 가지의 음성에서 각 숫자가 지닌 특징을 추출한 후 학습하게 하면, 이후 처음 듣는 이십오(25)라는 음성도 그 특징을 사용해 인식이 가능하게 된다.
사람의 뇌 신경망과 닮아 붙여진 이름이며 머신러닝을 기반으로 한다. 뇌의 뉴런 작용을 모방한 복잡한 수학적 연산을 통해, 입력한 정보를 특정한 의미를 가진 결과로 변환하는 원리다. 뉴런 사이의 결과를 저장하는 층이 존재하며 1990년대까지만 해도 복잡한 계산 때문에 최대 3개 층을 갖는 신경망 구조가 한계였다. 현재는 심층신경망(Deep Neural Network, DNN)의 발전으로 층의 수를 대폭 늘려 연산량의 한계를 극복하고 있다.
딥러닝은 심층신경망 구조를 활용해서 학습하는 방법이다. 인공신경망과의 차이점은 방대한 데이터를 사용해 더욱 복잡한 학습을 진행하므로 사람의 인지 능력과 유사한 성능을 나타낼 수 있다는 것이다. 인공신경망을 사용하면 간단한 숫자만 학습하여 인식할 수 있었다고 한다면, 심층신경망을 사용한 딥러닝은 문장 단위의 인식을 가능하게 한다.
(우)61005 광주광역시 북구 첨단과기로 123 (오룡동)
Tel. 062)715-2114 | Fax. 062)715-2300
Copyright © 2017 Gwangju Institute of Science and Technology.
All Rights Reserved