[스포츠한국 김동찬 기자] “기쁨과 슬픔 등 감정을 표현할 수 있는 AI 성우 기술은 당신의 영상 콘텐츠에 전문성을 더해줍니다. 세상을 떠난 사람들의 목소리도 살려낼 수 있습니다."

전문 성우들의 목소리를 활용한 인공지능(AI) 음성 생성 기술을 보유한 스타트업 네오사피엔스가 최근 타입캐스트 서비스를 시작했다. 타입캐스트란 대본을 입력하면 텍스트를 고품질 오디오 콘텐츠로 변환해 주는 서비스다.

비대면 시대 영상 콘텐츠 시장이 확장하면서 타입캐스트의 인기도 크게 올라가고 있다. 타입캐스트는 지난 10월말 가입자 10만명을 돌파한 후 불과 3개월 만인 1월 20만명을 돌파하며 빠르게 성장하고 있다.

기존음성합성기술과 달리 타입캐스트는 감정을 표현할 수 있다는 점이 특징이다. 김태수 네오사피엔스 대표를 만나 타입캐스트 개발 과정과 앞으로의 계획에 대해 들어봤다.

네오사피엔스의 김태수 대표.
- 회사를 창립한 계기가 있나

"퀄컴에 다니던 2017년 뜻을 같이한 음성 분야 전문가 3명이 모여 창업을 하게 됐다. 인공지능 기술이 앞으로 더 크게 갈 것이란 확신이 있었고, 인공지능이 우리 삶을 변화시킬 것이라고 믿었다. 당시에도 로봇 기술은 사람처럼 일을 할 수 있었고, 음성인식과 같은 인공지능 분야 또한 활발하게 진행되고 있었다.

다음 인공지능은 무엇일까를 고민하다 음성에 감정을 실어보면 어떨까 생각했다. 기존 음성합성기술은 톤이 일정한 우리가 흔히 알고 있는 그런 로봇 음성이었다. 이를 좀 더 사실감 있게 만드는 기술에 촛점을 맞췄다. 그렇게 탄생한 서비스가 타입캐스트다."

- 2018년 트럼프 전 미국 대통령이 한국어를 구사한 영상이 이슈가 된 적이 있는데, 이 기술이 타입캐스트인가

"맞다. 타입캐스트는 딥 러닝(Deep learning) 기술을 바탕으로 특정인의 음성을 학습해 그 사람이 가진 운율과 감정을 표현할 수 있다. 단순히 목소리만 비슷하게 구현하는 것이 아니다. 그 사람의 억양과 감정에 따른 변화를 파악해 예측데이터로 구현한 후 성대모사를 한다고 보면 된다.

우리 기술을 알릴 겸 트럼프 전 미국 대통령이 한국말을 한다면 어떨까 하는 생각을 하게 됐다. 그래서 트럼트 전 대통령의 억양 등을 타입캐스트에서 학습하게 한 후 한국어 목소리를 구현한 콘텐츠를 만들게 됐다."

- 기존에 텍스트를 읽어주던 음성서비스 TTS(Text to Speech) 기술이 대중교통과 쇼핑몰 고객센터 안내 방송에 자주 쓰였다. 타입캐스트는 어떤 점이 다른가

"누구나 말은 할 수 있다. 하지만 영상이나 오디오 콘텐츠에 녹음을 하는 건 다르다. 전문성이 필요하다. TTS 기술은 사실 감정없이 일정한 톤으로 말하는 아마추어라고 할 수 있다. 전문성에서 차이가 있다.

광고영상만 하더라도 영상은 합성이나 애니메이션으로 만들 수 있지만 결국 마지막 더빙은 전문 성우가 하게 된다. TTS기술로 이 더빙을 한다면 어떨지 생각해보면 이해가 쉬울 것이다. 타입캐스트는 이를 대체할 수 있는 전문 서비스다."

- 타입캐스트의 활용도는 어떤가

"현재 사이트에서 한국어 80여개, 영어 7개 정도 성우 서비스를 하고 있다. 최근 1인 미디어를 하고 있는 많은 유튜버들이 이용하고 있다. 유튜버들이 보통 영상을 제작한 후 자신의 목소리로 더빙하고 어색해하는 경우가 많은데 타입캐스트를 이용하면 전문성을 더할 수 있다.

뿐만 아니라 최근엔 마트나 작은 점포 등에서도 사용하고 있다. 동네 마트에서 과거 마이크 들고 안내방송 하던 것을 타입캐스트로 바꾸니 대형마트 느낌도 나고 전문성 있어 보였다. 커스텀보이스를 활용하면 자신의 목소리나 부모님 목소리, 주변 지인들의 목소리를 딥 러닝한 후 자신만의 성우를 만들 수도 있다."

타입캐스트의 감정 표현이 가능한 캐릭터들.
- 커스텀보이스를 이용하면 현재 세상에 계시지 않는 사람들의 목소리도 살려낼 수 있나

"목소리 샘플만 있다면 가능하다. 완벽하게 감정까지 살려내려면 4시간 정도의 녹음 분량이 필요하지만 5~10분 정도 분량만 있어도 어느 정도 가능하다. 세상을 이미 떠난 가수나 가족 등 목소리만 있으면 구현할 수 있다. 실제 백범 김구 선생 서거 70주년 당시 음성을 복원한 사례가 있는데 이 서비스도 우리 기술이다."

- 다양한 서비스로 확장할 수 있을 것 같은데

"최근 밀리의 서재와 오디오북 서비스도 시작했다. 누구나 오디오북을 만들 수 있는 서비스에 우리 기술을 접목했다. 보통 책에는 다양한 캐릭터가 필요한데 타입캐스트 인공지능 성우를 사용하면 혼자서도 오디오북을 만들 수 있다. 이를 바탕으로 향후엔 더빙산업도 가능해질 것으로 본다. 영화나 드라마 등에서 배우들이 연기만 한 후 목소리 샘플을 통해 딥 러닝 하면 더빙할 때 배우들 없이 진행할 수 있다."

타입캐스트의 새로 출시된 캐릭터.
- 오픈소스를 공개하고 있는데 경쟁업체가 많아지는 것 아닌가

"오픈소스 공개는 우리 기술에 대한 자신감을 반영한 것이다. 비슷한 제품들에서 마지막 결정을 짓는 것은 디테일인데, 이 디테일이 자연스럽게 진입장벽을 만들 것이라고 생각한다.

타입캐스트는 플랫폼 성격을 지니고 있어 유저들의 이동이 쉽지 않다는 점도 우리의 장점이다. 현재 80개 넘는 인공지능 성우가 있는데 매주 10여개씩 업데이트가 진행되고 있어 앞으로 경쟁업체가 생기더라도 쉽게 따라오진 못할 것이라고 자신한다."

- 앞으로 계획은

"1인미디어에서 영상을 만드는 사람이 PD라면 목소리, 더빙의 역할을 하는 타입캐스트 서비스는 연기자라고 할 수 있다. 실제 성우마다 캐릭터를 부여한 이유도 이런 이유다. 틱톡에선 타입캐스트 목소리를 성대모사 하는 경우도 생겼다. 이미 가상의 연기자로 활동하고 있다고 보면 된다. 우리는 가상 연기자를 보유한 엔터테인먼트가 되는 것을 목표로 하고 있다."

저작권자 © 스포츠한국 무단전재 및 재배포 금지