일상생활 속의 AI노믹스 ⑦ TTS | 점점 알아채기 힘든 AI 성우 목소리 딥페이크 판별해낼 기술도 중요해져

박지훈 기자
입력 : 2020.07.30 16:48:39 수정 : 2020.07.30 16:49:07

# 스마트폰 앱을 켜고 불현듯 생각나는 아이디어를 녹음한다. 녹음된 음성은 텍스트로 변환되어 음성과 함께 저장된다. 추후에 녹음된 음성은 그대로 들을 수도 있고 유명인 등 다른 사람의 목소리로도 들을 수 있다. 물론 텍스트로도 볼 수 있다.

우리도 모르는 사이에 음성합성시스템(TTS, Text-to-Speech)은 크게 발전하고 있다. 무심코 듣는 지하철이나 버스의 안내 목소리나 스마트폰 앱에 탑재된 AI 비서의 말솜씨는 꽤나 자연스러워졌다. TTS(Text-to-Speech)는 본래 문자로 정보를 전달하기 어려운 상황에서 사용자 접근성 향상을 위해 개발됐다. 이러한 기술구조는 시각장애인을 위한 안내 서비스에도 활용할 수 있다. 음성합성은 주변 문자를 인식해 시각장애인에게 음성으로 정보를 제공할 수 있기 때문이다. 실제로 마이크로소프트(MS)는 시잉AI(Seeing AI)라는 스마트폰 앱을 출시했는데, 해당 앱은 이미지 정보를 통해 문자를 인식해 음성으로 들을 수 있도록 했다.

이러한 용도 외에도 음성을 텍스트로 전환하거나, 텍스트를 음성으로 바꿔주는 기술은 우리의 일상으로 빠르게 침투하고 있다. 음성을 활용한 차세대 플랫폼 서비스가 하나둘 시작되며 IT·이동통신사·휴대폰업체 등 여러 기업들이 ‘음성-텍스트 전환 서비스’에 집중하는 모양새다. 시장조사기관 IDC는 2025년까지 소비자와 직접 연결된 모든 기기의 60%가 음성 기반으로 구현될 것으로 전망했다. 향후 플랫폼 경쟁에서 음성 인터페이스의 중요성이 커지고 있다.

초기 TTS 기술은 메시지 보내기, 뉴스 읽어주기, 내비게이션 안내 등에서 시작된 이후 동영상 자막·더빙 등 음성합성 영역으로 넓어지고 있다. 일부 스타트업은 통화 내용을 문자로 바꿔주는 서비스를 선보이기도 했다.

카카오톡은 지난 5월 실험실을 통해 음성모드로 카카오톡을 사용하는 기능을 탑재했다. 이용자는 설정란에 있는 실험실에서 ‘톡 음성모드 사용하기’를 활성화한 뒤 마이크 버튼을 눌러 음성명령으로 메시지를 읽고 보낼 수 있다. 호출 명령어는 ‘헤이카카오’ ‘카카오’ ‘카카오야’ ‘카카오미니’ 중 선택 가능하며 기기 음성은 여성·남성, 친절한 말투·친구 같은 말투 중 원하는 것으로 설정 가능하다.

이통사들도 음성과 문자를 오가는 AI 기반 서비스를 강화하고 있다. SK텔레콤의 ‘누구 케어콜’은 자가격리자가 통화로 말한 내용을 AI가 문자로 변환해 보건소 담당자에게 전달한다. KT는 가족 목소리를 바탕으로 AI 음성합성을 이용해 청각장애인의 목소리를 예측해 가족과 대화하도록 돕고 있다. KT 고객센터에서는 모든 대화가 AI 시스템인 ‘AI 상담 어시스트’를 통해 실시간 문자로 기록된다.

삼성전자는 일찌감치 스마트폰 음성 AI 비서인 ‘빅스비’에 사용자의 음성을 받아 적는 기능을 탑재했다. 이외에 갤럭시폰의 음성녹음 앱을 통해 녹음과 동시에 문자로 전환해주는 서비스도 제공하고 있다.

국내 스타트업 리턴제로는 앱 ‘비토’를 통해 통화 내용을 메신저 채팅으로 전환해주는 서비스를 제공하고 있다. 이 회사는 서비스 언어를 한국어에서 중국어로 연내 확대해 중국 시장을 공략하고, 내년에는 일본어 버전도 내놓을 계획이다.

AI 스타트업 머니브레인이 사람의 목소리와 얼굴을 똑같이 합성한 국내 최초 ‘AI 뉴스 앵커’

▶AI 성우 얼마나 활용되고 있나

음성합성 기술은 인공지능을 만나며 더욱 다양한 분야에 활용되고 있다. 자동응답 서비스, 버스·지하철 안내방송을 비롯해 책·인터넷 문서 읽어주기 서비스, 유튜브 녹음, 음성 AI 등 다양한 분야에서 TTS가 접목되고 있다. 아직 초기이긴 하지만 성우 더빙을 대신하기도 한다. 자칫 전문 성우로부터 모든 안내 멘트를 녹음해 방송했을 거라고 착각할 수 있을 정도다. 그만큼 여기에 음성합성 시스템은 많은 발전을 거듭해 왔다. 빅데이터와 인공지능(AI) 기술이 결합하면서 TTS도 새로운 단계로 진입했다. 기존 문자를 목소리로 바꾸던 개념에서 벗어나 사용자 목소리를 직접 학습하고 따라하는 형태로 진화하고 있다.

대표적으로 네이버가 올해 초 목소리 녹음 없이 문자 입력만으로 더빙을 입히는 ‘클로바더빙’ 서비스를 선보인 바 있다. 자사 음성 합성 AI 기술인 ‘클로바 보이스(Clova Voice)’를 활용, 성인과 아이, 남성과 여성, 기쁨과 슬픔 등 다양한 개성을 가진 25종의 보이스를 제공하고 있다. 여기에 한국어 외에도 영어, 일본어까지 지원한다.

현재까지 사용자들이 생성한 더빙 음성은 약 1000만 건, 더빙 콘텐츠 다운로드 수는 약 100만 건에 이른다. 음성합성 기술이 빠르게 진화하면서 AI 성우를 활용한 서비스 역시 확장하고 있다. 네이버는 AI를 담당하는 클로바 부서에 네이버클라우드플랫폼(NBP)을 결합시켜 연내 ‘AI 콜센터’ 출시를 앞두고 있다.

네이버와 성남시가 도입한 코로나19 인공지능(AI) 능동감시 시스템 ‘클로바 케어콜’은 시험무대라고 할 수 있다. 클로바 케어콜 시스템은 코로나19 의심군 동향을 인공지능이 전화로 확인하는 시스템이다. 네이버와 성남시가 3월 국내 최초로 적용했다. 성남시는 하루 약 80명에서 300명까지 클로바 케어콜을 통해 능동감시자를 점검했다. 인공지능이 자가격리자 등에게 전화를 걸어 발열, 호흡 등 증상 유무를 확인하고 코로나19 발생이 의심되는 경우 관련기관에 대상자를 연결한다. 이 시스템을 도입한 3개월 동안 단 한 건의 오류만 기록한 것으로 나타났다.

네이버는 성남시와 운영한 ‘클로바 케어콜 시스템’이 3개월 동안 1만3000건의 통화를 기록했다고 19일 밝혔다. 네이버에 따르면 클로바 케어콜 시스템을 운영하는 동안 음성예측 오류는 한 건이었다. 모니터링 대상자가 코로나19 증상을 보고했지만 케어콜이 이를 확인하지 않은 양성예측오류(FP) 사례가 한 건 발생한 것으로 나타났다.

네이버에 따르면 클로바 케어콜 시스템은 성남시에 필요한 코로나19 능동감시 모니터링 수요의 3분의 1을 담당했다. 통화 중 끊는 비중은 14.6%. 연결장애는 7.3%로 낮은 수준 유지했다.

인공지능과 사람 간 대화가 대부분 원활하게 이뤄졌다는 뜻이다. 네이버 클로바팀은 이런 성과를 분석한 논문을 글로벌 연구결과 공유 사이트 ‘arXiv’에 공개했다. 네이버는 클로바 AI 기술 적용을 산업 전반으로 확대할 방침이다. 네이버 관계자는 “클로바는 전화통화 기반 인공지능 대화 시스템을 금융권 콜센터 단순 문의나 금융 상품 불완전 판매 서비스인 해피콜(HappyCall) 등에 확대 적용 중”이라고 설명했다.

카카오 역시 TTS를 눈여겨보고 있다. 카카오는 지난해부터 AI 아나운서를 개발하고 있다. 실시간으로 생성되는 뉴스를 AI가 자연스럽게 읽어 주는 서비스다. AI가 방금 보도된 뉴스속보도 아나운서처럼 자연스럽게 읽어 준다.

카카오가 선보인 TTS는 ‘딥러닝’ ‘딥보이스 기술’로, 음성합성 속도를 높인 것이 핵심이다. 기존 TTS는 전문 성우가 오랫동안 녹음한 음성을 자음, 모음으로 나눠 소리를 붙이는 형태가 일반형이었다. 데이터가 많을수록 자연스럽지만 녹음하지 않은 단어를 발음할 때는 어색하다.

주요 기업은 이 같은 단점을 해결하기 위해 수년 전부터 TTS에 딥러닝을 적용하기 시작했다. 이 방식은 적은 녹음 데이터로도 목소리 일부만 확보하면 호흡, 속도, 억양 등을 추출해 자연스럽게 문장을 읽을 수 있다.

카카오 관계자는 “자연스러운 음성 인터페이스를 위해 감정이 느껴지는 TTS 기술과 자신의 목소리로 음성을 만들어 낼 수 있는 기술을 개발할 예정”이라면서 “추후 실시간 뉴스 읽기 외 다른 서비스로 딥러닝 TTS 적용을 확대하겠다”고 말했다.

그뿐만 아니라, 카카오는 내비게이션 서비스 ‘카카오 내비’에 음성합성을 적용해 사용자와의 친근감을 높였다. 뽀로로, 헬로 카봇 등 유명 목소리를 길 안내 음성으로 제공하고 있다.

SKT 또한 음성합성 서비스를 제공하고 있다. SKT는 자체 AI 스피커 ‘누구(NUGU)’에 음성합성을 접목해 유명인 목소리를 들을 수 있게 했다. 그리고 유명인의 음성을 활용한 알람 서비스 ‘셀럽’ ‘SMTOWN 스케줄’ 등의 서비스를 제공하고 있다.

KT는 지난해 자사 AI 스피커 ‘기가지니’에 P-TTS

(개인화 음성합성) 기술을 통해 개그맨 박명수 목소리를 구현한 바 있다. 이를 통해 ‘박명수를 이겨라’란 퀴즈 게임을 한시적으로 서비스했다. 이외에도 KT는 엄마나 아빠가 300문장을 스마트폰을 통해 녹음하면, AI가 딥러닝을 통해 동화를 만들어내고 이를 기가지니가 읽어주는 ‘내 목소리 동화’를 연내 서비스 목표로 베타 테스트 중이다. 영어 동화 버전도 출시일을 조율하고 있다. 사용자가 AI 스피커의 대답이 딱딱하다고 느껴진다고 말하면 친근한 말투로 대하는 ‘내 친구 지니’를 부를 수 있다. 뉴스 등 정보를 찾을 때는 ‘차분한 지니’를 호출할 수 있다. 차분한 지니의 목소리는 KT 사내 아나운서가 녹음했다.

지난해 공개된 딥페이크 영상 속에서 오바마 전 대통령이 트럼프 대통령을 욕하는 모습이 구현됐다.

▶음성합성 기술 발전할수록 딥페이크 수법도 정교해져

음성합성 기술이 우리의 삶 속에 밀접하게 들어올수록 다른 한편에서는 부작용에 시름하고 있다. 바로 딥페이크 기술도 발전하는 만큼 가짜뉴스 등에 노출될 가능성도 커졌다. 딥페이크 기술은 딥러닝, 인공지능 기술로 특정 인물의 얼굴이나 목소리를 악용해 가짜 사진, 음성, 동영상을 만들어내는 것을 말한다. 음성합성 기술이 발전하면서 유명인 목소리를 음성합성으로 구현해 정보를 왜곡하는 것이다. 실제로 영화감독 조던 필(Jordan Peele)은 미국 전 대통령 버락 오바마의 목소리를 음성합성으로 구현한 영상을 공개하며 가짜 뉴스의 위험성을 경고한 바 있다. 오바마 전 미국 대통령과 메르켈 독일 총리가 머신러닝 기반 딥페이크 기술로 만든 가짜 동영상으로 인해 곤욕을 치른 사실은 이미 유명하다. 비단 유명인만의 이야기는 아니다. 누군가 자신이나 가족 목소리를 AI에 학습시켜 보이스피싱에 동원할 수도 있다. 최근 ‘n번방 사건’ 등 디지털 성범죄에 악용된 바도 있다. 딥페이크와 발전된 음성합성 기술이 결합하면 치명적인 가짜뉴스가 진실을 위협해 사회를 혼란에 빠트리는 것도 공상 만은 아니다.

IT업계 한 관계자는 “고도화된 음성합성 기술은 새로운 콘텐츠 영역을 창출하고 있는 것이 사실”이라면서도 “목소리를 모방해 보이스피싱과 같은 범죄에 악용될 가능성이 충분하지만 아직까지 기업들이 딥페이크 진위 여부 판별에 대해서는 음성합성 기술개발에 비해 관심도가 낮아 보완이 필요하다”라고 설명했다.

[박지훈 기자]

[본 기사는 매경LUXMEN 제119호 (2020년 8월) 기사입니다]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]