AI 휴머노이드나 로봇이 현실에서 제 역할을 하려면 언어 이해를 넘어 비언어적 소리를 구분하는 귀가 필요하다. 아기 울음소리, 물건 깨지는 소리, 비명을 각각 인식해야 하기 때문이다. 이수지 대표가 2017년 디플리를 창업할 때 집중한 것이 바로 그 기술이었다. “서울대학교에서 뇌파를 연구하다, 소리를 이해하는 AI가 반드시 필요하겠다고 생각했어요.”
음향 AI에 대한 확신으로 창업했지만 시장을 찾는 과정은 순탄하지 않았다. 처음엔 아기 울음소리를 분석해 초보 부모를 돕는 육아 앱 ‘바뱌(BABBA)’를 출시했다. 가정·병원·산후조리원을 방문해 5만 시간 이상의 소리 데이터를 수집하고, 울음 특징과 대처 방안을 매칭한 데이터 셋을 구축했다. 국내 사용자 30만명을 돌파하며 기술 정확도는 높아졌지만 수익화는 쉽지 않았다. 결국 B2C에서 B2B로 방향을 틀었고, 그렇게 탄생한 솔루션이 ‘리슨AI(Listen AI)’다.
육아 현장에서 소리를 모으듯 공장도 직접 찾아갔다. “40여곳을 방문해 현장의 애로사항을 파악하려 했습니다.” 그 과정에서 부품 결합음과 불량을 소리로 판별하는 청각검사 인력의 한계를 발견했다. “귀의 피로도 때문에 시간이 지날수록 불량률이 높아질 수 있어요. AI로 대체해달라는 수요가 있었습니다.” 오랜 연구로 축적한 데이터 수집·정제·학습 노하우가 제조 결함을 잡아내는 리슨AI로 이어졌다.
‘리슨AI 인더스트리얼’은 글로벌 최대 액추에이터 생산 기업인 H사 전체 생산 라인에 도입됐고 완성차 제조사 H그룹 계열사, 코레일에도 공급됐다. 무향실 운영 비용을 60% 이상 절감하고 검사 정확도 99% 이상을 보장한다. ‘리슨AI 세이프티’는 CCTV 사각지대인 화장실·탈의실에서 비명·폭발음 등 위급 소리 10종과 구조 요청을 식별한다. 최대 85dB 환경, 20m 거리에서도 정확하게 작동하며 세종청사·내장산·강원랜드 등 공공장소에 설치돼 있다.
김지현 한국딥러닝 대표가 시장 수요를 빠르게 읽은 ‘사업가형’, 김지은 코딧 대표가 정책 현장의 문제를 AI로 해결한 ‘전문가형’이라면, 이수지 대표는 아무도 주목하지 않던 분야에서 기술을 먼저 쌓아 시장을 만들어간 ‘기술선점형’이다. 비언어 음향 데이터를 직접 축적해온 10년의 시간이 지금의 경쟁력이다. 디플리는 음성·음향·신호처리 분야 최고 권위 학회 ICASSP에 3년 연속 논문을 등재하며 학계에서도 기술력을 인정받고 있다.
국내 스타트업의 해외 진출은 선택이 아닌 필수가 됐다. 코리아스타트업포럼과 중소기업기술정보진흥원이 2025년 60인의 스타트업 대표를 대상으로 조사한 결과, 전원이 해외 진출을 고려하고 있다고 답했다. 그러나 63.8%는 해외 매출 비중이 10%에 그친다고 밝혔다. 현지 경영과 자본 조달의 어려움이 주된 원인이다.
하지만 디플리는 기술 경쟁력으로 시장성을 입증한 사례다. 이 대표는 “비언어적 음향 데이터를 다루다 보니 글로벌 시장에서도 수요가 많아요. 기계 소리나 부품 체결음은 언어장벽이 없거든요”라고 설명했다. 싱가포르를 비롯한 동남아 국가에서는 리슨AI 세이프티의 수요가 높다. 2025년 1월에는 싱가포르 내무부 산하 HTX가 주관하는 ‘HATCH Dimension X’ 프로그램에 전 세계 7개국 12개 기업 중 아시아 유일의 스타트업으로 선정됐다. 공공안전 시스템에 음향 AI를 접목하는 이 프로젝트는 디플리의 동남아 시장 거점을 확보하는 발판이 됐다.
북미 지역에서는 국내 기업들의 현지 공장을 중심으로 리슨AI 인더스트리얼을 공급하고 있다. 멕시코 전기차 공장에 이어 북미 법인을 설립하고 현지 제조기업에 납품을 이어가는 중이다. 벨트 컨베이어에 일체형으로 설치하면 비접촉식 검사로 생산품의 진성 불량을 100% 검출하고 있다.
디플리처럼 특정 기술 분야를 선점해 해외 시장을 두드리는 국내 AI 스타트업들이 늘고 있다.
자율주행용 비전 AI 소프트웨어 스타트업 스트라드비젼은 2014년 창업 당시 저가 차량용 반도체에 딥러닝 인식 소프트웨어를 탑재하는 기업이 전무했던 시장을 먼저 열었다. 자체 개발한 객체 인식 솔루션 SVNet은 현재 전 세계 13개 완성차 제조사, 50개 이상 차종에 탑재되어 있다. 엔비디아·앱티브·ZF 등 글로벌 기업의 전략적 투자를 유치했으며, 미국·일본·독일·중국에 법인을 두고 사업을 확장하고 있다.
영상 이해 AI를 개발하는 트웰브랩스는 처음부터 미국 샌프란시스코에 본사를 두고 글로벌 시장을 직접 공략했다. 창업 초기 세계적인 영상 이해 기술 경진대회 ICCV에서 텐센트, 컬럼비아대를 제치고 영상 검색 부문 1위를 차지하며 기술력을 입증했다. 현재 NFL을 포함해 전 세계 3만개 이상 기업이 트웰브랩스의 영상 분석 모델을 사용하고 있으며, 국내 기업 최초로 아마존 AWS 베드록에 파운데이션 모델을 공급하는 성과를 냈다.
김태희 엔티엘헬스케어 대표는 28년간 축적한 자궁경부 영상 데이터를 기반으로 AI 진단 시스템 ‘써비케어 AI(CerviCARE AI)’를 개발했다. 현장에서 실시간으로 자궁경부암을 진단할 수 있는 이 시스템은 현재 태국·베트남·폴란드·인도 등 8개국에 수출되고 있다. 의료 인프라가 취약한 국가일수록 비전문의도 즉각적인 진단이 가능한 AI 솔루션의 수요가 높다는 점을 공략했다. 국내 AI 스타트업들의 기술력이 해외 시장에서 성과를 보이는 가운데, 음향 AI 기술 개척자이자 사업 방향 전환에 성공한 이수지 대표의 리더십을 조명해본다.
[박수빈 기자]