생성형 AI(인공지능)가 창작자 생태계에 변화를 가져오고 있다. 게임,광고,영상 등 ‘킬러 지식재산권(IP) 생산’에 있어서 AI가 핵심 도구로 떠오르면서다.
특히 텍스트와 이미지를 넘어 영상, 오디오 분야에서의 기술 발전이 주목된다. 생성형 AI는 사용자와 자연어로 소통하며 스토리 개요, 보고서 등 텍스트부터 이미지, 동영상, 오디오와 같은 멀티모달 콘텐츠에 이르기까지 완전히 새로운 데이터를 생성할 수 있는 AI를 말한다. 올해는 AI가 텍스트 기반 채팅을 넘어 음성, 비디오까지 통달하는 멀티모달 모델로 완전히 대중화될 것으로 예상된다.
생성형 AI는 콘텐츠 생산의 여러 측면을 간소화해 글, 이미지(삽화·일러스트)는 물론 음향 및 특수 효과까지 쉽고 효율적으로 제작할 수 있는 환경을 만들고 있다. 게임과 유튜브, 틱톡 영상 제작 과정에서 텍스트, 오디오, 비디오 등 모든 요소를 인식하고 그에 적합한 콘텐츠를 만들어주는 서비스도 속속 등장하고 있다. CNBC는 “챗봇과 이미지 생성기가 소비자, 기업에 진출하고 있는 지금, 비디오는 생성형AI의 다음 개척지가 될 수 있다”라고 진단했다. 오픈AI의 최고운영책임자(COO) 브래드 라이트캡은 CNBC와의 인터뷰에서 “세상을 인식하고 상호작용할 때 우리는 사물을 보고 듣고 말한다”라며 “세상은 멀티모달”이라고 강조했다.
챗GPT 개발사 오픈AI는 지난 2월 15일 텍스트를 입력하면 동영상을 만들어주는 ‘텍스트 투 비디오(Text to Video)’ AI 모델인 ‘소라(Sora)’를 공개했다. 오픈AI가 공개한 데모 버전에 따르면 소라는 최대 1분 길이의 동영상을 생성할 수 있고, 프롬프트(AI에 내리는 지시)에 충실한 그림을 그려준다. 이는 현재 나온 서비스 약 15초보다 4배긴 것이다. “스타일리한 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있다. 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고 검은색 지갑을 들고 있다”라고 텍스트를 입력하자 이에 맞춰 여성이 실제로 도쿄 거리를 걷는 영상이 만들어졌다. 기존 ‘텍스트 투 비디오’ AI에 비해 어색한 부분이 없는 결과물이었다.
중국 인터넷 보안 기업 치후360 창립자 저우훙이는 오픈AI의 발표 직후 웨이보(중국판 트위터)에 올린 장문의 글을 통해 “소라가 광고와 영화 예고편 업계를 완전히 흔들 것”이라고 전망했다. 저우 창립자는 다만 소라가 틱톡을 그렇게 빨리 몰아내지는 않을 것이라며, 당분간 틱톡의 제작 도구에 머물 것으로 봤다.
오픈AI가 월등히 뛰어난 성능의 동영상 생성 AI 모델을 내놓으면서 다른 기업들은 비상이 걸렸다. 더욱이 오픈AI가 소라를 올해 하반기 일반인에게 공개할 수 있을 것으로 예상되면서 시장의 주도권이 오픈AI로 기울 수 있다는 전망이다. 3월 13일(현지시간) 미라 무라티 오픈AI 최고기술책임자(CTO)는 월스트리트저널(WSJ)과의 인터뷰에서 “일반인이 소라를 올해 중으로 사용하게 될 수 있을 것”이라면서 “수개월 내에 이뤄질 수 있다”고 밝혔다. 지난 2월 공개된 ‘소라’는 현재 소수의 창작자만 사용할 수 있다.
메타와 구글의 강점은 이미 수십억 명의 사용자를 보유하고 있는 소셜미디어 플랫폼의 존재다. 지난해 11월 메타 AI는 블로그를 통해 ‘에뮤 비디오’를 공개한 바 있다. 에뮤 비디오는 텍스트를 입력하면 그림을 그려주고, 지시에 맞춰서 그림이 움직인다. 텍스트를 동영상으로 바꿔주는 구글 ‘이마겐 비디오’의 대항마다. 마크 저커버그 메타 최고경영자(CEO)는 이러한 기능을 인스타그램과 페이스북에 적용할 가능성을 시사했다. 현재 들어가 있는 이미지 편집기능에 에뮤 에디트를 추가할 경우 사용자들은 훨씬 편리하게 이미지를 생성할 수 있을 것으로 기대된다.
이미지 생성 엔진 ‘스테이블 디퓨전’을 만든 스태빌리티AI가 지난해 11월 비디오 생성 모델을 내놨고, 이미지 생성 AI로 유명한 미드저니도 ‘텍스트 투 비디오’ 모델을 준비하고 있다. AI 영상 편집툴을 만드는 런웨이ML은 ‘젠-2’라는 동영상 생성 서비스를 하고 있다. 실리콘밸리 스타트업인 ‘피카랩스’도 영상 생성 AI 서비스를 공개하면서 지난해 5500만달러의 투자를 받았다.
유튜버 등 일반 창작자들 사이에서도 AI는 이제 선택이 아니라 필수가 된 분위기다. 예컨대 최근 유튜브 쇼츠의 AI 도구인 ‘드림 트랙(Dream Track)’에 창작자들의 관심이 높다. 드림 트랙은 아티스트 목소리로 최대 30초 길이의 사운드트랙을 생성할 수 있는 도구다. 프롬프트(지시어)에 아이디어를 입력하면 유명 아티스트의 목소리로 숏폼 콘텐츠를 만드는 시대가 성큼 다가온 셈이다.
데이터 및 분석 플랫폼 data.ai는 “2024년 모바일 시장에서 AI을 통해 다음 혁신의 물결이 일어날 것이고, 소비자들의 콘텐츠 소비 방식은 더욱 확고해질 것”이라고 분석했다.data.ai에 따르면 올해 생성형 AI 앱이나 생성형 AI 기능이 포함된 앱의 다운로드 수가 전년 대비 40% 증가해 이러한 앱 다운로드 수가 23억 건을 돌파할 것으로 예측된다.
노암 셰이저 캐릭터AI CEO는 엔터테인먼트가 범용인공지능(AGI)의 첫 번째 사용 사례가 될 수 있다고 강조했다. AGI란 주어진 모든 상황에서 인간 같은 추론, 학습, 문제 해결 능력을 갖춘 강력한 AI를 의미한다. 리처드 캐리스 엔비디아 미디어·엔터테인먼트 책임은 올해 최초의 생성형 AI 장편영화가 등장할 것이라고 예상했다. 그는 “35㎜ 필름 카메라로 촬영하는 영화 제작자는 동일한 콘텐츠를 생성 AI를 통해 70㎜ 영화로 제작할 수 있다”고 말했다.
“성을 공격하는 수십만 대군(大軍)의 함성 소리를 만들어줘.” 이렇게 텍스트를 입력하자, 생동감 있는 음향 효과가 ‘뚝딱’ 만들어진다. 국내 스타트업 옵티마이저AI가 개발한 ‘음향 효과(Sound Effects·SFX)’ 모델의 알파 버전에서 구현된 기술이다. 영화나 드라마, 게임 제작 등에 쓰이는 고품질의 음향 효과 제작에는 막대한 비용이 드는 것으로 알려져 있다. 옵티마이저AI는 알파 버전 테스트를 게임 개발자, 광고 영상 제작자 등 글로벌 핵심 사용자 700여 명을 대상으로 진행했다. 음향 효과를 제작하는 과정의 비용과 시간을 획기적으로 줄여준다는 점에서 호평을 받았다고 한다. 옵티마이저AI는 텍스트를 인식해 고품질의 음향 효과를 만드는 자체 AI 모델 개발에 성공했다.
게임, 유튜브, 틱톡, 애니메이션, 팟캐스트 등 수많은 콘텐츠에는 음향 효과가 필수적이다. 하지만 효과음을 직접 만드는 것은 굉장히 비싸고, 온라인에서 원하는 효과음을 찾기란 거의 불가능에 가깝다. 시장조사기관 마켓닷어스에 따르면 세계 음원 생성 AI 서비스 시장 규모는 2022년 2억2900만달러에서 2032년 26억6000만달러로 성장할 것으로 예상된다.음향효과(SFX)에 드는 막대한 비용과 시간을 AI로 줄일 수 있다면, 크리에이터 시장이 획기적으로 커질 수 있다는 분석이다. 특히 SFX 시장은 가상·증강현실 폼팩터의 발전과 함께 더 큰 성장이 예상된다. 고형문 옵티마이저AI 대표는 “3D 환경이 조성됐을 때, 오감을 만족시키는 상호작용이 더욱 중요해질 것”이라면서 “가상·증강현실 세계의 인프라스트럭처 차원에서 음향 효과·임팩트 주목도가 높아질 것으로 본다”고 말했다.
구글은 지난 2월 사용자가 몇 단어만으로 음원을 생성할 수 있는 ‘뮤직FX(MusicFX)’를 업데이트했다. 뮤직FX는 텍스트 설명으로 모든 장르의 음원을 생성할 수 있는 구글 자체 AI 모델 ‘뮤직LM(MusicLM)’을 기반으로 한다. 지난해 구글은 ‘뮤직LM’을 일반 대중에게 공개했다. 이용자 누구나 텍스트 한 줄로 분위기, 장르, 악기를 설정해 음원을 만들 수 있게 한다는 취지다. 뮤직LM은 28만 시간 분량의 음향 데이터를 학습시킨 것으로 알려졌다.
메타는 공개 소스 기반의 AI 모델 ‘오디오 크래프트(Audio Craft)’로 맞불을 놨다. 팽창하는 오디오 AI 시장에서 구글을 겨냥한 행보로 풀이된다. 메타가 공개한 샘플 오디오에 따르면 해당 프로그램은 휘파람, 사이렌, 윙윙거리는 소리 등을 매우 자연스럽게 구현해냈다. 오디오 크래프트의 기능 중 하나인 뮤직젠(MusicGen)은 텍스트를 입력하면 음악을 생성한다. 메타는 이에 대해 “저작권을 소유하거나 이 목적을 위해 특별히 라이선스를 획득한 총 2만 시간 음악에 대해 훈련을 했다”고 설명했다.
오디오 크래프트를 두고 음향 효과 제조기에 가깝다는 분석도 있다. 실제로 정보기술(IT) 업계에서는 저작권 분쟁이 발생할 수 있는 작곡 분야보다 게임,영화·드라마 등에서 폭넓게 쓰이는 음향 제작이 실제 수익화 측면에서 성장 가능성이 더 크다는 평가도 있다.
게임에 익숙한 젊은 세대는 로블록스, 포트나이트, 클래시 오브 클랜, 발로란트 등을 플레이하면서 많은 시간을 보낸다. 이러한 추세에서 점점 더 많은 사람들이 게임이야말로 엔터테인먼트 업계의 가장 강력한 지식재산권(IP)으로 떠오를 것이라는 예상도 있다.
실리콘밸리 유력 투자사인 a16z는 “라이엇, 에픽, 슈퍼셀, 그리고 새로운 차세대 게임 회사들은 게임이 영화를 대체하는 ‘차세대 디즈니’의 핵심으로 떠오르며 다음 세대 엔터테인먼트 거물이 될 준비를 하고 있다. 변화는 이미 주류가 알아채지 못하는 사이에 일어나고 있고 2024년에는 더욱 가속화할 것”이라고 내다봤다.
유튜브가 누구나 방송인이 될 수 있는 기회를 열었듯, AI로 인해 누구나 게임을 만들 수 있는 시대가 다가오고 있다. 실제 작은 스튜디오들은 게임 개발에 AI를 적용하는 방안을 단계적으로 실행 중이다. 생성형AI를 활용하면 오디오, 이미지 등 콘텐츠를 거의 무제한으로 새롭게 만들 수 있고, 게임 제작비용을 획기적으로 낮출 수 있다는 점에서 새로운 가능성을 엿보고 있다.
그동안 대작 게임 하나를 제작하는 데 200~300명의 대규모 인력이 투입되고 제작비가 1억달러를 넘어서는 게 보통이었다. 임희석 미래에셋증권 연구원은 ‘생성 AI, 게임산업의 마지막 반등 트리거’ 보고서에서 “현재 생성 AI에 대한 관심이 하드웨어와 파운데이션 모델 등에 집중돼 있지만 변화의 본질은 콘텐츠 생산성 증대에 있다”고 분석했다. 개인들도 게임을 손쉽게 만들 수 있는 환경이 갖춰지면서 콘텐츠(게임) 공급 증가와 산업 확장으로 이어질 수 있다는 전망이 나온다.
[황순민 기자]
[본 기사는 매경LUXMEN 제163호 (2024년 4월) 기사입니다]