AI로 쇼츠 만드는 시대 영상 플랫폼 경쟁 격화

입력 : 2024.11.19 18:01:42 수정 : 2024.11.21 09:42:07

대형 정보기술(IT) 플랫폼들이 생성형 인공지능(AI) 도입을 본격화하면서 크리에이터 생태계에 큰 변화가 일어나고 있다. AI라는 도구를 활용하면 누구나 ‘킬러 지식재산권(IP)’을 생산할 수 있고 인플루언서가 될 수 있는 기회가 열리고 있어서다. 특히 유튜브 등 영상 플랫폼과 메타 등 사회관계망서비스(SNS) 기업을 중심으로 텍스트와 이미지를 넘어 영상, 오디오 분야에서의 기술 발전이 빠르게 이뤄지고 있다. 이르면 내년 AI가 텍스트 기반 채팅을 넘어 음성, 비디오까지 통달하는 멀티모달 모델로 완전히 대중화될 것이라는 전망이 나온다.

그동안 별도의 AI 프로그램을 활용해서 콘텐츠를 제작한 후 유튜브, 틱톡과 같은 플랫폼에 올려야 했다면 앞으로는 이들 플랫폼이 자체 지원하는 AI 도구를 활용해 바로 창작물을 생산·유통하는 것이 가능해지는 셈이다. 이에 대해 미국 경제매체 CNBC는 “챗봇과 이미지 생성기가 소비자, 기업에 진출하고 있는 지금, 비디오는 생성형AI의 다음 개척지가 될 수 있다”라고 진단했다.

텍스트를 바탕으로 동영상을 만드는 서비스는 사용처가 가장 많은 생성형 AI 서비스가 될 것으로 예상된다. 오픈AI는 2월 처음으로 영상 생성 서비스인 소라를 공개했고, 구글은 경쟁 서비스인 비오를 공개했다. 메타 역시 최근 무비 젠을 공개하면서 경쟁이 치열해질 것으로 보인다. 빅테크 기업 외에도 ‘런웨이’ ‘피카랩스’ 같은 스타트업도 영상 생성 AI를 서비스하고 있다. 어도비도 지난 달 파이어플라이 비디오 모델을 발표했다.

유튜브, 쇼츠에 AI 도입

세계 최대 동영상 플랫폼 유튜브는 최근 자사 숏폼 서비스인 ‘쇼츠’에 AI로 동영상을 자동 생성할 수 있는 새로운 기능을 도입한다고 공개했다.

내년부터 쇼츠에서 딥마인드의 AI 모델 ‘비오(Veo)’를 이용해 6초 분량의 동영상 클립을 자동 제작할 수 있게 된다. 짧은 설명만으로 콘텐츠 크리에이터가 원하는 영상을 손쉽게 구현해낼 수 있는 길이 열리는 것이다. 비오는 구글 딥마인드가 5월 공개한 동영상 생성 AI다. 구글 딥마인드의 AI연구가 집대성됐다는 평가를 받고 있다.

비오는 문자열로 된 명령어를 바탕으로 영상을 생성·편집하는 기능을 갖췄다. 사실적 대상뿐 아니라 초현실적 소재도 제작할 수 있는 것이 특징이다. 간단한 텍스트 기반의 편집 명령도 가능하다. 예컨대 해안가를 드론 촬영한 영상에 카약 합성을 원하면 관련 문구를 입력하면 된다. 정지 이미지를 영상으로 만드는 기능도 갖추고 있다. 추억이 깃든 사진을 여러 장 조합해 스토리 라인을 붙여 짧은 드라마를 만드는 것이 가능하다.

유튜브가 쇼츠(짧은 동영상) 서비스에 AI로 동영상을 생성할 수 있는 기능을 지원한다.

우선 올해 말부터 동영상에 비오가 생성한 배경을 추가할 수 있는 기능이 적용될 예정이다. 유튜브는 이런 창작물에 AI가 생성한 동영상임을 알리는 워터마크를 표시하고, 꼬리표(라벨)도 붙일 예정이라고 밝혔다.

내년부터는 본격적으로 쇼츠를 비롯한 영상 제작이 가능해진다. 우선 비오가 유튜브 쇼츠에 통합된다. 이를 통해 크리에이터는 쇼츠에 쓸 수 있는 동영상 배경을 만들 수 있고, 6초 분량의 짧은 클립을 만들 수 있다. 유튜브는 창작자 플랫폼인 ‘유튜브 스튜디오’의 ‘영감(Inspiration)’ 코너를 통해 생성 AI가 제작한 텍스트와 이미지를 제공해 창작자가 초기 아이디어를 발전시킬 수 있도록 지원할 계획이라고 설명했다. 추가적인 AI기능을 제공할 가능성도 보인다.

메타, 생성형AI ‘무비젠’ 공개

메타의 ‘AI 미디어 브리핑’ 행사에서 마노하 팔루리 메타 생성형 AI 부사장이 발표를 진행하고 있다.

페이스북과 인스타그램 등을 서비스하는 메타도 경쟁에 뛰어들었다. 메타는 10월 동영상 생성 인공지능(AI) 서비스인 ‘무비 젠(Movie Gen)’을 공개하며 오픈AI가 만든 ‘소라’, 구글이 만든 ‘비오’와 치열한 경쟁을 예고했다. 메타가 지난 10월 4일(현지시간) 블로그를 통해 공개한 동영상 생성 AI 모델 무비 젠은 텍스트를 입력하면 최대 16초 길이의 동영상이 생성된다. 메타는 무비 젠을 내년부터 인스타그램에서 사용할 수 있다고 밝혔다.

다른 비디오 생성 AI와 무비 젠의 차별점은 편집이 가능하고 사용자의 이미지를 넣은 영상을 만들 수 있다는 점이다. 예컨대 푸들이 나무 막대기를 가지고 장난을 치는 영상이 원본일 경우 텍스트를 입력해 푸들에게 분홍색옷을 입힐 수 있고, 분수와 석상을 배경에 추가할 수도 있다. 푸들의 털 색을 흰색에서 푸른색으로 바꿀 수도 있다.

나의 사진을 넣은 동영상을 만들 수도 있다. 사용자인 여성이 자신의 사진을 입력하고 ‘흰색 말을 탄 카우보이의 모습을 그려달라’고 하면, 여성이 말을 타고 있는 동영상이 생성되는 식이다. 영상에 배경음악이나 효과음을 넣는 것도 가능하다. 불꽃놀이에는 불꽃이 터지는 소리를 넣을 수 있으며, 오케스트라나 기타 등의 효과음도 넣을 수 있다. 메타는 “할리우드에서 성공하기를 희망하는 영화 제작자 지망생이든 동영상 제작을 즐기는 크리에이터든, 누구나 창의력을 향상시키는 데 도움이 되는 도구를 이용할 수 있어야 한다고 생각한다”고 무비 젠의 공개 이유를 설명했다.

무비 젠은 현재 영화 제작자를 포함한 소수의 외부 파트너에게만 우선 제공된다. 내년부터는 인스타그램과 와츠앱, 메신저 등 자사 소셜 미디어 앱에 탑재할 계획이다. 소셜미디어에서 동영상 생성 서비스가 가장 활발하게 사용될 것으로 예상하고 이에 맞춤형 서비스를 만든 것이라는 분석이다.

메타의 생성형AI 부문 부사장인 아마드 알-다흘은 “무비 젠은 지금까지 나온 비디오 생성형 AI모델 중 가장 앞선 것”이라면서 “자연적인 움직임과 미학적 측면에서 우리의 기대를 뛰어넘었다”고 악시오스와 인터뷰에서 자신감을 표했다.

AI 개발사도 영상 AI 출사표

메타와 구글의 가장 큰 강점은 이미 수십억 명의 사용자를 보유하고 있는 소셜미디어 플랫폼의 존재다. 다만 획기적인 성능을 가진 외부 서비스가 나온다면 얘기가 달라질 수 있다.

오픈AI의 비디오AI인 ‘소라’는 일반인 공개가 초읽기에 들어간 상태다. 앞서 미국 월스트리트저널(WSJ)은 “오픈AI가 올해 하반기에 소라를 공식 출시할 것으로 보인다”는 전망을 내놓기도 했다.

소라는 텍스트를 입력하면 최대 1분 길이 동영상을 만들어주는 AI다. 지난 2월 공개했지만 현재는 소수의 창작자만 사용해볼 수 있다. 오픈AI는 품질, 응용, 오용가능성 등을 탐구하며 관련 기능 업그레이드에 속도를 높이는 분위기다.

오픈AI는 ‘소라’를 공개한 당일 틱톡 계정을 만들고 소라로 생성한 영상을 올렸다. 소라가 만드는 동영상이 틱톡과 같은 숏폼에서 활용도가 높은 만큼, 틱톡에서 이를 홍보하기 시작했다는 분석이 나왔다.

어도비는 지난 10월 생성형 AI 기반 동영상 제작·편집 도구를 베타버전으로 공개했다. ‘파이어플라이 비디오 모델’은 프리미어 프로에서 사용 가능하다.

파이어플라이 비디오 모델은 한 차례의 프롬프트(명령)로 2초 내외 분량의 영상을 생성할 수 있다.

메타가 4일 공개한 동영상 생성 AI 모델 ‘무비젠’의 모습. 원본 이미지를 텍스트를 사용해 편집할 수 있다.

숏폼 점령한 中기업

중국 숏폼 플랫폼 콰이쇼우는 지난 6월 동영상 생성AI인 클링(Kling)을 공개했다. 일부 기능에 있어서는 소라보다 더 뛰어난 것으로 알려졌다. 콰이쇼우는 틱톡의 중국 버전인 ‘더우인’과 경쟁하는 플랫폼이다.

특히 콰이쇼우는 ‘한 중국 남성이 테이블에 앉아 젓가락으로 국수를 먹는다’는 프롬프트에 대한 영상 제작 시연을 했는데, 놀라운 퀄리티가 화제가 됐다. 영상 속 AI 캐릭터가 흡사 사람과 같았고, 손가락, 면발 등에 오류가 보이지 않아서다 .클링은 1080p 해상도에 초당 30프레임으로 구성된 단 하나의 프롬프트로 2분 분량의 비디오를 생성할 수 있다는 점에서 오픈AI 소라를 능가했다는 평가도 일각에서 나왔다. 다만 공개한 영상은 모두 5초짜리였다.

관건은 사용자 수다. 사용자 수가 많을수록 기술 고도화에 이점이 있기 때문이다. 클링AI는 빠른 속도로 사용자를 모으고 있다. 회사 측에 따르면 올해 8월 기준 출시 3개월 만에 이미 160만 명이 클링 AI를 사용해 1600만 개 이상의 영상을 생성했다. 더 많은 사용자가 서비스를 이용할 수록 제품 품질이 높아질 것으로 전망된다. 올 2분기 기준 콰이쇼우의 월평균사용자수(MAU)는 6억 9200만 명에 달한다.

콰이쇼우는 영상AI 모델을 활용해 영화 콘텐츠를 제작하는 프로젝트에도 돌입했다. 리샤오훙, 자장커, 예진톈, 쉐샤오뤼, 위바이메이, 둥룬녠, 장츠위, 왕쯔추안, 왕마오마오 등 중국을 대표하는 9명의 유명 감독이 참여한다. 이들은 AI기술을 활용해 9편의 단편영화를 제작할 예정이다.

중국을 대표하는 빅테크 알리바바는 10월 19일 AI모델을 기반으로 한 텍스트-비디오 생성 도구를 출시했다. 이 역시 사용자가 텍스트로 상황을 설명하면 AI가 이를 기반으로 비디오를 만드는 방식이다.

생성형 AI가 바꾸는 창작자 지형

이처럼 AI가 침범하기 어려운 분야로 여겨졌던 콘텐츠 창작 영역의 경계가 무너지고 있다. 기존 텍스트 중심 대규모언어모델(LLM) 형태의 AI가 음성, 이미지, 영상 등 다양한 형태의 데이터를 분석하고 생성할 수 있는 ‘멀티모달(multimodal)’ AI로 진화하며 업무·제작·창작자·플랫폼 환경 등 콘텐츠 산업 전반의 변화를 가속화하고 있는 것이다.

웹툰, 캐릭터 등 이미지 생성 관련 분야의 AI 활용도가 높다. 간단한 키워드와 텍스트 입력만으로 이미지(Text to Image) 제작이 가능하고, 일정 비용만 지불하면 상업적 이용도 가능하기 때문이다. 전 세계적으로 만화 시장 수요가 꾸준히 증가하는 추세여서 진입장벽이 낮고 단기간 내 다양한 콘텐츠 생산이 가능한 이들 분야에 대한 활용도는 앞으로도 커질 것으로 보인다. 생성형AI는 게임업계에서 활동하는 창작자들에게도 영향을 미치고 있다. 글로벌 3D 엔진 플랫폼인 유니티의 마크 휘튼(Marc Whitten) 수석부사장은 생성형 AI가 게임 산업 생산성을 최대 100배 가까이 높일 것으로 전망했다. 생성형 인공지능은 챗GPT 같은 인공지능으로 원본 데이터를 학습해 유사하면서도 독창적인 작품을 만든다는 설명이다.

휘튼 부사장은 “생성형 인공지능은 크리에이터와 아티스트가 5배, 10배, 100배 이상의 생산성을 실현할 수 있는 강력한 도구가 될 것”이라고 강조했다. 가령 그동안 인간과 꼭 닮은 디지털 휴먼을 만드는 데 6명에 달하는 아티스트가 4∼5개월은 밤낮없이 작업해야 했다면, 생성형 인공지능을 활용할 경우 수분 만에 작업을 끝낼 수 있다는 설명이다.

AI를 통해 콘텐츠의 언어 장벽도 더 빠르게 무너질 것으로 예상된다.

유튜브는 AI가 자동으로 더빙을 해주는 자동 더빙을 제공할 예정이다. 스페인어, 이탈리아어, 포르투갈어, 프랑스어로 시작해 여러 언어로 확대될 계획이다. 유튜브는 어조, 억양, 주변 소리 등을 더빙된 오디오에 반영해 자연스럽게 만들어주는 기능도 테스트 중인 것으로 파악된다.

[황순민 기자]