딥페이크는 단순히 이미지 ‘짜깁기’를 의미하는 것이 아니라 인공지능(AI)의 학습 기술을 사용해 만들어낸다. 구글플레이에 ‘딥페이크(Deepfake)’를 입력하면 특정인의 얼굴, 음성 등을 섞어 가짜 영상, 이미지, 오디오를 만들어주는 딥페이크 앱만 수십여 개가 쏟아진다. 사진을 단순 합성해주는 것부터 음성에 맞춰 입 모양까지 자연스럽게 바꿔주는 앱도 있다. 전 세계에서 1억 명 이상이 사용하는 ‘리페이스’앱은 주당 6500원을 내면 워터마크 없는 딥페이크 영상을 만들 수 있다. 특정 인물의 사진과 합성을 원하는 다른 사진, 영상을 올리면 얼굴을 덧입혀준다. 전 세계 약 1억 명이 사용한 딥페이크 앱 리페이스의 리스타일은 사진을 디즈니 3D풍, 혹은 만화풍 등으로 자유롭게 원하는 스타일에 맞춰 이미지를 변환시켜준다.
실제로 다수의 딥페이크 앱을 사용해보니 사실처럼 완벽한 결과물이 나오지는 않았다. 화질이 다른 사진으로 딥페이크 이미지를 만들 경우 이미지 내 화질 차이 때문에 딥페이크 이미지임을 알 수 있는 수준이다. 실제 특정 의상에 얼굴을 합성하거나, 애니메이션 영상에 얼굴을 합성하는 정도로 활용되는 경우가 많다. 내가 어떤 헤어스타일이 어울리는지 확인하거나, 유명 연예인의 외모를 흉내내는 수준이다. 앞서 리페이스 앱은 더 자연스러운 결과물을 보여줬지만 원본과는 차이가 있어, 구분이 가능하다. 실제 이런 기술을 적용한 여러 앱에서 활용되는 예시들을 일상에서도 볼 수 있다.
특히 이 기술들은 MZ세대들이 자신을 표현하기 위한 이미지를 보정해 SNS에 올리는 형태로 목격할 수 있는데, AI프로필 사진이 그 대표적인 예이다.
딥페이크 이미지 제작에 있어서 AI가 활용되는 범위가 이미지 보정이나 얼굴 합성에 초점이 맞춰져 있다면, 딥페이크 동영상 제작은 AI가 영상 주제만 입력하면 스크립트를 자동으로 작성하고 그에 맞는 인물들이 직접 말하는 듯한 영상을 제작하는 데 초점이 맞춰져 있다. 대표적인 앱이 신디시아다.
신디시아는 텍스트 기반 자료를 몇 분 만에 비디오로 변환하는 생성 AI 비디오 어시스턴트다. 텍스트 입력을 넘어서 파일이나 링크까지 입력해 영상을 만들 수 있으며, 이 기술을 인정받아 지난해 4월 9000만달러(약 1200억원) 규모의 투자 유치에 성공했다. 신디시아는 단순 스크립트나 프롬프트를 넘어 파일이나 링크까지 입력할 수 있다는 점이 눈에 띄었다. 웹 링크 등의 소스 자료만 있다면 간단하게 영상을 제작할 수 있는 것이다.
이와 비슷한 국내 서비스도 있다. 스타트업 보이저엑스에서 선보인 ‘브루’라는 영상 제작 프로그램이다. 영상의 주제를 입력하면 자동으로 대본을 작성해주고, 그 대본을 기반으로 AI가 내용에 맞는 영상과 생성형 AI 이미지를 자동으로 만들어 몇 분 만에 영상을 제작해준다. ‘브루’를 직접 사용해보니, 스크립트를 입력하면 생성형 AI의 이미지뿐만 아니라 AI가 찾은 무료 소스들도 같이 활용하여 영상을 제작한다. 그리고 무료 배경음악, 다양한 AI 목소리 등을 지원해 보다 다채로운 스타일의 영상을 만들 수 있다. 한편 이런 기술의 고도화 이면에 이를 악용한 범죄 우려가 높아지고 있다. 일각에서는 이런 딥페이크 앱(프로그램)들이 상용화되면서 동영상 음란물 제작에 쓰일 가능성도 제기된 것이다. 실제 일부 앱의 경우, 영상과 사진을 합성했을 때 사실인지 가짜인지 구분이 잘 안될 정도로 정교하다. 이렇게 만들어진 영상은 ‘원본 영상’을 모르면 딥페이크라는 것을 알 수 없을 정도로 정교하다.
최근에는 선거 악용 가능성이 주목을 받는다.
실제로 딥페이크가 혼란을 부추기는 현상이 세계적으로 속속 나타나고 있다. 사례가 너무 많아 손에 꼽을 수 없을 정도다. 올해 2월 미국 공화당원 선거 전략가인 패트릭 루피니는 “2024년 공화당의 승리는 공화당의 능력에 달려 있다”는 메시지와 함께, 흑인 당원이 서명에 동참하는 사진을 X(옛 트위터)에 올렸다. 하지만 해당 이미지는 AI로 만든 딥페이크로 확인됐다. 이미지 생성기 미드저니로 만들었는데, 급조하다 보니 손이 3개 달린 것을 확인하지 못한 것이다. 지난해 미국 공화당은 조 바이든 대통령이 당선되면 경제위기가 오고 중국이 대만을 침공한다는 내용의 가상 미래를 보여주는 딥페이크 영상을 만들었다. 부정적 이미지를 덧씌우기 위해 생성형 AI를 활용한 것이다.
올해 1월 4일 아동 성매매 범죄자인 제프리 엡스타인과 관련된 사건 서류 파일이 공개된 날, 도널드 트럼프 전 미국 대통령이 엡스타인과 여러 10대 여성과 함께 있는 이미지가 사회관계망서비스(SNS)를 통해 급속도로 확산했다. 트럼프가 연루돼 있다는 인상을 주기 충분했다. 하지만 해당 이미지 역시 가짜로 판명 났다.
지난해 아르헨티나 대선에선 후보자들이 상대 후보를 비방하고 자신을 띄우기 위해 AI를 적극적으로 활용했다. 당시 하비에르 밀레이 후보는 경쟁자인 세르히오 마사 후보가 중국 공산당 지도자처럼 보이도록 AI로 생성한 포스터를 SNS에 올렸다. 반면 자신은 사랑스러운 사자처럼 묘사한 AI 생성 이미지를 올렸다.
딥페이크 탐지 솔루션을 만드는 딥브레인AI에 따르면, 해당 영상은 특정인의 얼굴을 교체하는 ‘페이스 스와프’와 목소리를 생성하는 ‘립싱크’를 활용한 딥페이크인 것으로 나타났다. 딥페이크 관련 전문가들은 “최근에 나온 AI 딥페이크는 진짜인지 가짜인지를 육안으로 식별하기 어려운 것이 특징”이라고 진단했다.
사용자가 딥페이크 영상에 속는 일을 막기 위해 인공지능이 생성한 이미지나 영상을 감지하거나 콘텐츠에 ‘표지’를 남기는 기술도 계속 개발되고 있다. 하지만 대체로 딥페이크를 잡는 기술은 나날이 정교해지는 딥페이크 기술의 발달 속도를 따라잡지 못하고 있다.
업계에 따르면 딥페이크에 대응하는 기술은 크게 ‘탐지’하는 방식과 ‘표지’를 남기는 방식으로 나뉜다. 이 중 탐지 방식은 딥페이크의 특징을 학습한 AI가 가짜 영상을 찾아내 확산되기 전에 막는 기술이다. 합성한 얼굴과 합성 이미지를 덧씌운 대상의 얼굴 경계에 있는 미세한 차이, 모델의 데이터가 부족할 때 나타나는 부정확한 표정, 딥페이크에서만 나타나는 미묘한 음성 지연 등 얼굴이나 음성을 합성할 때만 나타나는 현상을 인간의 눈, 귀보다 빠르고 정확하게 찾아낸다.
2020년 마이크로소프트(MS)와 구글, 메타 등은 우승 상금 100만달러(현재 환율로 약 13억3550만원)를 걸고 ‘딥페이크 디텍터 챌린지’를 열었다. 하지만 2000명 이상의 참가작 중 1위 AI 모델조차 탐지 정확도가 65%에 그쳤다.
지난해엔 인텔이 ‘페이크캐처’라는 딥페이크 탐지 소프트웨어를 공개했다. 인텔은 페이크캐처가 사람의 심장이 뛸 때마다 얼굴에 나타나는 미세한 색 변화 등을 감지해 무려 96%의 정확도로 딥페이크를 걸러낸다고 밝혔다.
다만 점차 교묘해지는 딥페이크 기술을 모두 걸러내긴 쉽지 않은 현실이다. 딥페이크 이미지를 오염시켜 탐지가 어렵게 만드는가 하면 새로운 딥페이크 기술도 등장하고 있다. 딥브레인AI 관계자는 “딥페이크 수요가 더 많기 때문에 자본이나 기술이 더 몰리고 있다”며 “덧셈과 뺄셈을 배운 AI에 곱셈 문제를 주면 이해하지 못하는 것처럼 새로운 딥페이크 기술을 탐지하긴 어렵다”고 설명했다.
[김병수 기자]
[본 기사는 매경LUXMEN 제163호 (2024년 4월) 기사입니다]