김승환 LG AI연구원 비전랩장이 LG가 개발한 초거대 인공지능(AI) ‘엑사원(EXAONE)’에 이러한 문장을 입력했다. 엑사원이 명령대로 삽화 창작물 수백 장을 순식간에 쏟아냈다. 지난달 미국 뉴올리언스에 있는 모리얼 컨벤션 센터에서 열린 ‘국제 컴퓨터 비전 및 패턴 인식 학술대회(CVPR) 2022’에서 LG가 선보인 차세대 인공지능 기술이다.
컴퓨터 비전 기술이 급속도로 진화하고 있다. 그동안 안면인식, 자율주행, 이미지 처리 등 다방면에서 컴퓨터 비전 인공지능이 활용됐는데 이제는 문장 입력만으로 그림을 그리는 시대가 활짝 열리고 있는 것이다.
LG가 개발한 초거대 인공지능 엑사원은 문장 하나를 입력하면 이를 7분 만에 그림 256장으로 바꿔주는 인공지능이다. 특정 화풍 스타일로도 그림 그리기가 가능하다. 인상파 화가로 유명한 빈센트 빌럼 반 고흐(Vincent Willem van Gogh)는 매우 그림을 많이 그리는 다작으로 유명하다. 반 고흐는 1890년 스스로 삶을 마감하기 직전까지 약 10년간 900여 점의 그림과 1100여 점의 습작을 그렸다. 10년간 2000여 점이니, 1년에 200여 점씩 쏟아낸 셈이다. 하지만 엑사원은 1시간 안에 2000점의 그림을 그릴 수 있다.
미국 뉴올리언스에 있는 모리얼 컨벤션 센터에서 열린 국제 컴퓨터 비전 및 패턴 인식 학술대회(CVPR) 2022에서 LG가 선보인 차세대 인공지능 기술.
▶3000억 개 파라미터로 훈련해 다양한 그림 가능
LG의 인공지능은 3000억 개 파라미터로 훈련시켜 주변의 이목을 끌었다. 파라미터란 어떤 시스템이나 함수의 특정한 성질을 나타내는 변수를 뜻하는데, 그만큼 파라미터의 양이 많다는 것은 출력되는 값이 많다는 뜻이기도 하다. 인공지능에 파라미터가 많으면 많을수록 사람들은 인공지능이 어떠한 그림을 그릴지 예측하기 어렵다. 세계적인 인공지능 업체 오픈AI의 인공지능인 GPT-3의 파라미터가 1750억 개인 점을 고려할 때 엑사원이 약 70% 정도 데이터가 더 많다는 설명이다. 물론 이에 대한 반론도 있다. GPT-3는 2020년에 나온 인공지능이고 엑사원은 1년 후 개발된 인공지능이기 때문이다.
하지만 인공지능 업계에선 엄청난 실력으로 받아들이고 있다. 해상도에서도 높은 실력을 보여준다. 엑사원은 이미지 화질을 높여주는 이른바 ‘업스케일’ 기술을 토대로 가로 세로 2048화소까지 이미지를 생성할 수 있다. 특히 엑사원은 문장에서 그림으로 전환은 물론 그림에서 문장으로 전환할 수 있다. LG는 이를 세계 최초라고 설명한다. 김승환 LG AI연구원 비전랩장은 “텍스트와 이미지를 양방향으로 전환할 수 있도록 한 것은 LG가 처음”이라면서 “인간과 경쟁하는 인공지능이 아닌, 인간에게 도움을 주고 영감을 주는 인공지능을 개발하는 것이 연구원의 목표”라고 설명했다.
특히 엑사원은 그림 한 장을 넣으면 영어 기준으로 토큰 64개에 달하는 문장을 생성한다. 자연어 처리 과정에서는 말뭉치(corpus)를 의미가 있는 단위로 나누는 과정을 토큰화(tokenization)라고 하는데, 그 단위를 토큰이라고 한다. 대략적으로 보면 64개에 달하는 단어로 된 문장을 만든다고 해도 무방하다. 그만큼 엑사원이 풍성한 문장을 만들 수 있다는 뜻이다. 실제로 한 아이가 공원에서 원반을 던지며 노는 사진을 업로드하면 ‘한 소년이 푸른 공원에서 녹색 플라스틱 원반을 던지고 있다’는 문장으로 표현했다.
7분 만에 그림 256장을 그리는 LG 엑사원.
이를 위해 LG는 문장 속 단어에서 맥락과 의미를 학습하는 신경망 ‘트랜스포머 모델’을 개발했고, 백지 상태에서 수백 단계에 걸쳐 그림을 완성해가는 ‘디퓨전 모델’도 개발 중이다. 또 LG는 텍스트, 이미지, 음성, 촉각 등이 서로 자유롭게 변환될 수 있는 이른바 다중 감각 모델인 ‘멀티모달(multi-modality)’에 집중하고 있다. LG가 텍스트와 이미지를 자유롭게 전환하도록 하는 것이 바로 멀티모달이 있었기에 가능하다. 이를 더 응용하면, 음성 포즈 시선 생체신호 등을 자유롭게 전환할 수 있을 것으로 보인다. 예를 들어, 햅틱 센서 장갑을 끼고 뜨거운 물 잔을 쥐면, 텍스트로 “앗 뜨거워”라는 표현이 실시간으로 등장하는 식이다.
▶오픈AI로 새로운 영역 개척
디퓨전 기술을 활용해 자유자재로 그림을 그리는 것은 오픈AI가 먼저 성공했다. 인공지능을 개발하는 스타트업인 오픈AI는 올해 초 달리2(DALL-E 2)라는 인공지능을 론칭했다. 달리를 만든 오픈AI의 CEO인 샘 알트만은 달리를 만드는 과정에 대해 이렇게 말했다. “지금까지 만든 것 중에서 가장 즐거웠고, 오랜만에 기술에서 느껴보지 못한 재미가 있었어요.”
오픈AI는 지난해 이미 달리1을 선보여 주변을 깜짝 놀라게 했다. 매우 다양한 그림이 가능했기 때문이다. 캐릭터 그림, 산업 디자인, 패션 디자인 등이 대표적이다.
예를 들어 명령어 창에 ‘강아지를 산책시키는 아기 무를 그려 달라’고 하면 해당 캐릭터를 생성할 수 있고, ‘아보카도 모양의 의자’라고 입력을 하면 수많은 아보카도에서 영감을 받은 의자를 디자인한다. 패션은 또 어떠한가. ‘검은 가죽 재킷과 금색 스커트를 그려라’라고 입력하면 이를 상상해 그린다. 달리는 편집 기능도 추가했다. ‘물속에서 트럼펫을 연주하는 테디베어’를 입력하면 해당 그림이 나올 텐데, 만약 그림이 마음에 들지 않아 ‘물속에서 기타를 연주하는 테디베어’라고 입력을 하면 곧바로 수정되는 방식이다.
요하네스 페르메이르의 <진주 귀걸이를 한 소녀>(왼쪽 위)와 달리2가 그린 모작.
달리2는 이에 한 차원 더 진일보했다. 달리1이 어디서 본 것 같은 그림을 그렸다면, 달리2는 매우 독창적이고 예술작품 같은 그림을 그린다는 평가를 받았다. ‘우주 비행사가 말을 타고 달을 달리고 있다’라고 입력하면 매우 창조적인 그림을 마주할 수 있다. 문장을 보다 정교하게 작성하면 그림이 함께 정교해진다. 예를 들어 ‘왼쪽에 있는 말이 오른쪽을 향해 달린다’라고 하면 그대로 그림을 그린다. 아울러 명령만으로 빛, 그림자, 질감 또한 표현이 가능하다.
문자로 입력해 수정이 가능한 것도 특징이다. 달리2는 오리지널 이미지에서 영감을 받기도 한다. 요하네스 페르메이르의 <진주 귀걸이를 한 소녀>라는 17세기 예술품을 학습하면 이를 모조한 것 같은 그림이 나온다. 오픈AI가 사용자를 상대로 조사해보니, 달리2는 달리1에 비해 88.2% 더 사실적이다.
▶디퓨전 모델로 지금까지와 다른 그림
이러한 그림 그리기가 가능해진 배경에는 ‘디퓨전 모델(diffusion model)’이라는 새로운 인공지능 영역이 개척됐기 때문이다. 그동안 컴퓨터 비전에 주로 쓰인 모델은 GAN(Generative Adversarial Networks)이었다. 이미지를 생성하는 ‘생성자(generator)’와 해당 이미지가 진짜인지 가짜인지 판별하는 ‘판별자(discriminator)’를 만들어 경쟁을 붙였다. 생성자가 이미지를 만들어내면, 감별자가 진위 여부를 판단한다. 가짜로 판별이 나면 생성자가 또 다른 그림을 그리면서 갈수록 더 진짜 같은 그림을 그리는 것이다.
김승환 LG 인공지능연구원 AI비전랩장
하지만 달리와 엑사원에 접목된 디퓨전은 보다 진일보했다. 디퓨전이란 초점이 흐리다는 뜻인데, 노이즈를 연속해서 학습시킨 뒤 이를 역으로 적용하는 방식이다. 마치 초고해상도 사진을 백지가 될 때까지 문질러, 다시 이를 반대로 백지에서 초고해상도 사진으로 바꾸는 작업과 유사하다고 할 수 있다. GAN은 지금껏 무수히 많은 컴퓨터 비전에서 사용됐지만 몇 가지 단점이 존재했다. 판별자가 우수할 경우 생성자의 학습이 실패할 수 있으며, 반면 생성자가 그럴듯한 이미지를 만들어내서 통과되면 이와 유사한 이미지만 생성하는 방법으로 학습될 수 있다. 하지만 디퓨전 모델은 백지 상태에서 그림을 그리기 때문에 이러한 염려가 없고 매우 다양한 그림을 그릴 수 있다는 평가를 받고 있다.
▶의료·패션 등 다양한 분야에서 활용
이러한 디퓨전 모델은 매우 다양한 영역에 사용이 가능하다. LG는 올해 초 박윤희 디자이너와 협업해 뉴욕 패션위크에서 엑사원이 디자인한 의상을 대거 선보였다. LG를 상징하는 금성에 핀 꽃을 주제로 약 3000장에 달하는 디자인을 박 디자이너에게 제공했는데, 박 디자이너가 이 가운데 약 200장을 고르고 다듬어 의상을 완성했다는 설명이다. LG에 따르면 패션쇼는 디자인에서 마무리 작업까지 약 4개월이 걸리는데, 엑사원을 통해 한 달 반으로 기간을 단축했다.
현재 LG는 인공지능 아티스트인 ‘틸다’에 엑사원을 접목하겠다는 구상도 하고 있다. 엑사원이 틸다와 연동이 될 경우 인공지능 아티스트와 실시간 대화를 하면서 몇 분 내에 그림을 받아 볼 수 있을지 모른다. LG 관계자는 “스스로 학습하는 엑사원은 인공지능이 각 분야의 전문가가 될 수 있는 가능성을 열었다”면서 “앞으로 전문가의 손길이 필요한 창작, 화학, 제조, 금융 등 각종 분야에서 사람들의 일손을 덜어주는 인공지능으로 거듭나도록 하겠다”고 말했다. 오픈AI의 달리 역시 현재 수많은 크리에이터와 테스트를 진행하고 있다. 오픈AI는 “우리의 희망은 달리2가 사람들이 자신을 창의적으로 표현할 수 있도록 돕는 것”이라면서 “인류에게 도움이 되는 인공지능이 사명이다”라고 설명했다.
달리2가 그린 <말을 탄 우주 비행사>
물론 염려를 하는 것도 사실이다. 여전히 편견이 있는 그림을 그릴 수 있기 때문이다. 예를 들어 테러리스트를 입력하면 무슬림을 그린다든지, 노예를 입력하면 아프리카인들이 나올 가능성이 있다. 때문에 오픈AI는 현재 달리를 사용할 수 있는 인원을 400명으로 제한한 상태다. 상용화하기에 앞서 완성도를 높이겠다는 구상이다.
그러나 이러한 컴퓨터 비전 기술은 인공지능의 도도한 물결이 될 것으로 보인다. 대표적인 분야가 의료다. MRI 품질을 높이려면 방사선 양을 높여야 하기 때문에 현재 인공지능을 활용하는 방안이 급격히 연구되고 있다. 업스케일이 절실한 것이다. 다만 현재는 인공지능이 인위적 이미지를 생성할 수 있어 보다 큰 연구가 필요하다. 일부 업체들은 이미 패션에 접목했다. 로즈버드닷에이아이와 같은 일부 인공지능 업체는 가상의 패션모델을 생성해주는 인공지능을 선보였다. 초상권이나 모델에 대한 비용 지불 없이 앞으로는 소프트웨어 구독만으로 수많은 의류 업체들이 인공지능 패션모델을 사용할 수 있다.