-
7분 만에 그림 256장 그리는 LG 슈퍼컴의 비결은
입력 : 2022.07.28 14:58:16
-
“동화책 삽화 스타일의 산 그림을 그려줄래?”
김승환 LG AI연구원 비전랩장이 LG가 개발한 초거대 인공지능(AI) ‘엑사원(EXAONE)’에 이러한 문장을 입력했다. 엑사원이 명령대로 삽화 창작물 수백 장을 순식간에 쏟아냈다. 지난달 미국 뉴올리언스에 있는 모리얼 컨벤션 센터에서 열린 ‘국제 컴퓨터 비전 및 패턴 인식 학술대회(CVPR) 2022’에서 LG가 선보인 차세대 인공지능 기술이다.
컴퓨터 비전 기술이 급속도로 진화하고 있다. 그동안 안면인식, 자율주행, 이미지 처리 등 다방면에서 컴퓨터 비전 인공지능이 활용됐는데 이제는 문장 입력만으로 그림을 그리는 시대가 활짝 열리고 있는 것이다.
LG가 개발한 초거대 인공지능 엑사원은 문장 하나를 입력하면 이를 7분 만에 그림 256장으로 바꿔주는 인공지능이다. 특정 화풍 스타일로도 그림 그리기가 가능하다. 인상파 화가로 유명한 빈센트 빌럼 반 고흐(Vincent Willem van Gogh)는 매우 그림을 많이 그리는 다작으로 유명하다. 반 고흐는 1890년 스스로 삶을 마감하기 직전까지 약 10년간 900여 점의 그림과 1100여 점의 습작을 그렸다. 10년간 2000여 점이니, 1년에 200여 점씩 쏟아낸 셈이다. 하지만 엑사원은 1시간 안에 2000점의 그림을 그릴 수 있다.
미국 뉴올리언스에 있는 모리얼 컨벤션 센터에서 열린 국제 컴퓨터 비전 및 패턴 인식 학술대회(CVPR) 2022에서 LG가 선보인 차세대 인공지능 기술.
하지만 인공지능 업계에선 엄청난 실력으로 받아들이고 있다. 해상도에서도 높은 실력을 보여준다. 엑사원은 이미지 화질을 높여주는 이른바 ‘업스케일’ 기술을 토대로 가로 세로 2048화소까지 이미지를 생성할 수 있다. 특히 엑사원은 문장에서 그림으로 전환은 물론 그림에서 문장으로 전환할 수 있다. LG는 이를 세계 최초라고 설명한다. 김승환 LG AI연구원 비전랩장은 “텍스트와 이미지를 양방향으로 전환할 수 있도록 한 것은 LG가 처음”이라면서 “인간과 경쟁하는 인공지능이 아닌, 인간에게 도움을 주고 영감을 주는 인공지능을 개발하는 것이 연구원의 목표”라고 설명했다.
특히 엑사원은 그림 한 장을 넣으면 영어 기준으로 토큰 64개에 달하는 문장을 생성한다. 자연어 처리 과정에서는 말뭉치(corpus)를 의미가 있는 단위로 나누는 과정을 토큰화(tokenization)라고 하는데, 그 단위를 토큰이라고 한다. 대략적으로 보면 64개에 달하는 단어로 된 문장을 만든다고 해도 무방하다. 그만큼 엑사원이 풍성한 문장을 만들 수 있다는 뜻이다. 실제로 한 아이가 공원에서 원반을 던지며 노는 사진을 업로드하면 ‘한 소년이 푸른 공원에서 녹색 플라스틱 원반을 던지고 있다’는 문장으로 표현했다.
7분 만에 그림 256장을 그리는 LG 엑사원.
▶오픈AI로 새로운 영역 개척 디퓨전 기술을 활용해 자유자재로 그림을 그리는 것은 오픈AI가 먼저 성공했다. 인공지능을 개발하는 스타트업인 오픈AI는 올해 초 달리2(DALL-E 2)라는 인공지능을 론칭했다. 달리를 만든 오픈AI의 CEO인 샘 알트만은 달리를 만드는 과정에 대해 이렇게 말했다. “지금까지 만든 것 중에서 가장 즐거웠고, 오랜만에 기술에서 느껴보지 못한 재미가 있었어요.”
오픈AI는 지난해 이미 달리1을 선보여 주변을 깜짝 놀라게 했다. 매우 다양한 그림이 가능했기 때문이다. 캐릭터 그림, 산업 디자인, 패션 디자인 등이 대표적이다.
예를 들어 명령어 창에 ‘강아지를 산책시키는 아기 무를 그려 달라’고 하면 해당 캐릭터를 생성할 수 있고, ‘아보카도 모양의 의자’라고 입력을 하면 수많은 아보카도에서 영감을 받은 의자를 디자인한다. 패션은 또 어떠한가. ‘검은 가죽 재킷과 금색 스커트를 그려라’라고 입력하면 이를 상상해 그린다. 달리는 편집 기능도 추가했다. ‘물속에서 트럼펫을 연주하는 테디베어’를 입력하면 해당 그림이 나올 텐데, 만약 그림이 마음에 들지 않아 ‘물속에서 기타를 연주하는 테디베어’라고 입력을 하면 곧바로 수정되는 방식이다.
요하네스 페르메이르의 <진주 귀걸이를 한 소녀>(왼쪽 위)와 달리2가 그린 모작.
문자로 입력해 수정이 가능한 것도 특징이다. 달리2는 오리지널 이미지에서 영감을 받기도 한다. 요하네스 페르메이르의 <진주 귀걸이를 한 소녀>라는 17세기 예술품을 학습하면 이를 모조한 것 같은 그림이 나온다. 오픈AI가 사용자를 상대로 조사해보니, 달리2는 달리1에 비해 88.2% 더 사실적이다. ▶디퓨전 모델로 지금까지와 다른 그림 이러한 그림 그리기가 가능해진 배경에는 ‘디퓨전 모델(diffusion model)’이라는 새로운 인공지능 영역이 개척됐기 때문이다. 그동안 컴퓨터 비전에 주로 쓰인 모델은 GAN(Generative Adversarial Networks)이었다. 이미지를 생성하는 ‘생성자(generator)’와 해당 이미지가 진짜인지 가짜인지 판별하는 ‘판별자(discriminator)’를 만들어 경쟁을 붙였다. 생성자가 이미지를 만들어내면, 감별자가 진위 여부를 판단한다. 가짜로 판별이 나면 생성자가 또 다른 그림을 그리면서 갈수록 더 진짜 같은 그림을 그리는 것이다.
김승환 LG 인공지능연구원 AI비전랩장
▶의료·패션 등 다양한 분야에서 활용 이러한 디퓨전 모델은 매우 다양한 영역에 사용이 가능하다. LG는 올해 초 박윤희 디자이너와 협업해 뉴욕 패션위크에서 엑사원이 디자인한 의상을 대거 선보였다. LG를 상징하는 금성에 핀 꽃을 주제로 약 3000장에 달하는 디자인을 박 디자이너에게 제공했는데, 박 디자이너가 이 가운데 약 200장을 고르고 다듬어 의상을 완성했다는 설명이다. LG에 따르면 패션쇼는 디자인에서 마무리 작업까지 약 4개월이 걸리는데, 엑사원을 통해 한 달 반으로 기간을 단축했다.
현재 LG는 인공지능 아티스트인 ‘틸다’에 엑사원을 접목하겠다는 구상도 하고 있다. 엑사원이 틸다와 연동이 될 경우 인공지능 아티스트와 실시간 대화를 하면서 몇 분 내에 그림을 받아 볼 수 있을지 모른다. LG 관계자는 “스스로 학습하는 엑사원은 인공지능이 각 분야의 전문가가 될 수 있는 가능성을 열었다”면서 “앞으로 전문가의 손길이 필요한 창작, 화학, 제조, 금융 등 각종 분야에서 사람들의 일손을 덜어주는 인공지능으로 거듭나도록 하겠다”고 말했다. 오픈AI의 달리 역시 현재 수많은 크리에이터와 테스트를 진행하고 있다. 오픈AI는 “우리의 희망은 달리2가 사람들이 자신을 창의적으로 표현할 수 있도록 돕는 것”이라면서 “인류에게 도움이 되는 인공지능이 사명이다”라고 설명했다.
달리2가 그린 <말을 탄 우주 비행사>
그러나 이러한 컴퓨터 비전 기술은 인공지능의 도도한 물결이 될 것으로 보인다. 대표적인 분야가 의료다. MRI 품질을 높이려면 방사선 양을 높여야 하기 때문에 현재 인공지능을 활용하는 방안이 급격히 연구되고 있다. 업스케일이 절실한 것이다. 다만 현재는 인공지능이 인위적 이미지를 생성할 수 있어 보다 큰 연구가 필요하다. 일부 업체들은 이미 패션에 접목했다. 로즈버드닷에이아이와 같은 일부 인공지능 업체는 가상의 패션모델을 생성해주는 인공지능을 선보였다. 초상권이나 모델에 대한 비용 지불 없이 앞으로는 소프트웨어 구독만으로 수많은 의류 업체들이 인공지능 패션모델을 사용할 수 있다.
[이상덕 매일경제 실리콘밸리 특파원]
[본 기사는 매경LUXMEN 제143호 (2022년 8월) 기사입니다]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]