최근 글로벌 빅테크들의 생성형 인공지능(AI) 개발 경쟁이 더욱 치열해지고 있다. 특히 지난 4월부터는 소형언어모델(Small Language Models, SLM)을 앞다퉈 내놓으며 ‘가성비’를 높인 타깃화 전략이 주를 이루고 있는 모습이다. 기존 대형언어모델(LLM)이 높은 비용으로 인해 상용화에 나서기 어렵다는 점에 착안해 적은 비용으로도 비슷한 성능을 낼 수 있는 프로젝트를 공개하며 고객 모시기에 나서고 있다. 특히 기존 경쟁에서 다소 떨어져 있던 애플이 기존 마이크로소프트(MS), 메타플랫폼, 구글과 경쟁하기 위해 모델을 내놓은 것도 큰 이슈가 되고 있다. 이러한 빅테크들이 출시한 SLM모델은 기존 LLM보다 더 적은 매개변수(파라미터)를 투입해 준수한 성능을 내는 것이 특징이다.
매개변수란 AI가 연산 과정에서 고려하는 다양한 변수로, 인간 두뇌의 시냅스에 해당한다. 매개변수가 많을수록 AI의 성능도 좋아진다. 일반적으로 이러한 매개변수와 함께 데이터 양은 AI 성능과 직결된다. 학습된 데이터 양이 많을수록 고급 추론, 데이터 분석 등 복잡한 작업 환경에서 요구하는 일을 정확성을 가지고 능숙하게 처리할 수 있다. 이러한 특성으로 인해 GPT모델의 매개변수는 GPT-3 1750억개, GPT-4는 적게는 5000억개부터 많게는 1조7000억개까지 추정되고 있다.
문제는 이렇게 많은 데이터를 처리해 답을 산출하는 과정에서 상당한 컴퓨팅 자원과 그에 상응하는 비용이 소요된다는 점이다. 연산량이 쏟아지며 이를 감당하는 데이터센터의 전력 소비량도 빠르게 증가하고 있다. 국제에너지기구에 따르면 데이터센터와 전송 네트워크망이 전 세계 전력 소비량에서 차지하는 비율은 최대 1.5%에 이른다. AI 관련 데이터센터를 유지하기 위한 비용도 부담이다. 이러한 이유로 최근 인터넷이 연결되지 않아도 구동되는 콤팩트한 사이즈의 소형 AI 언어모델이 각광을 받고 있다.
애플은 지난 4월 24일 새로운 AI모델 오픈ELM(OpenELM, Open-source Efficient Language Models)을 깜짝 공개하며 SLM 시장에 새로운 도전장을 내밀었다. 4개의 소형언어모델 시리즈인 오픈ELM은 실행 비용이 저렴하며 휴대전화 및 노트북과 같은 장치에서 작동하도록 최적화돼 있는 것이 특징이다. 오픈ELM은 1.5조개의 토큰으로 훈련된 1.1B 사이즈의 모델로, 이전 모델인 ‘올모(OLMo)’의 후속작이다.
지난 2월 팀 쿡 애플 최고경영자(CEO)는 “회사가 AI 분야에 엄청난 시간과 노력을 쏟아붓고 있다”라며 생성형 AI 기능이 자사 기기에 도입될 것이라 예고한 바 있다. 허깅페이스 모델 페이지에 따르면 오픈ELM은 이메일 작성과 같은 텍스트 관련 작업을 매우 효율적으로 수행한다. 매개변수별로 2억7000만개, 4억5000만개, 11억개, 30억개의 총 4가지로 세분화되어 있다. 주목할 만한 점은 오픈ELM이 전작보다 2배 적은 훈련 데이터를 사용했음에도 불구하고 2.36% 개선된 성능을 보였다는 점이다.
한종목 미래에셋증권 연구원은 “(오픈ELM에 차용된) 레이어 와이즈 스케일링(Layer-wise scaling)은 파라미터를 보다 효과적으로 배분할 수 있으며, 모델의 효율성을 극대화할 수 있다”라며 “이러한 접근 방식 덕분에 오픈ELM은 기존 모델 대비 더 작은 크기로도 높은 성능을 발휘할 수 있다”라고 설명했다.
챗GPT 개발사 오픈AI와 손잡고 AI 열풍을 이끄는 MS는 애플보다 한발 앞서 SLM을 출시해 눈길을 끌었다. MS가 선보인 모델은 ‘파이-3 미니(Phi-3 Mini)’로 앞으로 내놓을 3가지 소형 모델 중 가장 경량 모델로 알려졌다.
지난해 12월 파이-2를 출시한 바 있는 MS는 파이-3가 이전 버전보다 성능이 더 뛰어나고, 10배 큰 모델 수준의 응답을 제공할 수 있다고 설명했다.
파이-3는 미니(Mini)3.8B, 스몰(Small)7B, 미디움(Medium)14B 3가지 크기로 출시되었다. 이들은 GPT-3.5와 비견될 만한 벤치마크 점수와 내부 테스트 결과를 발표했다. MS 측은 파이-3가 특히 휴대전화에서 작동이 가능할 정도로 작은 모델임을 강조하며, 실제로 아이폰14에서 초당 12토큰의 생성 속도로 구동될 수 있음을 입증했다.
한종목 연구원은 “파이-3의 또 다른 장점은 메타의 라마-2(LLaMA-2)와 유사한 구조를 가지고 있다는 점”이라며 “이는 라마 기반으로 개발된 패키지를 바로 적용할 수 있다는 범용성을 제공한다”라고 설명했다.
이러한 유연성 덕분에 파이-3는 다양한 애플리케이션에 쉽게 통합될 수 있으며, 개발자들이 기존에 구축한 인프라를 최대한 활용할 수 있다.
MS 생성형 AI 연구담당 부사장인 세바스티엔 부벡은 “파이-3는 약간이 아니라 획기적으로 비용이 적게 든다”며 “비슷한 기능을 가진 다른 모델들과 비교했을 때 비용이 10분의 1 수준”이라고 말했다.
구글은 디바이스 시장을 공략하기 위해 제미나이를 경량화한 모델 ‘젬마(Gemma)’ 2B와 7B를 지난 3월 출시하기도 했다. 2B와 7B는 각각 매개변수 20억개와 70억개를 의미한다. 당시 구글은 “젬마 모델군은 개발자의 노트북이나 데스크톱 컴퓨터에서 바로 실행될 수 있다”고 언급했다. 이외에 최근 핫한 AI 스타트업으로 떠오르고 있는 앤스로픽도 그래프가 있는 연구 논문을 읽고 빠르게 요약할 수 있는 ‘클로드 3 하이쿠’를 출시하기도 했다.
오픈AI는 최근 GPT2를 기습적으로 공개하며 AI 커뮤니티에 큰 충격을 줬다. GPT2는 GPT-4 아키텍처를 기반으로 생성된 모델로, LMSYS라는 오픈소스 챗봇 아레나에 이틀 동안 공개된 후 트래픽 부하로 내려가 더욱 궁금증을 자아냈다.
한종목 연구원은 이에 대해 “GPT2는 언어모델에 일관된 ‘페르소나’를 부여하는 방식을 도입한 것으로 보인다”라며 “이는 사용자들의 일상적인 업무를 이해하고 수행하는 능력을 중점으로 두며, 불필요한 지식을 배제하고 특정 작업에 특화된 추론 및 코딩 능력을 가진 모델”이라고 설명했다. 이러한 접근 방식은 GPT2가 경량화된 모델로도 높은 성능을 발휘할 수 있음을 의미한다.
한편 오픈AI는 최근 화제가 됐던 ‘GPT2-챗봇’의 존재에 대해 인정하기도 했다. 윌리엄 페더스 오픈AI 개발자는 이날 X를 통해 “챗봇 아레나에서 ‘im-also-a-goodgpt2-chatbot’ 버전을 테스트해 왔다”라는 글을 게시했기 때문이다.
국내 기업으로는 최근 SK C&C가 기업 맞춤형 소형거대언어모델(sLLM) 제작 플랫폼 ‘솔루어 엘엘엠옵스’(Solur LLMOps)를 선보이며 눈길을 끌었다. sLLM은 오픈AI의 챗GPT, 네이버의 하이퍼클로바X 등 LLM에 비해 작지만 특정 업무 영역에 특화된 AI 학습이 가능하다. SK C&C는 금융·제조·통신 등 분야의 고객과 생성형 AI 서비스 구축 과정에서 축적한 생성형 AI 파운데이션 모델 적용, 기업 데이터 결합 및 학습 노하우 등을 플랫폼에 담았다고 설명했다. 데이터 수집과 동시에 비정형 데이터를 전처리해 학습용 데이터로 자동 생성하는 등 초자동화 기술을 적용한 점도 특징이다. 한편, 해당 플랫폼이 AI가 오답을 생성하는 환각(할루시네이션) 현상을 제거하는 AI 자동화 도구를 제공해 비전문가도 안심하고 sLLM을 만들 수 있다고 회사는 설명했다.
최근 공개된 애플의 오픈ELM과 MS의 파이-3는 각각의 특징과 장점을 가지고 있지만, 성능 면에서는 뚜렷한 차이를 보인다. 모델의 성능을 비교하는 하나의 측정지수라 할 수 있는 MMLU 벤치마크 점수에서 파이-3는 69%를 기록한 반면, 오픈ELM은 27%에 그쳤다. 파이-3의 모델 크기가 오픈ELM보다 훨씬 크다는 점을 고려할 때 어느 정도 예상된 결과라고 할 수 있다.
한편, GPT2는 비록 짧은 공개 기간 동안 일부 기능에서 GPT-4-터보를 뛰어넘는 성능을 보였다는 평가를 받기도 했다.
한 연구원은 이에 대해 “오픈AI가 경량화된 모델에서도 높은 성능을 구현할 수 있는 기술력을 갖추고 있음을 의미한다”라며 “GPT2가 실제로 1.5B 파라미터를 가진 소형모델이라면, 이는 경쟁자들과의 격차를 다시 한번 여실히 증명하는 셈”이라고 분석했다.
[박지훈 기자]
[본 기사는 매경LUXMEN 제165호 (2024년 6월) 기사입니다]