디지털이 곧 국력이라는 명제가 공허하지 않은 시대, 인공지능(AI)은 모든 기술과 산업의 핵심 엔진으로 자리잡았다. 인간의 언어를 이해하고, 지식 정보를 종합해 판단하며, 창작과 추론까지 수행하는 ‘거대언어모델(LLM)’은 이제 단순한 도구가 아닌 국가의 전략자산이 되었다. 이런 전환기의 한복판에서, 한국의 AI 생태계도 큰 방향전환을 맞고 있다. 2024년부터 2025년 상반기까지, 국내 주요 빅테크 기업과 AI 연구기관이 앞다투어 AI 모델을 오픈소스로 공개하며 개방과 협업 중심의 생태계 재편을 선언한 것이다.
오픈소스 모델이란 쉽게 말해 누구나 해당 AI 모델을 내려받아 연구하고 활용할 수 있도록 개방된 형태를 의미한다. 이러한 개방은 단순한 기술 공유를 넘어, 생태계 전반에 파급력을 미치는 ‘게임 체인저’가 되고 있다. 메타의 ‘라마(LLaMA)’처럼 글로벌 AI 시장에서 오픈소스 모델은 기술 민주화의 상징이자, 생태계 확장의 원동력이 되어왔다. 반면, 국내에선 그동안 LG AI연구원의 ‘엑사원(EXAONE)’ 정도가 유일하게 언급되는 수준이었지만, 이제 그 판이 달라졌다. 네이버와 카카오가 직접 나서면서 개방형 AI 생태계의 지형도가 크게 바뀌고 있다.
2024년 2월, 카카오는 자사의 LLM 시리즈 ‘카나나(Kanana)’ 중 경량형 모델인 ‘카나나 나노 2.1B’를 오픈소스로 공개했다. 이 모델은 21억 파라미터의 비교적 소형 LLM으로, 한국어 성능 특화라는 점에서 의미 있는 시도였다. 그로부터 두 달 후, 네이버는 ‘하이퍼클로바X’의 경량 모델인 ‘하이퍼클로바X 시드(SEED)’ 3종을 공개했다. 놀라운 점은 이 모델들이 단순한 연구용 공개에 그치지 않고 상업적 활용까지 자유롭게 허용된다는 데 있다. 이는 단순한 기술공개가 아닌, ‘플랫폼 전략’의 일환이며 자사 생태계를 확장하려는 움직임이다.
LG AI연구원 또한 지속적으로 오픈소스 전략을 펼쳐왔다. 2023년 말 선보인 ‘엑사원 3.5’는 24억, 78억, 320억 파라미터 등 다양한 크기로 세분화되었으며, 한국어 및 장문 처리 성능에서 글로벌 경쟁모델을 앞선다는 평가를 받았다. 미국 비영리 연구기관 ‘에포크AI’는 이 모델을 ‘주목할 만한 AI’로 선정했고, 오픈소스 플랫폼 허깅페이스(HuggingFace)에서는 36만 건 이상의 다운로드 수치를 기록하며, 국내외에서 큰 반향을 일으켰다.
그러나 여전히 많은 과제가 남아 있다. 대부분의 모델이 소형에 머물러 있어 산업 현장 전반에서의 활용 범위가 제한적이라는 평가가 나온다. 또, 오픈소스로서 기술은 공개되었지만, 실질적 파급력을 얻기 위해선 기술 상용화, 유저 커뮤니티 확대, 산업 적용 사례의 누적이 필요하다.
AI 모델의 가치를 판가름하는 가장 객관적인 기준은 ‘벤치마크’다. 기업들은 새로운 AI 모델을 선보일 때마다 다양한 벤치마크 수치를 앞세운다. 예를 들어, GPT-4.1은 코딩 능력을 측정하는 SWE-Bench에서 54.6%를 기록했고, 영상 이해 능력을 평가하는 Video-MME에서도 전작 대비 성능 향상을 입증했다. 반면 한국 기업들 역시 국내 기반의 벤치마크에서 의미 있는 점수를 기록하며 경쟁력을 과시하고 있다. 대표적으로 카카오의 ‘카나나 나노’는 한국형 벤치마크인 KMMLU에서 높은 성능을 기록했고, 네이버 모델은 수능 국어 기반 평가에서 1등급을 받아 화제를 모았다.
하지만 벤치마크는 그 자체로 절대적인 성능의 기준이 되기 어렵다. 일부 기업들이 특정 벤치마크 점수에 최적화된 모델만을 설계하거나, 실제 유저에게 제공되는 모델과 다른 버전을 테스트에 사용하는 조작 논란이 발생하기도 한다. 메타의 라마4, 일론 머스크의 그록 3 같은 모델들이 이에 해당하며, 점수의 진위 여부를 둘러싼 논란이 반복되고 있다.
스탠퍼드대 AI연구소는 벤치마크 품질의 편차와 검증 방식의 미비함을 지적하며, “정책 입안자들과 기업들이 모범 사례를 기반으로 신뢰할 수 있는 평가 기준을 마련해야 한다”고 강조했다. 실제로 구글은 ‘큐리(CURIE)’라는 과학 분야 고난도 벤치마크를, 오픈AI는 AI가 논문 실험을 복제하는 능력을 테스트하는 ‘페이퍼벤치(PaperBench)’를 새로 도입하며, 단순한 시험지 이상의 실질적 평가 체계를 모색하고 있다.
한국의 AI 생태계는 지금 ‘닫힌 기술’에서 ‘열린 생태계’로, ‘수치 경쟁’에서 ‘실제 가치 창출’로 전환하는 기로에 서 있다. 네이버, 카카오, LG AI연구원을 포함한 기업들의 오픈소스 전략은 그 시작이다. 그러나 이제는 공개된 기술이 실제 사용자와 산업 속에서 ‘사용’되고, 객관적인 성능 검증을 거쳐 글로벌 경쟁력을 갖추는 단계로 나아가기 위해 노력하고 있다.
이를 위해선 단지 모델을 공개하는 것을 넘어, 그 모델을 평가하고 검증할 수 있는 투명하고 신뢰할 수 있는 벤치마크 생태계의 정비가 필수다. 동시에 정부와 학계, 산업이 함께하는 생태계 전환 전략이 요구된다. 딥시크 사태 이후 정부가 내놓은 ‘월드 베스트 LLM’ 프로젝트는 그러한 필요를 인식한 정책적 대응이자, 기술 주권 확보를 위한 장기적 시도이기도 하다.
두 편의 심층 기사를 통해, 한국 AI 생태계가 직면한 도전과 기회, 그리고 우리가 나아가야 할 방향에 대해 보다 입체적으로 조망해보자.
[박지훈 기자]
[본 기사는 매경LUXMEN 제177호 (2025년 6월) 기사입니다]