이제는 인공지능(AI) 기술이 국가 경쟁력이 되고 있는 가운데, 네이버 등 국내AI 생태계를 대표하는 기업들이 자체 개발한AI 모델을 무료로 공유하기 시작했다.
지난 2월 카카오가 거대언어모델(LLM) ‘카나나’ 라인업 중 크기가 작은 ‘카나나 나노’ 모델을 공개한 데 이어, 4월에는 네이버 또한 소형 모델인 ‘하이퍼클로바X 시드(SEED)’를 모두가 쓸 수 있게 공개한 것이다.
이러한 모델들은 다른 사용자들에게 공개된 개방형 모델이라고 하여 ‘오픈소스’ 모델로 불린다. 일반적으로 오픈소스 모델은 다른 기업들도 자유롭게 모델을 내려받아 활용할 수 있다는 것이 특징이다.
미국 메타가 개발하는 ‘라마’, 중국의 딥시크가 개발하는 ‘딥시크’ 모델이 대표적인 오픈소스AI 모델로 꼽힌다.
이처럼 해외에서는AI 대표 기업으로 꼽히는 곳들이 오픈소스 생태계를 이끌어왔지만, 그동안 한국은 오픈소스 AI 생태계가 빈약하다는 평가가 뒤따랐다. 국내에서는 LG AI연구원이 개발하는 모델인 ‘엑사원’ 정도만이 주요 오픈소스 사례로 거론됐다.
다만 이제는 네이버 등도 자사 기술력을 알리고, 빅테크의 공습 속에서 국내 생태계를 구축하기 위해 올해부터는 전략의 변화를 준 것으로 풀이된다. 이들이 공개한 모델은 상대적으로 크기가 작은 소형 모델로 분류되지만, 비용 효율적이고 한국어 성능에서 경쟁력을 갖춘 것이 특징이다.
오픈소스는 AI뿐만 아니라 그동안 소프트웨어의 역사와 함께 같이 해왔다. 오픈소스 소프트웨어는 소스코드가 공개되어 자유롭게 사용, 수정, 재배포가 가능한 소프트웨어를 의미한다. 오픈소스의 장점은 해당 모델이나 서비스를 개방해 기업 밖 다른 이용자들도 자유롭게 사용할 수 있도록 한다는 것에 있다.
이용자 입장에서는 필요한 소프트웨어를 처음부터 개발하는 비용을 줄이면서 비용을 효율화할 수 있다.
또한 다양한 개발자들이 해당 오픈소스 소프트웨어를 사용하고 생태계에 기여하면서, 소프트웨어 생태계가 커지고 서비스 취약점 개선이나 고도화가 이루어진다는 것도 특징이다. 기업 입장에서는 생태계 확장을 통해 영향력을 키우고, 나아가 업계 표준을 선점할 수 있다는 이점을 가진다. 서버용 컴퓨터 운영체제(OS)의 표준으로 자리잡은 ‘리눅스’가 대표적인 사례다. 리눅스는 개발자 리눅스 토발스가 1991년 개발한 뒤 오픈소스로 빠르게 확산하면서 대부분의 서버에서 활용되는 광범위한 표준으로 자리잡았다. AI에서도 오픈소스 모델의 중요성이 계속 부각되어 왔다.
거대언어모델(LLM) 같은 원천 기술의 경우 처음부터 이를 개발하기 위해서는 고가의 그래픽처리장치(GPU) 인프라와 컴퓨팅 비용이 투입되어야 하기에 스타트업이나 자금력이 부족한 기업들은 사실상LLM을 만드는 것이 거의 불가능했다. 그렇기에 이들은 오픈소스LLM을 빠르게 도입한 다음, 해당 모델에 각사가 가진 데이터를 학습시켜 최적화해 사용하는 방식을 채택해왔다. 대표적으로 꼽히는 모델은 메타가 개발하는 LLM ‘라마’ 시리즈다. 오픈AI가 GPT 모델을 API 형태로 기업에 제공해 비용을 부과하는 것과 다르게, 라마는 각 기업이 내려받아 자체적으로 쓸 수 있는 것이다.
메타는 이를 기반으로 ‘라마’ 사용자를 빠르게 늘리면서 올해 처음으로 자사 생태계의 AI 개발자들을 대상으로 하는 행사인 ‘라마콘(LlamaCon)’을 진행하기도 했다.
오픈소스 모델이라고 해서 폐쇄형 모델보다 성능이 떨어지는 것은 아니다. 스탠퍼드대 인간중심AI연구소(HAI)는 ‘AI 인덱스2025’ 보고서에서 “지난해 1월에는 상위권의 폐쇄형 모델이 오픈웨이트 모델보다 8.0% 앞섰는데, 2025년 2월에는 격차가 1.7%로 좁혀졌다”라고 설명했다. 여기서 오픈 웨이트 모델은 AI가 어떤 정보를 더 중요하게 생각할지 결정해주는 숫자 값인 ‘가중치(웨이트)’를 공개하면서 소스 코드나 학습한 데이터는 공개하지 않는 경우를 말한다. 메타의 라마 또한 이 정의에 따르면 오픈웨이트 모델에 해당하기 때문에, 진정한 오픈소스는 아니라는 시각도 있다.
국내 생태계에서는 LG그룹의 AI 싱크탱크 역할을 하는 LG AI연구원이 자체 개발한AI 모델 ‘엑사원(EXAONE)’이 대표 모델로 꼽힌다.
LG AI연구원이 지난해 8월 선보인 엑사원3.0은 국내 최초 오픈소스 원천 모델 사례로 꼽히며, 8억 파라미터 크기의 경량 모델로 공개됐다. 여기서 파라미터 수는 인간 두뇌의 시냅스에 해당하는 AI의 연산 단위를 의미하는데, 파라미터 수가 클수록 더 많은 데이터를 활용해 연산을 수행할 수 있다. 오픈AI의 GPT-4 같은 대형 모델은 보통 수천억 개에서 수조 개의 파라미터로 구성된다.
다만 파라미터 수가 클수록 데이터 연산량이 증가하고 비용도 올라가기 때문에 경량화된 모델에 대한 수요도 크다. LG AI연구원의 경우 엑사원3.0을 선보이면서 이전 모델 대비 모델 크기는100분의 3으로 줄이면서도 성능을 높이고 추론 처리 시간은 56% 줄였다.
LG AI연구원은 이어 지난해 12월 최신 모델인 엑사원 3.5를 선보이면서 라인업을 초경량 모델인 24억 파라미터 모델, 범용적 활용이 가능한 78억 파라미터 모델, 고성능의 320억 파라미터 모델로 세분화했다.
엑사원3.5는 특히 장문의 텍스트에 대한 처리 성능을 개선하면서 성능이 비약적으로 높아져 메타의 라마, 알리바바의 큐원(Qwen) 등 동일한 모델 크기의 글로벌 모델보다 주요 벤치마크에서 높은 점수를 기록했다.
엑사원3.5는 특히 미국의 비영리 연구기관인 에포크AI가 올해 선정한 ‘주목할 만한AI’에서 국내 모델로는 유일하게 이름을 올리며 글로벌에서도 성능을 인정받았다. LG AI연구원은 여기서 나아가 올해 3월 첫 추론 모델인 ‘엑사원 딥-32B’까지 공개했다.
LG AI연구원이 내놓고 있는 엑사원은 오픈소스로 연구용 등의 목적으로는 활용이 자유롭지만 아직 상업적 이용은 제한된다. LG AI연구원은 대신 자사모델을 개방하면서 “연구와 생태계 발전에 기여하고 AI 혁신의 기반을 만들겠다”라며 국내 AI 연구자와 개발자들의 연구를 촉진하는 역할을 할 것이라 말했다. 한국 대표 플랫폼 기업인 네이버와 카카오도 올해 처음으로 오픈소스 모델을 선보였다. 양사 모두 크기가 작은 경량 모델을 공개했다. AI 모델 라인업 ‘카나나’를 갖춘 카카오는 올해 2월 “오픈소스 공개를 통해 국내AI 생태계 활성화에 기여할 수 있을 것으로 기대한다”라며 21억 파라미터 크기의 경량 모델 ‘카나나 나노2.1B’를 공개했다. 카나나 나노는 온디바이스 환경에서도 구동할 수 있는 작은 모델로, KMMLU 등 한국어 성능을 평가하는 벤치마크에서 동급의 다른 모델 대비 뛰어난 성능을 기록한 것이 특징이다.
4월에는 네이버가 자사 초거대 모델인 ‘하이퍼클로바X’의 경량 모델인 ‘하이퍼클로바X 시드’ 모델3종을 선보였다. 하이퍼클로바X 시드 모델은 텍스트뿐만 아니라 이미지와 영상 정보도 이해할 수 있으며, 이전까지 국내서 나온 오픈소스 모델과 달리 상업 목적으로도 이용할 수 있도록 활용이 완전히 자유로운 것이 특징이다. 네이버는 모델을 발표하며 “해당 모델을 기업과 연구기관들이 필요에 맞게 조정해 비즈니스나 학술 연구에 이용할 수 있을 것”이라고 기대했다.
네이버와 카카오가 이처럼 모델을 선보인 데는 국내 AI 생태계에 기여하고자 하는 목적과 함께, 자사 기술력을 알리고자 하는 니즈도 크다.
특히 네이버는 그동안AI 주권을 의미하는 ‘소버린AI’를 내세우며 외부에 종속되지 않는 자체적인 기술력과 생태계를 강조해왔다. 오픈AI를 포함한 글로벌AI 기업들의 국내 영향력이 커지는 가운데, 네이버는 자사 모델을 무료로 개방하면서 네이버의AI를 활용할 생태계 파트너를 넓히려는 의도 또한 반영된 것으로 풀이된다.
오픈소스 행보를 보이는 일부AI 스타트업도 있다. 주요 AI 스타트업 중 한 곳으로 꼽히는 업스테이지는 지난해 9월 자사 LLM인 ‘솔라 프로’의 초기 테스트용 모델인 프리뷰 버전을 공개했다. 올해 3월에는 신생 스타트업인 트릴리온랩스가 상업적 이용까지 가능한‘트릴리온7B 프리뷰’ 모델을 선보이기도 했다.
네이버와 카카오까지 특정 모델을 오픈소스로 공유하면서 국내AI 생태계에 다양성이 더해졌지만, 최근 공개된 모델들은 대부분 크기가 작은 초경량 모델에 편중되어 있어 활용도 측면에서 아쉽다는 지적도 나온다.
또한 일부 국내 오픈소스 모델은 뛰어난 한국어 성능을 강조했는데, 글로벌 기업의 모델들도 한국어 성능이 빠르게 향상되는 상황에서 한국어 특화 모델로서의 차별화된 가치에 대한 의문도 남는다.
한 AI 개발자는“한국어 특화된 오픈소스 모델은 국내 생태계의 좋은 선례”라면서도 “다만 해당 모델들을 실제 기업들이 현장에서 사용하는 사례는 많지 않다”라며 기술 공개 이상의 가치 창출을 바라봐야 한다고 조언했다.
오픈소스 모델 플랫폼인 허깅페이스에 등록된 주요 국내 모델들의 최근 한 달(5월 기준)간 다운로드 수치를 보면 LG AI연구원의 ‘엑사원3.5’ 모델 라인업이 여전히 36만회가 넘는 다운로드 수를 기록하며 가장 눈길을 끌었다. 지난 4월 공개된 메타의 최신 모델인 ‘라마4’ 제품군이 60만회 다운로드에 육박한다는 점에 비추어 보면 고무적인 수치다.
네이버의 ‘하이퍼클로바X 시드’는10만회 다운로드를 넘었고, 카카오의 ‘카나나 나노’는 아직 1만 3000회 수준을 기록하고 있다. 올해 초 딥시크 충격으로 인해 정부도 AI 원천 모델과 오픈소스의 중요성을 인지하고 관련 정책을 준비하고 있다. 지난 2월 국가인공지능위원회는 ‘국가AI역량 강화’ 방안을 발표하며 글로벌 최고 수준의 LLM을 개발할 ‘월드 베스트LLM’ 프로젝트를 추진하고, 이를 통해 개발된 모델은 오픈소스로 공개하겠다는 계획을 공개하기도 했다.
[정호준 기자]