• [Part Ⅰ] 인공지능 성능 평가 시험지 “어떤 AI가 가장 똑똑할까?”

    입력 : 2025.06.16 15:32:37

  • 사진설명

    전세계의 손 꼽히는 빅테크들이 하루가 멀다 하고 새로운 인공지능(AI) 모델을 발표하고 있다.

    AI 모델은 모든 AI 서비스의 핵심이자 두뇌와 같은 존재다. ‘지브리풍’ 그림을 뚝딱 그려내는 챗GPT의 서비스 뒤에는 ‘GPT-4o’와 같은 모델이 있다.

    그만큼 기업들이 가장 치열하게 기술 경쟁을 벌이는 영역이기도 하다.

    기업들은 새로운 모델을 선보일 때마다 자사의 모델이 다른 모델보다 코딩을 얼마나 잘하는지, 어려운 수학이나 과학 문제는 얼마나 잘 푸는지를 전면에 내세운다. ‘우리 모델이 가장 똑똑하다’는 것을 보여주기 위함이다.

    이때 활용되는 것이 벤치마크다. 벤치마크는 일반적으로 기기나 소프트웨어의 성능을 측정하고 비교하기 위한 지표를 말한다. AI 모델에 문제를 던져주고 답의 정확도를 분석하는 시험으로 볼 수 있다.

    갤럭시나 아이폰과 같은 스마트폰의 성능을 비교할 때에도 스마트폰의 작업 처리 속도와 효율을 평가하는 벤치마크가 있는 것처럼 AI 모델에서도 비슷하다.

    다만 AI 모델은 글 요약부터 생성, 수학·과학 문제 풀이, 다양한 전문 분야 지식 추론 등 수행할 수 있는 작업의 영역이 방대한 만큼 AI 성능을 평가하기 위한 벤치마크도 셀 수 없이 많다.

    또한 AI 모델 성능이 빠르게 향상되면서, 기존 벤치마크로는 성능 분석에 한계가 생기자 더욱 어렵게 만든 벤치마크도 속속 등장하는 추세다.

    벤치마크는 이처럼 AI 모델의 성능을 가늠할 수 있는 나침반 역할을 한다. 다만 기업 간의 AI 기술 경쟁이 심화되면서 벤치마크 수치에 치중해 유리한 벤치마크 지표만 공개하거나 심지어는 점수를 조작하는 사례도 나오고 있다. 이때문에 일각에서는 “벤치마크를 그대로 믿을 수가 없다”라는 의문과 비판까지 나오는 상황이다.

    사진설명

    코딩 능력·장문 이해 능력 측정·수능 국어 평가하기도
    다양한 AI 모델이 수능 국어 시험을 푼다면 몇점을 받을지,
    등급은 어떻게 될지를 측정하는 것이다.

    AI 모델을 위한 벤치마크 중에서는 수학, 과학, 지리, 법률 등 다양한 주제별로 문항을 구성해 AI 모델의 범용성을 측정하는 벤치마크도 있지만 AI가 잘못된 답을 제시할 확률인 ‘환각률’ 측정 벤치마크처럼 특정 영역에 집중하는 벤치마크도 있다.

    지난달 오픈AI가 새로운 모델 라인업인 ‘GPT-4.1’을 발표할 때를 보면 어떤 벤치마크들이 기업 발표에 주로 쓰이는지 확인할 수 있다.

    오픈AI는 GPT-4.1이 코딩과 지시 수행 작업에서 크게 개선됐다고 말하며 “GPT-4.1이 SWE-벤치 베리파이드(SWE-Bench Verified)에서 54.6%를 기록하며 GPT-4o보다 21.4%포인트 향상됐다”라고 설명했다. SWE-벤치 베리파이드는 지난해 오픈AI가 자체 개발한 벤치마크로, AI 모델이 오픈소스 소프트웨어 생태계에서 가져온 코드들을 이해하고 문제를 수정하는 능력을 평가하는 것이 특징이다.

    이어 오픈AI는 장문의 컨텍스트를 이해하고 처리하는 능력이 향상됐다면서 GPT-4.1의 ‘비디오-MME(Video-MME)’가 72%로 GPT-4o보다 6.7% 포인트 높다고 설명했다.

    비디오-MME는 텍스트뿐만 아니라 영상 이해 능력을 평가하는 것으로, 최대 1시간 길이의 영상을 AI가 보고 내용과 맥락을 이해하는지를 측정한다.

    또한 가장 보편적으로 널리 쓰이는 벤치마크는 ‘MMLU(Massive Multitask Language Understanding)’다. 57개의 과목에 걸쳐 AI의 문제 풀이 능력을 측정하기 때문에 AI가 기본적으로 얼마나 똑똑한지를 파악하기 위해 대부분의 기업들이 사용하는 지표이기도 하다.

    한편 대부분의 벤치마크가 영어 기반인 만큼, AI 모델의 한국어 기반 능력을 평가하기 위한 국내 벤치마크들도 존재한다. MMLU 벤치마크를 한국화한 KMMLU부터 한국의 역사, 상식 등을 평가하는 해례(HAERAE) 벤치마크가 있다. 국내의 오픈소스 언어모델 중심의 연구팀 ‘해례’가 개발을 이끈 토종 벤치마크로 꼽힌다.

    한국에서는 민간이 개발한 벤치마크인 수능 국어 벤치마크도 있다. 다양한 AI 모델이 수능 국어 시험을 푼다면 몇점을 받을지, 등급은 어떻게 될지를 측정하는 것이다. AI가 출제된 문제를 미리 학습하고 푸는 것을 방지하기 위해 수능 이전의 모델을 평가에 활용한다.

    2025년도 수능의 경우, 오픈AI가 지난해 선보인 추론 모델인 ‘o1-프리뷰’가 97점을 받으며 처음으로 수능 국어 1등급을 받았다. 다만 이제는 AI가 변호사 시험을 통과하고, 수학 올림피아드에서 수상할 수 있는 수준 이상으로 성능이 올라오면서 기존의 벤치마크로는 AI 모델을 변별력 있게 평가하기가 어렵다는 목소리도 나오면서 더 어려운 벤치마크를 만들려는 노력도 이어지고 있다. 마치 수능이 너무 쉬워 ‘물수능’으로 불리면서 학생의 수준 차이를 보기 어려워지면, 수능 문항 난도를 올리는 것처럼 말이다.

    사진설명

    “기존 벤치마크는 이제 너무 쉽다”

    미국의 스타트업 스케일AI는 이름부터 ‘인류의 마지막 시험(Human’s Last Exam)’인 벤치마크를 AI안전센터와 공동으로 개발했다.

    철학을 비롯해 수학, 과학, 컴퓨터공학, 로켓공학 등 100개 이상의 이종 영역에서 난제를 엄선한 것이 특징이다. 구글의 제미나이 2.5 프로, 오픈AI의 o3 미니도 정답률이 20%에 못 미칠 정도로 문제가 까다로운 것으로 알려졌다. 구글 연구팀은 4월 과학 분야에 대한 AI 모델의 문제 해결 능력을 평가하기 위한 벤치마크 ‘큐리(CURIE)’를 개발했다.

    ‘큐리’는 재료과학, 응집물질물리학, 양자컴퓨팅, 지리공간, 생물다양성, 단백질 시퀀싱 등 6개의 과학 분야에서 580개의 문제로 구성된 테스트다.

    큐리의 경우 AI 모델이 일반적인 과학 논문 수준의 분량의 글을 읽고 수행하는 추론, 멀티모달 이해, 분야별 전문 지식 능력 등을 복합적으로 분석한다. 8개의 주요 모델에 대해 측정한 결과, 가장 높은 점수를 보인 모델인 ‘제미나이 2.0 플래시’가 정답률 32%에 머물 정도로 매우 까다롭게 구성됐다. 기존에도 물론 STEM 벤치마크처럼 과학이나 수학, 공학 등 전문 분야의 지식을 평가하는 벤치마크가 존재했다. 다만 구글은 “기존 벤치마크가 단답형 질문과 객관식 응답에 집중돼 있다”라며 “AI 모델이 긴 분량의 정보를 이해하고 추론할 수 있는지를 측정하는 것이 필요했다”고 큐리를 개발한 이유를 설명했다.

    이러한 벤치마크가 탄생하는 것은 LLM이 이제는 복잡한 추론을 요구하는 문제 해결에도 능숙한 추론 특화 모델로 진화하고 있기 때문이다. 구글 연구진은 “LLM은 단순히 지식만을 긁어오는 단계에서 추론하며 문제를 적극 해결하는 단계로 전환되고 있다”라고 설명했다.

    오픈AI도 지난 2일 AI 에이전트의 연구 능력을 측정하는 새로운 벤치마크인 ‘페이퍼벤치’를 공개했다. 페이퍼벤치는 AI가 논문 주요 내용을 요약하는 것을 넘어, 스스로 코드를 작성해 논문에 등장하는 실험을 복제해 수행할 수 있는지를 중점적으로 평가한다.

    오픈AI는 “머신러닝 연구의 복잡성을 고려하면, 한번의 실험을 복제해 평가하는 데도 인간에게는 수십시간이 소요될 수 있다”라며 AI 에이전트가 계속 발전될 경우 이처럼 인간 대신 AI가 연구 보조 역할을 수행할 수 있음을 시사했다.

    사진설명

    ‘벤치마크 믿기 어렵다’ 실효성 논란도

    그렇다고 벤치마크가 AI 모델의 성능을 그대로 보여주는 절대적인 기준점은 아니다. 기업들이 다양한 벤치마크를 활용해 자사 모델 성능 홍보에 나서면서, 벤치마크 점수를 높이기 위해 성능을 조작하거나 부풀리는 사례가 빈번하게 나타나고 있기 때문이다.

    지난해 12월, 오픈AI는 새로운 추론 모델인 ‘o3’를 발표하면서 수학 특화 벤치마크인 ‘프론티어매스(FrontierMath)’에서 25% 이상의 정확도를 보였다고 설명했다. 다만 이후 연구 기관인 에포크AI가 공개한 같은 벤치마크 지표에서는 10%내외의 정확도로 현저한 차이를 보였다. 올해 최신 AI 모델 ‘라마4’를 공개한 메타는 해당 모델이 벤치마크 테스트 플랫폼에서 2위에 오르며 우수한 성능을 입증했다 주장했지만, 벤치마크에 특화된 맞춤형 버전으로 테스트한 뒤 실제 사용자에게는 일반 버전을 배포했다는 조작 논란이 일기도했다.

    일론 머스크의 AI 기업 ‘xAI’도 자사 AI 모델 ‘그록 3’가 수학 경시대회 문제를 기반으로 한 벤치마크인 ‘AIME 2025’에서 최고 성능을 기록했다고 주장했지만, 일부 지표를 누락한 채 공개했다는 논란에 휩싸였다.

    메타와 같은 사례가 아니더라도, 이제는 기업들이 모델을 출시할 때 벤치마크에서 고득점을 기록하기 위해 해당 벤치마크 조건에 맞춰 반복 훈련함으로써 점수를 높이는 경우가 빈번하다.

    특정 벤치마크가 출제하는 문제은행만 달달 외우는 식이다. 일각에서 “AI 성능을 평가하는 벤치마크가 마케팅 도구”라는 비판이 나오는 이유다.

    또한 벤치마크 수가 워낙 많은 만큼, 측정 신뢰도가 뛰어난 벤치마크도 있지만 문제 설계 등에 있어 미흡한 벤치마크들도 있다. 스탠퍼드대 인간중심AI연구소는 지난해 AI 벤치마크를 평가하는 논문에서 “46개의 기준을 바탕으로 24개의 AI 벤치마크를 평가한 결과, 벤치마크 간 현저한 품질 차이가 있었다”라며 “정책 입안자들은 개발자, 기업, 시민 단체, 정부 기관이 AI 모델 평가를 수행하거나 의존할 때 벤치마크 품질을 명시하고 최소한의 품질보증을 위해 모범 사례를 참조하도록 권장해야 한다”라고 밝히기도 했다. 전문가들은 그럼에도 벤치마크는 AI 모델을 비교하기 위한 효과적인 도구이며 적절히 활용하는 것은 필요하다고 말했다.

    벤치마크 개발에 참여하고 있는 한 AI 연구원은 “기업들이 모델을 공개하기에 앞서서 벤치마크에 어느 정도 최적화를 하는 것은 사실이지만, 보조 지표로서는 여전히 중요한 가치를 가진다”라고 설명했다. 챗GPT나 구글 제미나이 등 일상 속에서 AI를 사용하는 일반 이용자들에게는 벤치마크보다는 사용성이 중요하다. 시험을 잘 푸는 것보다 실제 사용 환경에서 잘 작동하는 것이 우선이기 때문이다.

    한 개발자는 “일반 이용자의 경우 벤치마크 점수를 보며 모델을 정할 필요는 없다. 다양한 서비스를 직접 활용해보고 가장 적합한 모델을 사용하면 좋을 것”이라고 조언했다.

    [정호준 기자]

매일경제
맨위로