지난 2023년 3월 21에 열린 엔비디아 ‘GTC(GPU Technology Conference)’ 행사에서 젠슨 황 CEO는 “범용 CPU를 통한 무어의 법칙은 끝났다”라는 일성을 내놓았다. 그는 엔비디아가 설계한 GPU가 생성형 인공지능(AI)과 클라우드 시대의 미래를 책임질 것이라고 자신했다. 엔비디아의 칩을 사용한 챗GPT가 AI 혁명을 쏘아 올렸듯이 향후 반도체 발전도 자신들이 주도할 것이라는 자신감이다. 젠슨 황은 이미 몇 년 전 무어의 법칙 대신 황의 법칙을 선언했다. AI를 작동시키는 실리콘 칩의 성능이 2년마다 2배 이상 향상한다는 법칙이다. 엔비디아의 황의 법칙은 지금 현실로 증명됐다.
AI 기술이 놀라운 속도로 발전하고, 관련 시장이 기하급수적으로 커지는 가운데 데이터센터 수요가 팽창하고 있다. AI 특화 데이터센터의 핵심은 비메모리 반도체 GPU(그래픽처리장치)다.
1993년 등장한 엔비디아는 컴퓨터 게임 등에 쓰이는 복잡한 3차원 이미지를 구현하기 위한 GPU로 틈새시장을 노렸다. 엔비디아의 GPU는 복잡한 3차원 이미지를 자연스레 구현해 내고자 엄청나게 많은 고속 병렬 계산을 해내야 했는데, 대용량 정보처리 기술의 장점으로 생성형 AI 반도체 시대의 주인공이 됐다.
GPU에 고대역폭메모리(HBM)를 조립해 만든 AI가속기, CPU와 낸드 등을 조립하면 AI컴퓨터가 된다. 통상적으로 AI 데이터센터는 이러한 AI 컴퓨터를 모은 곳이다.
약 1만개의 GPU가 탑재된 데이터센터는 ‘AI 슈퍼 클러스터’로 불린다. 즉 AI 학습과 고객에 대한 서비스(추론)가 이뤄지는 장소가 바로 데이터센터인 셈이다.
AI 데이터센터는 단순히 데이터를 저장하기 위한 곳만을 의미하는 것이 아니라 대규모언어모델을 학습시키는 전진 기지 역할을 한다.
이 시장에서 GPU 원조 격인 엔비디아는 독주를 이어가고 있다. 현재 AI 개발사 입장에서 가장 큰 문제는 GPU 확보다. 약 4만달러(약 5400만원)대 GPU인 엔비디아 H100은 주문부터 도착까지 50주 이상이 걸리기도 한다. 대규모언어모델(LLM)을 개발하는 기업들이 AI를 업데이트하고 싶어도 현실적인 어려움을 겪고 있는 이유다.
GPU 안에도 단기 기억 장치(캐시 메모리)는 있다. 그러나 AI 학습을 위한 매개변수(파라미터)를 모두 담기에는 턱없이 부족하다. 이에 ‘해결사’ 역할로 가까운 거리에 고대역폭메모리라 불리는 HBM(High Bandwidth Memory)이 함께 설치된다. HBM은 D램(정보를 쓰고 지울 수 있는 전자기기용 메모리 반도체) 여러 개를 수직으로 연결해 한 번에 대량의 데이터를 처리하는 초고성능·초고용량 메모리다. 이런 패키징 기술이 더해지며 엔비디아 GPU는 빅테크들의 AI 개발에 필수품이 됐다. 현존 최고 사양을 자랑하는 엔비디아의 고성능 AI 칩 ‘H100’과 ‘H200’ 등은 최근 AI 반도체 시장을 선도한다.
그런데 엔비디아의 경쟁력은 이뿐만이 아니다. 엔비디아 경쟁력의 비밀은 바로 소프트웨어 ‘쿠다(CUDA·Compute Unified Device Architecture)’에 있다. 2006년 당시 엔비디아는 게임용 GPU의 고속 병렬 계산이 게임뿐 아니라 다양한 분야에도 쓰일 수 있을 것이라 자각하고 쿠다라는 소프트웨어를 내놨다고 한다. 쿠다는 쉽게 말하자면 ‘번역가’다. 인간이 AI 알고리즘을 새로 개발하려면 이를 코딩해야 한다. 알고리즘은 파이선(Python) 같은 코딩 언어로 표현되는데, 이 언어들은 인간 언어와 유사하다. 하지만 GPU 같은 반도체는 ‘1’과 ‘0’으로 이뤄진 2진수 언어인 ‘기계어’만 이해한다. 쿠다는 이렇게 인간 수준의 언어를 기계어로 자동 번역하는 기능을 한다. 더구나 쿠다는 초거대 생성형 AI 학습에 필요한 행렬 계산을 위한 최적의 스케줄과 역할 분담이란 ‘비서’ 역할도 해준다. 이에 AI 개발자들은 편리하고 신뢰성 있는 쿠다를 쓰는 게 이미 습관화됐다. AI 개발은 시간과의 싸움이라 개발자들은 개발 중 사소한 위험도 감수하려 하지 않는다. 따라서 엔비디아 GPU를 쓰려는 이유는 바로 쿠다에 있다는 평이 나온다. 쿠다가 곧 엔비디아의 핵심 경쟁력인 셈이다.
전 세계적으로 엔비디아 독점을 막기 위한 움직임도 활발하게 이뤄지고 있다. 지난 4월 인텔은 AI 모델 훈련 시간을 크게 단축한 AI 가속기 ‘가우디3(Gaudi3)’를 전격 공개했다. 가우디3는 엔비디아의 대표 GPU인 H100 대비 훈련 속도가 2배 빠르다는 것이 회사 측 설명이다. 인텔은 라마2 모델만을 상대로 한 테스트에서는 H100보다 추론 처리량이 50%, 추론 시 전력 효율이 40% 더 우수했다고 주장한다.
MS 역시 자체 AI칩 가속기와 중앙처리장치(GPU)를 개발했다. 김동훈 NHN클라우드 대표는 “엔비디아 기반 서비스가 가장 활성화돼 있지만, 앞으로는 멀티 GPU로 갈 것이라고 보고 있다”면서 “다만 신규 제품이 나온다고 해도 기업들이 알고리즘을 최적화하고 서비스하는 데까지 시간이 좀 필요하다”고 내다봤다.
애플 역시 내부적으로 ‘ACDC(Apple Chip for DataCenter)’라는 코드명으로 서버용 AI 반도체 개발에 나섰다. 애플의 서버용 반도체는 엔비디아가 우위를 점하고 있는 AI 학습용이 아닌, 서비스를 제공하는 ‘추론용 반도체’에 집중하고 있는 것으로 알려졌다.
특히 애플이 자사 제품에서 AI가 작동될 때 사용하는 데이터센터에 자신들이 설계한 AI 반도체 설치를 강제할 가능성이 높다는 분석도 나온다. 애플이 데이터센터용 AI 반도체 자체 개발에 나서면서 AI 가속기 경쟁은 더욱 가열될 전망이다. 실제로 애플, 마이크로소프트(MS), 엔비디아, 구글을 비롯한 ‘매그니피센트7’ 모두 AI 반도체 시장에 뛰어든 상황이다.
MS, 구글, 아마존 같은 기업은 자체적으로 AI를 학습시키기 위한 목적과 함께 AI를 사용하는 고객에게 클라우드 서비스를 제공하기 위한 목적이 크다. 반면 엔비디아, 인텔, AMD 같은 전통 반도체 기업들은 데이터센터에 판매하기 위한 목적으로 AI 반도체를 만들고 있다.
앞서 지난 6월 손정의 회장은 일본 도쿄에서 열린 소프트뱅크 연례 주주 총회에서 “인간 지능의 1만 배에 달하는 초인공지능(ASI)을 10년 뒤에 실현할 것이며, 지금까지의 사업은 전부 준비운동”이라고 말한 바 있다. 소프트뱅크는 지난 2016년 영국 반도체 지적재산권(IP) 기업 암(ARM)도 인수했는데, 손 회장은 ARM에 대해 “AI 시대를 열어갈 소프트뱅크의 핵심 자산”이라고 강조했다. 그래프코어·ARM이 낼 시너지도 주목되지만, 기술 업계에서는 ARM이 GPU·NPU 같은 AI 가속기용 IP를 제공하지는 않는다는 점에서 미지수라고 본다.
거물들의 AI 반도체 프로젝트가 메모리 시장에 미칠 영향도 주목된다. 오픈AI의 샘 올트먼은 지난 1월 방한해 삼성전자·SK하이닉스 경영진을 만났고, 지난달 미국에서 최태원 SK 회장을 다시 만났다. AI 반도체에 사용되는 고대역폭메모리(HBM)는 SK하이닉스·삼성전자·마이크론이 생산하는데, 오픈AI 등의 자체 AI 반도체 개발이 실현될 경우 HBM 수요도 늘어날 전망이다.
그러나 이들의 AI 칩 독립에는 수년이 걸릴 수 있고, 엔비디아 GPU의 지배는 당분간 계속될 것이라는 게 외신들의 공통적인 분석이다. 테크인사이트에 따르면 엔비디아의 지난해 데이터센터용 AI 가속기 점유율은 98%에 달한다.
[김병수 기자 · 황순민 기자]
[본 기사는 매경LUXMEN 제167호 (2024년 8월) 기사입니다]