-
인공지능 시대 떠오르는 새 직업들… 자투리 시간 활용 ‘크라우드 워커’ 나도 데이터 라벨러 되어볼까
입력 : 2020.07.30 17:18:08
-
“그냥 ‘인형 눈알 붙이기’ 같은 단순알바 아닌가요?” “어떤 데이터를 가공하느냐에 따라 보수도 수준도 많이 다릅니다.”
최근 2~3년 새 한국에 상륙한 새로운 직업이 있다. 일반 사진이나 동영상 데이터를 인공지능(AI)이 학습할 수 있도록 ‘가공’해주는 업무인데, 예를 들면 사진에서 사람, 자동차, 건물, 표지판 등을 따로 구분해 ‘라벨’을 달아 구분해주는 일이다. 이 작업을 데이터 라벨링, 이런 일을 하는 사람을 ‘데이터 라벨러’라고 한다. 아기가 처음 말을 배울 때 한 단어를 반복해서 말해주는 것처럼, AI에게 이게 무엇인지 반복해 가르쳐주는 작업이라고 생각하면 쉽다.
보통 기업들이 요청할 때마다 단기에 데이터를 모으는 프로젝트가 많다보니, 그때그때 대중에 공개하고 작업자를 모집하는 ‘크라우드 소싱’ 방식을 선호한다. 그래서 이런 직업군을 ‘크라우드 워커’로 통칭하기도 한다. 단순 업무가 많아 남녀노소 누구나 할 수 있고, 출퇴근을 하지 않고 짬짬이 자투리 시간을 활용할 수 있는 것이 장점이다.
보수는 건당 5원에서 1만~2만원까지 작업 난이도에 따라 천차만별이다. 크라우드 소싱 특성상 일감이 뜨면 바로 일할 사람들이 몰려들기 때문에 작업을 따내기도 쉽지는 않다. 데이터 라벨러로 활동하는 이들을 인터뷰한 결과 많이 벌 때는 하루에 10만원도 벌지만, 일이 없거나 단순업무일 때에는 최저시급조차 안 되는 날도 많다고 한다. 일각에서 데이터 라벨러를 두고 ‘인형 눈알 붙이기’ 같은 저소득 반복알바 아니냐고 폄하하는 이유다.
3315억원 투입… 작업물 쏟아진다
그러나 올 하반기부터는 양상이 사뭇 달라질 전망이다. 정부가 올해에만 3315억원의 예산을 AI 학습용 데이터 가공에 쏟아 부을 예정이기 때문이다. 당장 8월부터 일거리가 쏟아질 것으로 업계는 보고 있다. AI 학습용 데이터 가공은 지난달 14일 문재인 대통령이 직접 발표한 한국형 뉴딜, 그 중에서도 ‘디지털 뉴딜’의 꽃이라고 할 수 있다. 디지털 뉴딜에는 올해 추경부터 2022년까지 총 23조4000억원(국비 18조6000억원), 2025년까지 58조2000억원(국비 44조8000억원)을 투자해 디지털 대전환을 이끈다는 계획이 담겼다. 이를 통해 2022년까지 39만 개, 2025년까지 90만3000개의 일자리를 창출하겠다고 정부는 밝혔다.
데이터 라벨러 육성도 이 일자리 창출 계획의 메인 테마 중 하나다. 과거 1930년대 미국이 ‘후버댐’ 건설로 대공황을 극복했던 것처럼, 2020년 대한민국은 ‘데이터 댐’을 건설해 국가 디지털 대전환을 이끌고 일자리를 창출하겠다는 것이 정부 복안이다. 데이터 라벨러는 엄청난 양의 데이터를 가공해 데이터 댐에 공급하는 역할을 하게 된다.
이를 위해 정부는 공공데이터 14만2000개를 내년까지 모두 개방하고, 올해 96개가 개방된 국가중점데이터도 2022년 142개까지 개방한다. 특히 AI 학습용 데이터는 2025년까지 1300종을 추가로 구축하고, 중소기업이나 스타트업에 AI 학습용 데이터 가공 바우처를 제공해 일자리 창출과 인공지능 고도화를 돕기로 했다. 과학기술정보통신부는 이 같은 정책을 통해 2019년 기준 16조8000억원 규모의 데이터 시장을 2022년 30조원, 2025년 43조원으로 키우고, 기존에 56개로 집계되는 AI 전문기업 수도 2022년 100개, 2025년 150개까지 늘어날 것으로 기대하고 있다.
연평균 2000만원 수입도
대표적인 데이터 라벨러 소싱 기업은 2017년 창업한 크라우드웍스다. 지금까지 데이터 라벨링 업무를 하기 위해 이 회사에 회원으로 가입한 사람만 16만 명이 넘는다. 다른 업체 회원들까지 포함하면 한국에서만 약 20만 명이 데이터 라벨러로 활동하겠다고 등록한 것으로 추정된다.
물론 누구나 회원으로 가입할 수 있기 때문에 이들이 모두 작업에 참여하는 것은 아니다. 크라우드웍스에 따르면 실제로 활동하는 월간활성화이용자(MAU)는 약 5만여 명이다. 이 회사는 홈페이지에 데이터 라벨러 회원의 수입랭킹을 공개하고 있는데, 2017년 11월부터 현재까지 누적수입이 가장 많은 회원은 이 회사에서만 약 6000만원을 벌었다. 3년 치 수입으로 적다고 생각할 수도 있지만, 일이 매일 있는 것이 아닌 데다 출퇴근 없이 작업한 점을 감안하면 쏠쏠한 편이다. 아직 초기단계지만 크라우드 소싱 업계의 일자리 창출과 창업 효과도 기대된다. 크라우드 웍스 직원은 작년 초만 해도 20여 명에 불과했지만, 1년 반 새 80명으로 늘었다.
2017년 첫 해 8000만원 수준이었던 매출은 이듬해 8억원으로 10배 뛰었고, 2019년 29억원, 올해는 100억원을 넘을 것으로 회사 측은 보고 있다. 현재 크라우드웍스 외에도 테스트웍스, 에이모, 셀렉트스타 등 약 80개사가 크라우드 소싱 방식으로 데이터 라벨링 사업을 하고 있다. AI 학습용 데이터를 공개함으로써 데이터 크라우드 소싱기업이라는 새로운 비즈니스 기회가 열렸고, 창업은 물론 다양한 일자리 창출 효과가 나타난 것이다.
능력 인정받아 정규직 채용도
데이터 라벨러들의 만족도는 높은 편이다. 실제로 인터뷰해본 데이터 라벨러들은 50대 경단녀 주부부터 성수기와 비수기 수입 차이가 큰 자영업자, 이직을 준비하는 취업준비생 등 다양했다. 데이터 라벨러로 일한 지 불과 한 달 만에 입사 제의를 받아 바로 기간제 계약직으로 입사한 경우도 있었고, 청각장애와 발달장애를 극복하고 관련기업에 정규직으로 취업한 사례도 있었다. 단순알바라고 폄하하기 어려운 이유다. AI 학습용 데이터 가공 플랫폼 개발과 크라우드 소싱 업무를 함께하는 에이모 관계자는 “데이터 라벨링이 단순 반복업무라고 생각하지만, 작업 결과물을 보면 ‘우수 인재’들을 바로 알 수 있다. 우수 인재들은 계약직으로 채용하고 정규직 후보군으로 올려놓는다”며 “이 분야가 빠르게 발전하고 있어 앞으로도 이런 사례가 늘어날 것으로 보고 있다”고 말했다.
업무는 기업 요청에 따라 다양한 방식으로 이뤄졌다. 국내 업무는 가공뿐 아니라 수집도 함께 이루어지고 있었다. 단순히 사진에서 특정 사물을 찾아 표시해주는 작업도 있었지만, 거리 간판이나 아파트 사진을 찍어서 올리는 작업도 있었고 본인의 흉부 CT 사진을 제공하면 몇 만원을 받을 수 있는 프로젝트도 있었다. 한국어와 영어 번역을 비교하면서 번역엔진을 고도화하는 작업물도 있었다. 당연히 숙련된 데이터 라벨러에게 업무가 몰리고, 페이가 비싼 업무일수록 구하기 어렵고 빨리 ‘마감’된다. 회원 가입하면서 어학능력 등 본인의 특기를 어필하면 다양한 업무를 받는 데 도움이 된다. ‘대충 그림을 맞춰주면 되겠지’라고 쉽게 생각하고 도전하면 작업이 쉽지 않을 수 있다. 업체에서 사전 교육과 검수를 철저히 하기 때문이다.
올해 데이터 가공작업 쏟아진다
데이터 라벨러로 일하려면 어떻게 해야 할까. 처음 회원가입을 하면 ‘작업자 양성 프로젝트’라는 일종의 교육과정을 거쳐야 한다. 크라우드웍스 홈페이지에 가입하면 ‘텍스트 태깅’과 ‘바운딩’ 등 2가지 교육과정(튜토리얼)을 해볼 수 있는데, 텍스트 태깅은 검색엔진을 똑똑하게 만들기 위해 법령 등에서 질문에 맞는 정답을 마우스로 선택(드래그 앤 드롭)하는 작업이다.
올해는 예년에 비해 난이도가 높은 데이터 가공작업도 많아질 것으로 전망된다. 과기정통부는 최근 AI 개발에 필수적인 양질의 데이터를 대규모로 구축 개방하는 내용의 ‘AI 학습용 데이터 구축 사업’ 20개 과제를 발표했다. 10개 지정과제로는 대용량 동영상 콘텐츠를 비롯해 자율주행드론 비행 영상, 시각정보 기반 질의응답, 수어 영상, 딥페이크 방지영상, 사람 인체자세 3D, 전문분야 한영 말뭉치 등이 포함됐다. 과제별로 다양한 일거리가 나오고 보수도 기존 단순작업에 비해 올라갈 것으로 업계는 보고 있다.
이는 세계적 추세이기도 하다. 미국과 중국 등에서는 이미 한발 먼저 데이터 라벨러를 활용해 데이터 산업의 씨앗을 촘촘하게 뿌렸다. 미국 아마존웹서비스가 자사 고객들의 데이터 처리를 위해 만든 아마존 메커니컬 터크(Amazon Mechanical Turk)와 중국에서 가장 큰 데이터 가공공장으로 알려진 MBH가 대표적이다.
아마존 메커니컬 터크는 190개국에 50만 명의 크라우드 소싱 인력을 보유하고 있으며, 중국의 저렴한 노동력을 앞세운 MBH도 약 30만 명의 데이터 라벨러를 고용하고 있다. MBH 평균 임금은 약 3000위안, 425달러 수준인데 중국 극빈지역의 평균임금보다 세 배나 많아 일하려는 사람들이 줄을 선다. 중국이 세계적인 안면인식 기술을 확보할 수 있었던 것은 MBH 같은 데이터 가공공장과 이곳에서 일하는 근로자들이 있었기 때문이다. 중국의 AI 데이터 서비스 시장 규모는 2018년에 약 4400억원에서 2025년에는 2조원으로 급성장할 것으로 전망된다.
중국 최대 전자상거래 업체 알리바바에서는 약 20만 명의 AI 데이터 전문가들이 라벨링 작업을 담당하고 있으며, 2022년까지 관련 직원이 약 500만 명으로 급증할 것으로 추산된다. 번역 작업에 특화된 미국 라이언브리지 AI(Lionbridge AI)는 100만 명의 준전문가를 고용했다. 이 회사는 한국에서도 음성, 손글씨, 얼굴 샘플 데이터를 크라우드 소싱으로 수집하고 있는 것으로 알려졌다. 자율주행차량 운행 데이터를 전문으로 수집에서 마이티 AI(Mighty AI)는 차량센서 데이터 라벨링을 전문적으로 하는 작업인력 40만 명 이상의 풀을 구축했고, 2019년 우버에 전격 인수되기도 했다. 우리 정부는 올해는 물론 내년에도 2925억원, 2022년 7800억원을 AI 학습 데이터 가공에 투자하겠다는 목표를 세웠다. AI 시대를 대비하기 위해서 그만큼 많은 데이터가 필요하다는 뜻이자, 한국에서도 향후 2~3년간 데이터 라벨러의 일감이 급증할 것이라는 의미다.
데이터 산업은 다양한 직군의 일자리를 창출한다. 미래 유망직업 1위로 꼽히는 데이터 사이언티스트는 물론 데이터 아키텍트, 데이터 개발자, 데이터 엔지니어, 데이터 분석가, 데이터베이스 관리자, 데이터 컨설턴트, 데이터기획자, 데이터 라벨러 등 많은 사람들이 데이터 산업에 종사하고 있다.
일자리위원회에 따르면 페이스북 등 대규모 글로벌 데이터 기업들을 보유한 미국은 총 고용 대비 데이터 전문 인력(Data Professionals) 고용 비중이 9.3%에 달한다. 전문가들은 인공지능(AI) 시대가 가속화될수록 이 같은 데이터 관련 직종도 빠르게 늘어날 것으로 보고 있다.
정부가 발간하는 2019 데이터 백서에 따르면 2018년 기준 대한민국 데이터 산업의 데이터직무 인력은 총 11만7727명이다. 직무별로 보면 데이터 개발자가 4만2327명으로 가장 큰 비중을 차지했고, 데이터베이스 관리자가 1만8882명, 데이터 엔지니어 1만7529명 순이었다. 2023년까지 향후 5년 내에 일반산업을 포함한 전 산업에서 필요로 하는 데이터직무 인력은 총 2만2607명이며, 특히 데이터 개발자와 데이터 분석가가 많이 필요한 것으로 나타났다.
이 중 데이터 라벨러는 AI가 학습할 데이터를 1차 가공하는 직업이다. 데이터 라벨링은 단순작업처럼 보이지만 인공지능 학습시간의 80~90%를 차지하는 중요한 업무다. 사람이 데이터를 가공하는 시장이 82%를 차지하며, 나머지는 반자동(사람+컴퓨터)과 AI 기반 자동가공이다. 아직까지는 사람 손이 많이 갈 수밖에 없다는 뜻이다. 글로벌 데이터 가공기업들은 비용절감과 사회공헌 차원에서 저소득·저개발 국가의 인력을 크라우드 방식으로 활용하기도 한다.
특히 데이터 라벨링 작업이 노동집약에서 기술집약으로 진화하고 있어 데이터 라벨러들이 다양한 산업에 종사할 수 있는 분야별 전문 ‘지식 엔지니어(Knowledge Engineer)’로 거듭나고 있다고 일자리위원회는 진단했다. 이번 디지털 뉴딜에서처럼 단기형 일자리에 그치지 않고, 급팽창하는 데이터 산업 생태계에서 지속 가능한 일자리로 고도화할 기회가 열려 있다는 뜻이다.
[신찬옥 매일경제 모바일부 기자]
[본 기사는 매경LUXMEN 제119호 (2020년 8월) 기사입니다]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]