LLM 숙원 과제인 보안 및 제어 문제 해결해 차별성 확보
50여개 기관 600여개 데이터 정제 및 가공 프로젝트 수행
공공기관 민원 업무 처리 도우미 도메인 특화 경량 LLM 개발
K문화 열풍 속 한국적인 멀티모달 AI 개발로 글로벌 시장 개척 가속

[K글로벌타임스] 인공지능(AI) 시대를 맞아 대세로 떠오른 '생성형 AI', 척척 막힘없이 대답을 내놓긴 한데 우리나라 실정과 거리가 먼 결과물로 사용자들의 실망스런 반응이 크다. 보안 분야에서 기술적으로 넘어야 할 장벽에다, 그럴싸하게 거짓말하는 특성 때문이다. 토종 생성형 AI 솔루션 기업 '나라지식정보'의 존재감이 부각되는 배경이다. 

나라지식정보는 한국 역사, 문화, 언어 자료를 데이터로 정제 가공하는 사업에 주력해 왔다. 현재는 최근 3년 간의 자연어 학습데이터 구축 사업을 바탕으로 AI 사업에 뛰어 들었다. 특히, LLM(대형언어모델)  분야으로는 보안과 제어 문제를 해결, 멀티모달 쪽으로는 가장 한국적인 결과물을 내놓을 수 있는 생성 AI를 개발하는 데 방점을 찍고 있다. K콘텐츠가 전세계 열풍을 타고 있는 가운데, 나라지식정보는 강력한 인공지능을 무기로 우리나라 찬란한 문화를 유감없이 세계에 펼쳐보이겠다는 방침이다. 

손영호 나라지식정보 대표 [사진=나라지식정보]
손영호 나라지식정보 대표 [사진=나라지식정보]

 

LLM 숙원, 보안 및 제어 문제 해결

생성형 AI가 큰 변화와 혁신을 가져다 줄 것으로 기대감이 무성하다. 하지만 가시적인 성과는 보이지 않는다. 보안과 제어 문제가 발목을 잡고 있어서이다. 

오픈 AI 챗GPT, 빙, 구글 등의 폐쇄형 LLM의 경우 모든 것에 답을 줄 수 있는 솔루션으로 각광받고 있다. 하지만 아무리 암호화한 데이터로 송수신한다 해도 또는 학습용 데이터로 사용하지 않는다 하더라도, 해당 기업의 외부 서버로 데이터를 보냈다가 답을 얻어야 하는 방식을 취하다보니 보안문제가 늘상 자리하고 있다. 

또한 할루시네이션(환상) 즉  '거짓말 답변'이 광범위하게 혹은 교묘하게 섞여 답변한다는 맹점을 안고 있다. 이 때문에 사용자도 생성형 AI 답변이 마뜩지 않고 그저 장광설로 치부하기 일쑤이다. 문제는 폐쇄형인 까닭에 제어하기가 상당히 어렵다는 것이 전문가들의 전언이다.

이런 상황에서 나라지식정보가 독자적인 기술을 통해 산적한 과제를 풀 수 있는 솔루션을 제시해 관심을 집중시키고 있다. 나라지식정보는 도메인 특화 한국어 기반 생성형 AI인 나름(NA-LLM)을 오픈 소스로 개발해 공급하고 있다. 보안과 제어 문제를 해결 가능하게끔 시스템이 구성됐다. 즉, 공공기관과 중소기업에서 저비용으로 구축해 운용할 수 있는 자체 sLLM을 각 기관이나 기업들의 데이터만으로 학습시켜 해당 기관에 적합한 LLM을 공급할 수 있다. 조직 인트라넷에서 충분히 LLM이 돌아갈 수 있도록 구현한다는 것이다. 나름은 인트라넷 자체에서 답변이 생성되므로 제어가 용이하며, 보다 정확한 답변을 결과물로 내놓을 수 있다는 이점이 있다.

비용과 GPU 측면에서 본다면, 통상 파라미터가 1,750억(챗GPT, 빙), 5,400억(구글)개인 까닭에 파라미터 수가 클수록 수반되는 GPU도 상당하다. 엔비디아 'A100' 1대로는 해결될 리 만무하다. 최근 화두로 떠오른 '코난 LLM'도 'H100'을 사용해 4,000자 생성에 7초가 걸린다는 것으로 알려졌다. 

나름은 GPU도 기관의 상황에 따라 최소 'VRAM 24G' 이상이면 답변 생성의 속도 차이는 있을지언정 충분히 결과물을 사용할 수 있는 LLM 공급이 가능하다. 즉, 즉답을 원하는지, 시간을 두고 답변 생성을 해도 되는지 등 기관의 사정과 상황에 따라 충분히 하드웨어를 유연하게 적용할 수 있는 것이다.

끝으로 학습 시간에 대해서도 아주 짧은 기간 동안에 정제를 거쳐 학습 결과물을 낼 수 있는 시스템을 갖추고 있다. 물론 데이터의 양과 질에 따라 다르지만, 나라지식정보는 그동안의 데이터 정제 노하우를 바탕으로 그 어떤 경쟁사보다 양질의 데이터로 단 기간에 정제를 할 수 있는 기술을 보유하고 있다.

손영호 나라지식정보 대표는 "공공기업과 중소기업이 최소한의 하드웨어를 통한 적은 비용과 시간으로도 얼마든지 자체적으로 운용할 수 있는 '나름'대로의 개별 LLM을 보유할 수 있도록 기여할 것"이라고 밝혔다.

나라지식정보는 이러한 독보적인 기술력을 필두로 성장가도를 달리고 있다. 2008년 1월 회사 설립 이래 한국학중앙연구원, 한국국학진흥원, 한국고전번역원 등 50여 개 기관의 600여개 데이터 정제 및 가공 프로젝트를 수행한 경험과 노하우를 바탕으로 2019년부터 AI학습용 데이터 구축 사업을 본격화 했다. 2020년부터 2022년 3년간 한국지능정보사회진흥원(NIA)과 국립국어원에서 자연어 및 음성 분야 30여 개의 AI학습용 데이터 구축 사업을 수행했다. 

또한 2021년부터 메타버스 분야에 진입하기 시작했으며, 2022년 메타버스 접근성 보장 플랫폼 구축과 서원 메타버스를 위한 3D 콘텐츠 학습용 데이터 구축을 통해 본격화 했다. 

2023년에는 문화재청의 '서라벌 천년 시간여행' 프로젝트를 통해 안정적 사업 전개 기반을 마련하면서 지금까지 축적한 한국적인 세계관, 데이터 및 기술을 기반으로 생성형 AI 개발에 집중하기 시작했다. 

경북 인공지능 언어모델 GI-LLM 출범식 행사사진 [사진=나라지식정보]
경북 인공지능 언어모델 GI-LLM 출범식 행사사진 [사진=나라지식정보]

 

가장 한국적인 대답하는 AI 개발

나라지식정보는 한국적인 데이터로 가장 한국적인 결과물을 낼 수 있는 멀티모달 AI를 개발 중이다. 챗GPT든, 빙(DALL-E)이든, 미드저니든, SD(SDXL)이든 대부분 이미지생성 AI들이 한국적인 결과물을 내놓기 위해 프롬프트를 구성한다고 하나, 사용해본 사람들은 한국스럽다기 보다는 중국이나 일본, 동남아 스타일의 결과물을 마주하는 경우가 태반이다.

이 같은 할루시네이션을 없애고 한국적인 결과물을 내놓을 수 있는 생성 AI를 개발하는 것이 나라지식정보의 멀티모달 AI NARAVERSE의 목표이다. 현재 개발 진행 중인 동시에, 일부 만족할 만한 결과물을 도출하고 있다는 것이 나라지식정보의 설명이다. 

그 외에 나라지식정보는 자체 인문인공지능연구소에서 개발한 'Ancient Doc Cube'을 보유, 운용하고 있다. 고문헌 문자를 판독하고 인식하는 OCR 기반 특화 AI 기술인 한적자료 전문 어노테이션 툴 'Ancient Doc Cube'는 NIPA AI 바우처 공급기업 솔루션으로 NA-LLM 등록 이전에 이미 등록됐다. 지난 5월에는 ICDAR이 주관하는 파피로스 상의 그리스 문자 탐지 및 인식부문 경쟁에서 3위를 차지하는 쾌거를 이뤘다.

이 한문 인식 AI는 기존의 중국 위주, 그 외 일본 한자들을 기반으로 한 한자 인식 OCR 툴들 사이에서, 고문헌 인식에 있어서 뛰어난 한자 인식률을 자랑하고 있다.

문화재청의 '서라벌 천년 시간여행' 프로젝트 [사진=나라지식정보]<br>
문화재청의 '서라벌 천년 시간여행' 프로젝트 [사진=나라지식정보]

토종 생성형 AI로 K문화 전개 가속화

나라지식정보는 LLM도 한국어 기반으로 도메인 특화(특정 분야 전문 학습 LLM)에 차후 계속 모듈을 추가해 완성형, 조합형으로 나아간다는 계획이다. 세계 각국으로 확산되는 한글 교육 기관들 관련 언어 모델로는 나름 NA-LLM을, K-POP을 비롯 문화 예술 분야인 'K-CULTURE'를 위해서는 한국적 결과물을 내놓을 수 있는 멀티모달 AI를 관련지을 복안이다. 

나라지식정보의 뿌리는 공공사업이다. 공공기관의 사업을 수주해 수행하는 동시에 산출물을 올바르게 뽑아냄으로써 발주처를 만족시키고 그에 따라 타 기업이 따라 올 수 없는 비용과 효율과 결과물로 지속 계약을 이어가고 있다. 

올해 새로 시작한 AI전략사업 분야에서 나름(NA-LLM)으로 이미 공공기관과 계약을 맺는 등 첫걸음을 디딘 상태이다. 다른 기업들은 오픈 AI의 플러그인이나 API 등으로 기대어 사업 영역을 개척하던 쪽에서 이제야 자체 LLM과 파라미터를 줄이는 방향(메타의 LLAMA 공개 후) 쪽으로 눈을 돌렸다는 점에서 이미 경쟁력을 갖춘 것이다.

나라지식정보는 지난 3월 챗GPT가 오픈API를 공개하고 플러그인을 공개했을 때부터 사내 메타버스연구소를 출범, 그동안 쌓아왔던 노하우를 바탕으로 특화된 사업 방향을 정립했다. 그에 따른 LLM 모델을 6월 말~7월 초 개발해 사내 공개를 했다. 그 기술을 바탕으로 8월 초 계약을 체결해 현재 발주처 맞춤 LLM개발에 착수했다. 나름(NA-LLM)은 지속 고도화되고 있다. 개발만 한 것과 개발해서 적용을 하고 사업을 수행해서 결과물을 내놓고 피드백을 받고 업그레이드를 하는 것은 다르다. 

이와 관련해 손영호 대표는 "한 걸음 앞선 발걸음이 언제 따라 잡힐지, 저희 같은 중소기업으로서는 거대자본의 힘을 이길 수는 없으나, 그동안 나라지식정보로서 쌓아온 한국 언어, 문화, 역사 관련 업력의 노하우는 무시하지 못할 것"이라고 자신했다. 

이어서 그는 "자사는 거대 공룡의 발톱이 닿지 않는 구석구석과 세세한 부분을 신경씀으로써, 적은 비용과 시간으로도 효율적인 자체 LLM을 구성할 수 있도록 일조할 것"이라고 덧붙였다.

나라지식정보는 한국어 데이터 정제 분야 업계 최고의 위치를 확보하고 있다고 해도 과언이 아니다. 현재 의료 쪽으로도 데이터를 학습시킴으로써 LLM을 개발하고 있으며, 이슈가 되고 있는 교육 민원 쪽으로도 TTS-STT도 가능한 모델 적용을 타진하고 있다. 또 디지털플랫폼정부와 K-GPT에도 기여한다는 각오이다. 

[K글로벌타임스 최정훈 기자] [email protected]

관련기사

저작권자 © K글로벌타임스 무단전재 및 재배포 금지