원시 데이터의 정제 및 품질관리 프로세스. [사진=㈜에스에스엘]
원시 데이터의 정제 및 품질관리 프로세스. [사진=㈜에스에스엘]

[K글로벌타임스] ㈜에스에스엘(대표 박찬림)은 인공지능(AI), 빅데이터 구축의 기반이 되는 데이터에 대한 품질관리와 다양한 도메인에 대한 품질검증 서비스를 수행하고 있다. 헬스케어, 자율주행, 재난 안전 등 다양한 분야에 접목되고 있는 AI 서비스가 신뢰성 있게 제공되기 위해서는 데이터의 품질이 매우 중요한데, 이에 대한 철저한 검증과 품질 향상에 노력을 기울이고 있다.

자체적으로 개발한 ‘스마트에이큐(Smart-AQ)’는 원하는 기준에 따라 키밸류(Key-Value) 형식의 데이터를 선별하여 데이터베이스에 적재하고, 기준 미달의 데이터를 검출하는 등 데이터 품질을 관리하는 검증 도구이며, 다양한 레퍼런스를 보유하고 있다.

또한 챗GPT(ChatGPT) 등 LLM을 중심으로 하는 초거대 AI에 대한 관심도가 높아짐에 따라 원시 데이터, 즉 텍스트에 대한 데이터의 품질 중요성이 증가하고 있다. 이를 사전에 효율적이고 정확하게 정제할 수 있는 도구인 ‘스마트알티(Smart-RT)’를 올해 개발하여, 이와 관련된 국내외 특허 등록을 마쳤다.

다양한 해외사업들이 추진되고 있는 가운데, 에스에스엘은 ODA 사업을 중심으로 캄보디아와 우즈베키스탄 등 해외진출에 힘쓰고 있으며 관련 사업들을 기획 및 수행하고 있다.

 

AI 기반 언어 솔루션의 표준화 검증

㈜에스에스엘은 다양한 도메인에 자체적으로 개발한 AI 및 빅데이터 품질관리 툴킷을 적용한 다수의 레퍼런스를 확보하고 있다. 각각의 사업에서 쌓은 높은 신뢰성과 만족도는 정형데이터의 표준화와 품질관리를 넘어 AI에 활용되는 비전 및 자연어 데이터의 품질 신뢰성 강화에 필요한 역량을 입증하고 있다.

데이터 품질관리, 표준화 검증에 특화된 역량을 통해 다양한 레퍼런스를 보유하고 있으며, 공공 가이드라인과 표준화에 관한 특허와 논문 실적을 보유하고 있다.

특히 최근에는 자연어 데이터에 대한 신뢰성을 제고하기 위해 정제 품질을 강화할 수 있는 스마트알티 솔루션을 개발하여, 챗GPT와 같은 다양한 AI 기반 언어 솔루션이 제공하는 결과에 근본적인 신뢰성을 제공할 수 있는 기반을 마련하였다.

 

생성형 AI와 한국어 데이터 품질 관리의 필요성

챗GPT로부터 촉발된 생성형 AI에 대한 글로벌 관심은 국내에도 큰 영향을 미치며 한국어 고유의 인공지능 데이터 구축에 관련된 다양한 연구가 이루어지고 있다. 한국어의 유연한 문장 구조와 체계로 인해 데이터 구축에 있어 품질관리가 매우 중요한 요소로 부각하고 있으며, 특히 인공지능 활용의 기반이 되는 원시 데이터에 대한 철저한 정제를 통해 데이터의 순도성을 유지하는 것이 필수적이다.

그러나 이와 관련된 연구는 부족한 실정이다. 이에 한국어 데이터에 대한 품질(정제) 관리 프로세스가 필요하며, 국가 기준에 근거한 정제 기준과 결과 도출을 통해 향후 한국어 기반 생성형 AI 품질관리 모델 도출에 대한 기틀을 마련할 필요가 있다.

한국어 데이터는 특유의 유연한 문장 체계를 가지고 있어서 인공지능을 위한 원시 데이터를 정제 및 가공하는 데 전문가 수준의 지식이 필요하다. 원시 데이터의 정제는 단순히 개인정보 비식별화에 그치는 것이 아니라 형태 오류를 찾아내는 작업이 포함되어 있어 어렵다.

기존의 한국어 데이터 연구에서는 형태소 분석(Lexical Analyzer)을 통해 품질을 제고하고 있으나, 음절을 기준으로 오류를 확인하는 방식으로는 완벽한 정제 품질을 보장하기 어렵다. 향후 인공지능을 위한 원천 데이터로의 변환 시 고려해야 할 주요 요소들을 확인하기 어렵다.

따라서 한국어 데이터 기반 인공지능 활용을 위해서는 ‘수집 → 정제 → 가공’의 명확한 품질관리 프로세스를 정립해야 한다. 결론적으로 한국어 인공지능 데이터에 특화된 데이터 구축 품질관리 프로세스를 구축하여 AI 활용 서비스의 신뢰성을 제고할 필요가 있다.

 

초거대 AI 구현을 위한 기업들의 노력

초거대 AI를 구현하려는 여러 기업의 노력이 최근 두드러지고 있다. 특히 AI의 실질적 활용을 원하는 소비자들의 욕구는 생성형 AI를 통해 점차 충족되고 있다. 챗GPT의 출현으로 시작된 자연어 처리 기반의 AI 활용이 도메인과 서비스 전반에 걸쳐 확산하고 있다. 이러한 상황에서 사용자들은 AI가 생성하는 결과의 신뢰성에 대해 의문을 제기하기 시작했다.

이미 사용자들은 생성형 AI가 만들어내는 약간의 오류나 어순의 어색함 때문에 결과의 정확성을 의심하고 있다. 결론적으로 사용자들은 이미 AI 사용의 편리함에 익숙해진 상태에서 결과의 신뢰성과 품질에 대한 최고 수준의 요구를 하기 시작했다.

 

AI와 데이터 품질의 중요성

어떠한 형태이든 간에 AI는 기존에 적재된 (실시간으로 수집되는) 데이터를 기반으로 결과를 도출한다. 생성형 AI는 현재 이를 구현하여 사용자에게 편리한 기능을 제공하고 있지만, 근본적으로 데이터의 품질이 신뢰성 있는 결과를 도출하는데 중요하다는 점에는 이견이 없다. 최적의 결과는 결국 고품질의 데이터를 확보하는데 근거를 두고 있는 것이다.

이와 관련하여 텍스트 데이터는 원시 데이터부터 명확한 근거에 따라 정제를 수행하여 품질을 제고하여야만 사용자들이 신뢰하는 결과를 도출할 수 있다. 이를 위해 단계별로 철저한 검증과 명확한 규칙에 의거한 품질관리가 이루어져야 한다.

AI를 활용하고 개발하기 위해서는 대량의 리소스가 투입되어야 하며, 이를 처음부터 완벽하게 구현하기란 매우 어려운 일이다. AI가 만들어내는 결과는 하루아침에 이루어질 수 없음을 우리는 인정해야 한다.

AI가 결과를 도출하는 근거는 데이터이며, 이 데이터의 품질이 개선되지 않으면 결과의 신뢰성을 보장할 수 없다. AI 관련 서비스를 개발하고 공급하는 기업들은 가장 기본적인 요소인 데이터의 품질을 중시해야 하며, 각 과정에서 철저한 검증을 통해 결과의 신뢰성을 스스로 높일 수 있어야 한다.

[K글로벌타임스 김기태 기자] [email protected]

관련기사

저작권자 © K글로벌타임스 무단전재 및 재배포 금지