유연한 이벤트 처리로 주목받는 카프카 [사진=NIPA]
유연한 이벤트 처리로 주목받는 카프카 [사진=NIPA]

[K글로벌타임스] 실크로드소프트는 시스템 소프트웨어 개발 및 솔루션 전문기업이다. 독창적인 데이터베이스 복제 기술을 기반으로 한 ‘SILCROAD(Smart, Interactive, and Live Change-data-capture Replicating Oracle to Any Database)’를 주력 제품으로 하고 있다. SILCROAD는 오라클 데이터베이스를 실시간으로 동기화하면서 비용은 외산 제품 대비 절반인 점이 강점이다. 실크로드소프트는 현재 국내외 금융, 물류, 공공, 교육 분야 고객들을 확보하며 글로벌 데이터베이스 시장에서 경쟁력을 갖춘 기업으로 자리매김하고 있다.

 

실크로드소프트 소개

실크로드소프트는 글로벌 수준의 기술력으로 데이터 연계 솔루션을 제공하는 소프트웨어 기업이다. 2015년 말 오라클(Oracle) 데이터베이스(DB) 리두 로그(Redo Log)에 직접 접근해 데이터베이스 변경 내역을 다른 DB에 반영할 수 있는 CDC(Changed Data Capture) 기술 개발로 창업에 성공하여 데이터 연계가 필요한 다양한 산업 분야에 소프트웨어를 제공 중이다.

실크로드소프트 비즈니스는 신뢰성을 보장하는 실시간 데이터 복제·검증·복구 솔루션을 기업 및 기관 고객에게 제공한다. DB 관리 소프트웨어(DBMS, Database Management System)와 마찬가지로 데이터 복제 및 연계 시장도 글로벌 제품이 선점해 왔다. 회사는 지속적인 기술 개발로 국내외 엔터프라이즈 시장에서 글로벌 제품의 대안으로 주목받고 있다.

데이터 관점으로 보면 기업(기관 포함)들의 IT 시스템은 일반적으로 애플리케이션이 있는 운영시스템과 운영 DB(데이터의 조회, 생성, 변경, 저장 또는 삭제)를 기반으로 서비스를 제공한다. 운영시스템 외 내부 시스템은 운영 DB에 저장데이터(서비스 제공 결과 데이터)를 복제·연계하여 활용한다.

이때 운영 DB에 미치는 영향을 최소화한, 신뢰성 높은 데이터 복제 소프트웨어가 필요하다. 회사는 데이터 동기화를 필요로 하는 고객 시스템에 적용한 소프트웨어 라이선스와 기술 서비스 비용을 수익 모델로 한다.

 

CDC 산업의 배경과 국내 기업과의 협업 사례

기존의 대표적인 데이터 복제 방식은 ETL(Extract Transform Load) 및 배치 처리와 같이 서비스 중단 후 일정 시간 다운타임 내 데이터를 일괄 복제하는 방식이었다. 서비스 운영이 길어지고 서비스 항목 추가 및 사용자 증가로 인해 운영 DB 성능 업그레이드는 지속적으로 발생했으며, 데이터 증가로 인한 다운타임도 증가했다.

이 때문에 변경 데이터만 복제하고 다운타임 없이 실시간 동기화되는 CDC 방식이 확대되었습니다. CDC 시장은 오라클 골든게이트(OGG, Oracle Golden Gate)가 주도하고 있으며, 유사 제품으로 퀘스트(Quest)의 쉐어플렉스(SharePlex)가 있다.

실크로드소프트는 다양한 고객들로부터 성능 시험(Benchmark Test)을 진행한 결과 OGG와 대등한 평가를 받아 글로벌 제품으로 운영 중이던 미래에셋증권의 레거시 시스템 데이터 동기화 전환에 성공했다. 또 일 최대 2,000만 건의 물량을 처리할 수 있는 국내 최대 물류 기업의 차세대 시스템 전환 오픈도 성공하며 제품력을 입증했다.

최근 다수의 고객들이 마이크로서비스 아키텍처(MSA, Micro Service Architecture) 기반의 신규 서비스를 제공하기 위해 이벤트 스트림 처리(Event Stream Processing)에 용이한 메시지 큐(Message Queue) 방식인 아파치 카프카(ApacheKafka) 도입을 검토하고 있으며, 이에 따라 데이터 연계 플랫폼의 진화가 요구되고 있다.

 

카프카 모델

Hype Cycle for Data Management 2023 ©Gartner
Hype Cycle for Data Management 2023 ©Gartner

카프카는 스케일 아웃형(Scale-out) 아키텍처에 최적화된 메시지 전달 보증 모델이다. MSA 기반의 카프카는 온프레미스(On-premise)에서 발생하는 대량 데이터의 실시간 처리나 이벤트 기반의 스트리밍 데이터 처리에 매우 효과적이다.

그림 2는 특정 기술의 시장 성숙도를 표현하는 데 대표적으로 사용되는 글로벌 시장조사 기관인 가트너(Gartner)에서 매년 발표하는 하이프 사이클(Hype Cycle) 그래프로, 혁신 및 기술 촉발부터 생산성 안정화 단계까지 총 5단계로 구분한다. 특정 기술이 시장에 수익을 실현하는 단계인 4~5단계에 표현된 기술이 시장 확산 전 단계로 이해하면 된다.

그림 2에서 이벤트 스트림 처리는 최종 단계인 5단계에 근접해 있으며 2년 내 안정적으로 운영될 것으로 예측·분류되었다. 앞서 말한 것처럼 이벤트 스트림 처리에 가장 적합한 카프카는 다양한 유형의 DB 및 엔터프라이즈 서비스와 결합할 수 있다.

데이터 처리 관점에서 카프카가 주목받는 이유는 다음과 같다. 첫째, 내결함성 및 내구성이다. 확장 가능한 시스템에서는 안정성이 중요합니다. 카프카의 분산처리방식은 여러 브로커에 데이터를 복제하여 특정 브로커 장애 시 손실 없이 데이터를 계속 처리하는 것이다. 또한 카프카의 영구 저장 방식은 일시적 오프라인 상태에도 데이터가 유지되도록 보장한다.

둘째, 실시간 스트림 처리(Real-time Stream Processing)다. 실시간 분석과 통찰의 시대에 데이터 스트림을 실시간으로 처리하는 능력은 매우 중요하다. 카프카는 아파치 플링크(Apache Flink), 아파치 스파크(Apache Spark), 카프카 스트림즈(Kafka Streams)와 같은 다양한 스트림 처리 프레임 워크에 통합되어 실시간 데이터 처리 및 분석이 가능하다.

이러한 카프카의 두 가지 특성은 대형 엔터프라이즈 스케일 아웃 서비스에서 신뢰성과 대량 실시간 데이터 처리 시 서비스 품질을 기대할 수 있게 한다. 카프카는 데이터 연계 처리를 위해 데이터 소스와 카프카 커넥트(Kafka Connect)를 제공하는 방식을 사용한다. 이로 인해 많은 데이터 소스를 지원한다는 장점은 있지만, 회사는 컨플루언트 및 클라우데라와의 협업 과정 중에서 커넥터 활용 방식이 기존 엔터프라이즈 DB 기반에 서비스하기엔 성능이 좋지 않다는 문제를 확인했다.

정형 데이터 DB에 가장 빠른 데이터 연계 솔루션인 CDC를 데이터 소스로 하여 카프카를 구성하면, 그림3처럼 운영 데이터를 통해 카프카를 필요시 앱 또는 내부 DB로 복제하여 데이터 연계를 효율적으로 할 수 있다. 지연 시간을 최소화한 당사의 CDC-카프카 구성은 스트림 처리 과정에서 시너지를 낼 수 있다.

 

카프카 활용에 대한 글로벌 현황

카프카의 다양한 활용 방안 © ksqlDB
카프카의 다양한 활용 방안 © ksqlDB

글로벌에서는 빅테크 기업들을 중심으로 다양하게 적용되고 있습니다. 넷플릭스(Netflix)는 사용자의 시청 활동, 유저 인터페이스 사용 빈도, 에러 로그 등을 수집 파이프라인으로, 링크드인은 메시징 처리로, X(구 트위터)는 고객 데이터의 이벤트 버스(Event Bus)로 카프카를 활용하고 있다.

또한 중국 대표 IT 기업 텐센트(Tencent)는 지역간 로그 수집, 머신 러닝 플랫폼 및 MSA간 데이터 파이프 라인으로 카프카를 활용하고 있으며, 아마존 웹 서비스(Amazon Web Services), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드 플랫폼(Google Cloud Platform)에서도 활용되고 있다.

카프카는 아파치 소프트웨어 재단(Apache Software Foundation)의 오픈소스 기반으로 출발했지만, 카프카에 편의성을 더한 상용 카프카 제공사들이 늘어나고 있다. 상용 카프카 대표 업체는 컨플루언트(Confluent)이며, 클라우데라(Claudera)도 기술 스택에 카프카를 포함시켜 광범위한 데이터 처리 플랫폼을 제공하고 있다.

실크로드소프트는 컨플루언트와 클라우데라의 카프카와 함께 협력 모델을 구성하고 국내외 빅데이터 및 스트림 데이터 분석 사업 등에 공동 영업을 진행하고 있으며, 고객들로부터 좋은 평가를 받고 있다.

 

이벤트 스트림 처리 시장의 동향 및 시사점

(1) 기업중심

최근 IT 조직은 지속 발생 중인 운영 데이터 분석 및 통찰 시간 단축뿐만 아니라, 비즈니스 중단 최소화 및 유연한 확장을 요구한다. 이들의 요구사항을 요약하면 첫째 실시간 데이터 분석 및 처리, 둘째 중단 없는 신규 서비스 런칭, 셋째 클라우드 IT 인프라 확장 시 신뢰성 있는 데이터 연계다.

실시간 처리에 뛰어난 CDC와 카프카가 결합해 신뢰성 있는 데이터 연계 플랫폼이 되면, 대량 데이터나 워크로드에도 실시간 분석을 위한 데이터 동기화를 제공하고, IT 시스템의 유연한 확장을 지원해 운영 데이터 기반 실시간 의사결정 및 서비스 확대를 가능하게 할 것이다.

(2) 공공의 개선점 중심

현재 공공 부문을 중심으로 부처 간 공공 데이터 공유를 추진하여 데이터 비즈니스 확산을 위해 노력하고 있다. 2022년에 개인정보 보호법이 개정되며 마이데이터 서비스 사업자들의 금융 마이데이터 서비스가 경쟁적으로 시작되었다. 2025년에 마이데이터 서비스가 의료 부문 등으로 확대 예정이라고 하지만, 투자 부문에서만큼은 성공을 달성하긴 어려울 것이다

다양한 부문에서의 마이데이터 서비스 성공을 위해선 주요 업종별 데이터 네이밍과 같은 포맷 정의 및 실시간 데이터 특성 지정이 필요하다고 생각한다. 이를 바탕으로 다수의 업종별 데이터가 법제화된다면, 다양한 분야의 데이터 결합 기반 비즈니스가 차별화될 것이며 인공지능(AI) 비서와 같은 실시간 스트림 데이터 처리 플랫폼 기반 서비스들이 확산될 것으로 예상된다.

[K글로벌타임스 김기태 기자] [email protected]

저작권자 © K글로벌타임스 무단전재 및 재배포 금지