KT가 선택한 Parser! 문서를 데이터화하는 AI DataInsight

국내 최대 통신사 KT가 도입한 "Polaris AI DataInsight"는 사내 문서를 RAG이나 AI 데이터 학습에 사용할 수 있도록 도와주는 데이터 Parser(구조화) 솔루션입니다. AI 도입을 고민하고 있는 기업이라면, 반드시 검토해 보세요.
Feb 19, 2025
KT가 선택한 Parser! 문서를 데이터화하는 AI DataInsight
문서를 구조화는 Parser 솔루션 - Polaris AI DataInsight
문서를 구조화는 Parser 솔루션 - Polaris AI DataInsight

‘우리 기업도 AI를 적극 활용해서 그 효과를 극대화할 수 있는 방법이 없을까?’를 고민하시는 기업이라면 K-AI의 선두주자 KT가 선택한 Parser 솔루션에 관심을 가져보는 것도 좋을 것 같아요.

수많은 문서에서 효과적인 데이터 추출의 새 지평을 여는 솔루션! 바로 폴라리스오피스의 Polaris AI Data Insight입니다. 국내 최대 통신사 KT가 본격적인 AI 사업을 진행하는데 앞서 POC로 도입한 폴라리스오피스의 Polaris AI Data Insight 어떤 제품인지 소개해 드리겠습니다.

* POC : Proof of Concept (개념 증명/검증)

RAG 및 AI 데이터 학습을 위한 데이터 추출

폴라리스오피스 Polaris AI Data Insight는 기업이나 기관 내에 존재하는 다양한 문서(PDF, 워드, 프레젠테이션 등)를 대상으로 텍스트, 이미지, 표, 차트 및 숨겨진 객체(수식, 주석, 북마크 등)를 자동으로 추출합니다.

Parser의 데이터 구조화 범위 - 단락, 본문, 이미지, 미주 등
Parser의 데이터 구조화 범위 - 단락, 본문, 이미지, 미주 등

여기서 핵심은 별도의 문서 변환 없이 원본 문서에서 세분화된 메타정보 추출할 수 있는 점이 Polaris AI Data Insight의 강점입니다. 문서에서 시각적으로는 보이지 않지만 데이터로 존재하는 문서 내부의 객체 속성 및 속성 내용 등의 메타 데이터를 추출해 내는 것이죠!

문서의 메터데이터를 추출하는 Parser - 파싱 솔루션
문서의 메터데이터를 추출하는 Parser - 파싱 솔루션

문서 내에서 추출한 데이터를 체계적인 아카이브로 구축하여 내부 직원들이 필요한 정보를 키워드, 카테고리 별로 빠르게 검색할 수 있도록 합니다. 구조화된 데이터베이스 구축을 통해 효율적인 검색이 가능하게 되는 것이죠!

Parser의 문서 구조화 방식
Parser의 문서 구조화 방식

Polaris AI Data Insight의 특징

DataInsight은 이미지 안에 있는 텍스트뿐만 아니라 표, 도형 등의 비주얼 오더링을 인식하는 OCR/IDP 기능을 통해 더 정교한 데이터를 추출하고, 컨텍스트 정보를 제공하여 고품질의 AI 서비스를 위한 RAG 기능을 구축할 수 있도록 합니다.

* OCR : Optical Character Recognition (광학 문자 인식) / IDP : 지능형 문서 처리

* RAG : Rerieval-Augmented Generation (검색 증강 생성)

문서 데이터 파싱 구조도
문서 데이터 파싱 구조도

이렇게 추출된 데이터를 체계적인 아카이브로 구축하여 내부 직원들이 필요한 정보를 키워드, 카테고리 별로 빠르게 검색할 수 있도록 합니다. 구조화된 데이터베이스 구축을 통해 효율적인 검색이 가능하게 되는 것이죠!

향후 챗봇에 활용할 수 있는 장점도 있습니다. 내부 축적된 문서 기반의 데이터로 고객이나 내부 직원의 질의에 신속하고 정확한 답변을 제공받을 수 있기 때문입니다.

사내 문서를 JSON, MD, XML 등의 테이터로 추출
사내 문서를 JSON, MD, XML 등의 테이터로 추출

다양한 문서 형식 및 언어 변환 플랫폼 기능을 통한 문서 구조화

다양한 포맷의 문서를 JSON, MD, XML 등의 정형 데이터로 변환 가능합니다. 이러한 정형 데이터로 변환된 문서는 LLM 연동에 적합한 데이터로 활용이 되어 더욱 정밀한 답변 생성부터 문서 요약, 보고서 생성 등 다양한 LLM 기반의 서비스 컨텍스트로 활용이 가능합니다.

* LLM : Large Language Model (거대 언어 모델)

비즈니스 인텔리전스 및 분석 지원 시스템 활용으로 효율적인 업무 시스템 구축

문서에 포함되어 있는 복잡한 표, 차트 등의 데이터를 추출하여 비즈니스 분석, 리포트 자동 생성, 의사 결정 지원 시스템에 활용하면 영업, 마케팅, 재무 등 주기적으로 보고서 작성이 필요한 팀에게는 시각화된 리포트를 자동 생성해 주고 실시간 비즈니스 인사이트를 제공하는 역할까지 합니다.

그야말로 업무 자동화의 새 지평을 열었다고 할 수 있는데요. AI를 어떻게 활용하는가에 따라 업무 효율성 증진은 물론 앞으로 우리 기업의 비즈니스적 새로운 기회까지 확보할 수 있을 것 같습니다. 그 시작을 Polaris AI Data Insight와 함께 해보는 것은 어떠세요?

Share article

폴라리스오피스 블로그 for Enterprise