공공 AI 전환 막는 HWP, 데이터는 있는데 AI가 못 읽는다?

대통령 업무보고에서 지목된 HWP의 AI 호환성 문제! HWP 전용 파서를 통해 복잡한 공공 문서를 AI용 데이터로 완벽하게 변환하고 공공 AI 전환을 앞당기세요!
Dec 29, 2025
공공 AI 전환 막는 HWP, 데이터는 있는데 AI가 못 읽는다?

공공 AI 전환의 걸림돌 HWP? 아래아한글 못읽는 AI

1) 공공 문서의 90%, AI가 못 읽는다

최근 대통령 업무 보고에서 HWP 문서의 AI 호환성 문제가 거론되며 큰 파장이 일었어요. AI 강국을 내세운 정부 기조와 다르게, 공직 사회의 경직된 문서 활용이 AI 전환을 방해하고 있다는 거예요. 사실 공공 행정 문서의 대부분을 차지하는 아래아한글 문서를 AI가 읽어내기 어렵다는 지적이 나온지는 꽤 오래 되었어요.

 

2) HWP의 구조적 한계와 HWPX 전환

‘공공분야 AI 활용 현황'조사에 따르면, 전국 행정기관 종사자의 90%가량이 보고서·계획서를 HWP나 이미지, 스캔 PDF 형식으로 작성한다고 해요. 문제는 이 자료가 AI가 데이터를 학습하고 분석하기 어려운 '비정형 데이터'라는 점이에요. 즉, 문서는 쌓여 있지만 AI 학습에 바로 투입될 만한 데이터는 거의 없는 상태예요.

  • 바이너리(Binary) 포맷의 한계: HWP는 일반 텍스트가 아닌 2진법 형태의 바이너리 데이터로 저장돼요. 보안에 중심을 둔 폐쇄적인 구조로 제작되어 기계가 직접 읽고 처리하기 어려워요.

  • 복잡한 레이아웃: ‘보고를 위한 보고’가 만연한 공문서의 특성상 복잡한 레이아웃을 가진 문서들이 많아요. 다단 구성이나, 표 안에 또 표가 들어간 중첩 구조 등은 AI가 문서의 전체적인 맥락을 파악하는 데 혼선을 주기 쉬워요.

  • 폐쇄적 사용 환경: 국내에서 주로 사용되는 HWP 포맷의 특성상, 글로벌 AI 서비스의 지원이 제한적이에요. 대부분의 글로벌 LLM은 DOCX 등 국제적으로 통용되는 구조를 주로 학습했기 때문에, 데이터 활용에 상대적으로 불리할 수 있어요.

 

이러한 문제를 해결하기 위해 한컴은 기존 HWP 대신 XML 기반의 개방형 포맷 ‘HWPX’를 도입했지만, 이미 축적된 문서의 대부분이 HWP라는 게 문제예요. 결국 이를 해결하기 위해서는 'AI가 학습할 수 있는 구조화된 형태로 문서를 변환하는 과정이 필요해요.

 

3) 진짜 해결책은 AI가 ‘읽게 도와주는 것’

이에 공공문서 활용을 위한 현실적인 대안으로 Parser(파서) 기술이 주목받고 있어요. Parser는 HWP, PDF, DOCX 등 다양한 문서를 구조화된 데이터로 변환하고, AI가 바로 읽을 수 있게 만들어줘요. 빠르게 문서에서 데이터를 추출해 AI 모델 개발에 바로 투입 가능한 형태로 제공해요. 공공기관, 대기업, 금융권처럼 문서 자산이 많은 조직일수록 효과는 배가 돼요.

 


HWP 문서 추출의 핵심은 ‘표'와 ‘차트’

일반 문서와 공공기관에서 발행한 문서의 차이점은 ‘표 안의 표’, ‘차트’, ‘다단 구조’ 등 보고에 필요한 복잡한 양식이 많는 점이에요. 특히 HWP 문서를 제대로 학습하지 않은 파서라면, 혼동하기 쉬운 구조이기도 해요. Polaris AI DataInsight는 글의 '내부 구조(Object)'를 바탕으로 문서를 파악하기 때문에 더욱 정확도 높은 추출이 가능해요.

 

  • 다양한 문서 포맷 지원: 폴라리스 오피스가 보유한 자체 문서 엔진으로 HWP는 물론, PDF, XLSX, DOC, DOCX 등 다양한 포맷의 문서를 완벽하게 해석해요. 여러 확장자를 가진 문서들이 뒤섞여 있어도 안정적으로 데이터를 추출할 수 있어요.

  • 차트 및 그래프 인식: 일반적인 파서에게 차트는 그저 '그림'일 뿐이지만, DataInsight는 정확한 숫자 정보를 추출할 수 있어요. 또한 연동된 raw 데이터와 메타데이터(제목, 종류 등)까지 인식하기 때문에 정확도가 훨씬 올라가요.

  • 복잡한 문서 레이아웃 인식: 표안의 표, 다단 등 복잡한 문서 서식부터 머리글이나 바닥글, 대체 텍스트, 워터마크 등 다양한 정보들을 빠짐없이 추출하여 AI가 명확하게 파악할 수 있도록 도와요.

  • 메타데이터 추출: 단순히 겉으로 보이는 텍스트만 긁어오는 게 아니에요. 문서 내부에 숨겨진 메타데이터(작성자, 생성일, 수정 이력, 위치 정보 등)와 보이지 않는 레이어의 숨은 요소까지 정확하게 찾아내 추출해요. 이는 AI가 데이터의 신뢰도와 맥락을 파악하는 데 결정적인 정보가 돼요.

 

📊 일반 솔루션 vs Polaris AI DataInsight 비교

비교 항목

타 제품 / 오픈소스 파서

Polaris AI DataInsight

문서 포맷 지원

일부 제품 HWP, HWPX 미지원

HWP, PDF 등 모든 문서 형태 지원

한국어 추출

한국어 등 일부 언어 미지원

자체 엔진 기술에 기반한 높은 한국어 추출 정확도

숨은 데이터 인식

보이지 않는 요소 추출 불가

메타데이터 및 숨은 속성 인식 가능

 

‘데이터 품질’이 결정하는 AI 전환

정제된 언어와 체계적인 논리를 갖춘 공공 문서는 AI 모델 개발에 가장 필요한 데이터예요. 이 소중한 자산을 AI가 바로 활용할 수 있게 만드는 과정, 즉 ‘데이터 전처리’의 효율성이 곧 조직의 AI 경쟁력이 되고 있어요. 사내 노하우가 축적된 문서를 통해 AI 모델 고도화를 고민하고 계시나요? Polaris AI DataInsight가 여러분의 문서를 가장 똑똑한 AI 데이터로 바꿔드릴게요.

Share article

폴라리스오피스 블로그 for Enterprise