HWP 파싱 안 되는 이유 - 클로드 스킬로 정확도 높이기

오래된 HWP 파일을 AI로 분석하고 싶지만, 낮은 정확도와 깨지는 데이터에 당황하셨나요? 오픈소스로는 파싱할 수 없는 한글 문서들, 클로드 스킬로 간단히 해결하세요.
Apr 02, 2026
HWP 파싱 안 되는 이유 - 클로드 스킬로 정확도 높이기

지난 3월, 7년 차 공무원이 만든 AI 문서 도구가 국회에서 극찬을 받았어요. 수많은 공공기관에서 대량 생산되는 HWP 문서에서 데이터를 정제하는 어려움을 해결해 주는 서비스였어요. 실제 AI 활용을 위해 문서를 데이터화하는 시도가 늘어나고 있지만, HWP라는 커다란 벽에 가로막힌 기업이 많아요.

AI 모델이 상향 평준화될수록, 기업의 진짜 차별점은 사내에 쌓인 고유한 도메인 지식에서 나오게 돼요. 그런데 국내 기업과 공공기관의 레거시 문서들은 구버전 HWP에 갇혀 AI가 읽을 수 없는 '다크 데이터'로 방치된 경우가 대부분이에요. 이런 파일들은 오픈소스 파서나 LLM으로는 정확하게 추출하기 어려워요. 이걸 AI 성능 문제라고 생각하기 쉽지만, 원인은 파일 포맷 자체의 구조적 문제예요.

이 문제를 해결하기 위해 폴라리스오피스는 Polaris AI DataInsight 솔루션을 제공하고 있는데요. 제품 일부를 Claude Skill에 오픈 베타로 공개해 누구나 사용할 수 있게 되었답니다. 구체적인 특장점과 사용 법에 대해 정리해 드릴게요.

 

HWP 문서를 파싱하기 어려운 이유

HWP는 버전에 따라 파싱 결과가 달라질 수 있어요. 오픈소스 라이브러리가 지원하는 건 사실상 HWP 5.x부터예요. 3.x 이하 구버전은 오픈소스가 존재하지 않아 제대로 읽어내기 어려워요. 공공기관 등에 장기간 쌓인 레거시 문서 중 상당수가 바로 이 구간에 해당해요.

그 결과 오픈소스를 활용한 파서나 LLM에서는 구버전 HWP를 제대로 추출하기 어려워요. 표가 무너지고, 텍스트 순서가 뒤바뀌고, 차트 데이터는 유실될 수 있어요. 이 데이터를 RAG(Retrieval-Augmented Generation) 파이프라인에 넣으면, 부정확한 결과물을 받을 수밖에 없겠죠. 아래 HWP 파일을 단순하게 LLM 클로드를 활용해 추출해 보았는데요. 문서 내의 표를 CSV로 추출한 결과, 표의 구조가 깨지고 데이터 역시 온전하지 못한 걸 알 수 있어요.

HWP 문서를 LLM 클로드를 이용해 파싱한 결과
HWP 문서를 LLM 클로드를 이용해 파싱한 결과

그렇다면, Polaris AI DataInsight가 제공하는 클로드 스킬을 활용해서 문서를 추출하면 어떨까요? 클로드 스킬로 동일한 작업을 요청하자, 표 안의 내용이 정확하게 추출된 것을 확인할 수 있었어요. 폴라리스오피스는 수십 년간 문서 엔진을 직접 개발해 온 기술 자산을 보유하고 있어요. 오픈소스 라이브러리가 닿지 않는 구버전 영역도 자체 엔진으로 처리하기 때문에 높은 정확도를 낼 수 있답니다. 이 점이 일반 오픈소스 파서와의 명확한 차이예요.

동일한 HWP 문서를 클로드 스킬을 적용하여 파싱한 결과
동일한 HWP 문서를 클로드 스킬을 적용하여 파싱한 결과


클로드 스킬로 HWP 파싱 정확도 높이기

Polaris AI DataInsight에 기반하여 공개된 클로드 스킬은 HWP·HWPX·DOCX·PPTX·XLSX 등의 문서를 업로드하면 텍스트·표·차트·이미지·수식 등 문서 내 모든 요소를 JSON 형태로 구조화해서 반환해요. 표는 CSV로, 차트는 시리즈와 레이블 데이터로 분리돼서 나오기 때문에 RAG 청크로 바로 연결할 수 있어요.

1. 폴라리스오피스 문서 추출 솔루션의 특장점

  1. 단일 API 호출로 문서 전체 구조 추출: 파일 하나를 전달하면 텍스트·표·차트·이미지 등 모든 요소가 페이지 단위로 구조화된 JSON으로 반환돼요. 별도의 전처리 없이 한 번에 문서 전체를 가져올 수 있어요.

  2. 구버전 HWP 포함 5개 오피스 포맷 지원: HWP, HWPX, DOCX, PPTX, XLSX를 지원해요. 오픈소스 라이브러리로는 처리할 수 없는 구버전 HWP까지 추출을 지원해요. 파일당 최대 25MB, 분당 최대 10건까지 요청할 수 있어요.

  3. 표·차트 데이터를 구조 그대로 분리 추출: 표는 HTML·CSV·JSON 세 가지 형식으로 동시에 제공돼요. 차트는 제목·축 레이블·시리즈명·시리즈 값이 분리되어 나와요. 단순 텍스트로 뭉개지는 기존 파서와 달리, 데이터 관계가 그대로 살아 있어요.

  4. RAG 파이프라인에 바로 연결 가능: 각 요소에 페이지 번호·요소 타입·위치 좌표가 포함되어 있어, 청크 분할 후 벡터 DB에 바로 넣을 수 있는 구조예요. Skill 문서에 RAG 청크 생성 예제 코드도 포함되어 있어요.

 

2. 클로드 스킬 설치 방법

  1. Polaris AI DataInsight 상단 ‘API 메뉴’에서 API 키를 발급 받고, 환경 변수로 설정해요.

 export POLARIS_DATAINSIGHT_API_KEY="your-api-key-here"
  1. skills.sh 에서 Skill 파일을 다운로드하고, 설치해요.

   # 현재 프로젝트에만 설치
   npx skills add https://github.com/jacob-g-park/polaris-datainsight-doc-extract --skill polaris-datainsight-doc-extract
   
   # 모든 프로젝트에서 공통으로 사용하려면 -g 플래그 추가
   npx skills add https://github.com/jacob-g-park/polaris-datainsight-doc-extract --skill polaris-datainsight-doc-extract -g

💡

현재 버전은 HWP·HWPX·DOCX·PPTX·XLSX의 구조 파싱에 집중되어 있어요. PDF나 이미지에 대한 비전 처리는 차기 버전에서 지원될 예정이에요. 비전까지 처리하는 솔루션이 필요하다면, 하단 문의하기에 남겨주세요.


HWP 파싱을 위한 Claude Skill, 이런 분들에게 추천해요

1. 한국형 RAG 시스템을 구축하는 AI 개발자

기업 내부 데이터를 LLM에 주입하려는데, HWP 파일 전처리에만 일주일이 걸린다면? Polairs AI DataInsight는 HWP 문서를 JSON으로 빠르게 반환해요. 한글 문서 특유의 구조를 명확하게 식별하여, 전처리 수고는 덜어주고 추출 데이터의 정확도는 높여요.

2. 공공기관 및 정부 사업 수주 기업의 기획자

과거 수년 치 정부 공고문과 결과 보고서를 분석해 새로운 제안서를 써야 한다면? 문서 대부분이 구버전 HWP 형식이어서 데이터 추출이 어려워요. 구버전 HWP는 물론, 다양한 포맷을 지원하는 파서를 통해 표·서식·다단 등을 원형 그대로 추출하고, Claude 등의 LLM을 이용해 분석과 초안 작성을 빠르게 끝낼 수 있어요.

3. 법률 사무소 및 특허 법인의 실무자

법률 산업은 문서 추출의 정확성이 무엇보다 중요한 분야 중 하나예요. 10년 전 계약서, 20년 전 판례 문서를 AI로 검토해야 하는데, LLM이나 오픈소스 파서로 문서를 제대로 읽어낼 수 없다면? 폴라리스오피스가 제공하는 Doc Extract Skill을 활용해 보세요. 정확도 높은 문서 추출을 통해 AI 분석의 신뢰도를 높일 수 있어요.

 

구버전 HWP 문서 파싱은 AI 성능이 아니라 도구 선택의 문제예요. 좋은 파서를 이용하면, 사내 서버에 잠들어 있던 레거시 문서들을 빠르고 정확하게 데이터화 할 수 있어요. 오늘 소개해 드린 클로드 스킬을 활용해 조직의 AI 전환을 빠르게 시작하실 수 있을 거예요. 사내 맞춤형 파싱 솔루션이 필요하다면, 아래 Polaris AI DataInsight의 구축형 솔루션을 검토해 보세요.

Share article

폴라리스오피스 블로그 for Enterprise