Cjournal
Cjournal
기업과산업  전자·전기·정보통신

한글과컴퓨터, PDF 추출 핵심 기술 글로벌 오픈소스로 공개

조승리 기자 csr@businesspost.co.kr 2025-09-17 09:57:22
확대 축소
공유하기
페이스북 공유하기 X 공유하기 네이버 공유하기 카카오톡 공유하기 유튜브 공유하기 url 공유하기 인쇄하기

[비즈니스포스트] 한글과컴퓨터는 AI 학습과 활용 과정에서 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다. 

이번에 공개된 ‘오픈데이터로더 PDF’는 한컴이 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진이다.
 
한글과컴퓨터, PDF 추출 핵심 기술 글로벌 오픈소스로 공개
▲ 17일 한글과컴퓨터는 PDF 추출 핵심 기술을 글로벌 오픈소스로 공개했다고 밝혔다. <한글과컴퓨터>

PDF는 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않아 AI 개발 과정에서 큰 제약이 따랐다.

이번 프로젝트는 이러한 문제를 해결하기 위해 한컴이 PDF 기술 전문회사 듀얼랩과 오픈소스 기반 PDF 데이터로더를 공동 개발했다.

공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해, AI 학습에 즉시 활용할 수 있는 정형화된 데이터로 변환한다.

벤치마크 테스트 결과, 사람의 읽기 순서를 측정하는 지표인 NID에서 다른 기술 대비 85%라는 높은 수치를 기록했다고 회사 측은 설명했다.

금융·공공기관 등 민감한 데이터를 다루는 환경에서도 네트워크 연결 없이 완전 오프라인으로 작동해, 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 원천 차단한다.

한컴은 오픈데이터로더 PDF에 악의적 콘텐츠 삽입을 통한 프롬프트 인젝션 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공한다.

한컴은 AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하기 위해 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어간다. 조승리 기자

최신기사

빈대인 BNK금융 CEO 부산은행 출신 일색은 균열냈지만, 경남은행과 '정서 통합' 갈..
BNK금융에 학연과 지연 옅은 빈대인, 내부통제 혁신의 상징 외부 출신 CFO 권재중 ..
[씨저널] 빈대인 BNK금융 이재명 정부 발맞춰 해양 금융으로, 해양 전문가 사외이사 ..
신세계I&C 글로벌 경쟁력 확보 숙제, 양윤지 개발자 역할 'AI로 성과 창출 리더' ..
LGCNS 인도네시아 금융IT 공략 확대, 현신균 기업 컨설팅 경력의 시너지 효과 주목
삼성SDS AI 종합기업으로 체질전환 속도, 이준희 내부거래 줄이기보다 외부거래 확대로
[채널Who] 삼성SDS 내부거래 의존 탈피 시동 걸어, 이준희 차세대 생성형 AI 플..
HMM 2조 규모 자사주 매입 마쳐, 산업은행·해양진흥공사 9천억씩 회수
LG전자 만 50세 이상·저성과자에 희망퇴직 실시, TV 이어 모든 사업부로 확대
대법원장 조희대 "대통령 사건 놓고 한덕수 포함 외부 누구와도 논의 안 했다"
Cjournal

댓글 (0)

  • - 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
  • - 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 댓글은 관련 법률에 의해 제재를 받을 수 있습니다.
  • - 타인에게 불쾌감을 주는 욕설 등 비하하는 단어가 내용에 포함되거나 인신공격성 글은 관리자의 판단에 의해 삭제 합니다.