위에 포스팅 되어 있는 pdf툴중에 내 개인 노트북에서는 Foxit Reader를 주로 쓰고있고 변환기로는 PrimoPDF를 주로 쓴다. 그러나 쓰다보니 역시나 Adobe Reader가 모든 pdf에 대해서 가장 정확하게 보여준다는 사실을 알았다. 프린트 기능역시 다양한게 맘에 든다.
그래서 Foxit Reader를 쓰다가 잘 안나오는 문서를위해 adobe reader를 따로 깔아 두었다.
프로그램 개발하다보면 pdf를 일반 텍스트로 변환해야할 경우가 굉장히 많다.
물론 공개된 텍스트 데이터 추출 모듈도 있다.
PDFBox가 그것인데 Lucene과 잘 궁합이 맞는 라이브러리로 알려져 있다.
물론 자바 라이브러리다.
내가 회사에서 사용하는 라이브러리는 상용라이브러리다.
Synap에서 파는 라이브러리인데 초창기 버전에서는 많은 불안정한 감이 있었지만 현재는 쓸만하다.
이 필터는 국내에서 다루는 거의 모든 문서파일 형식을 다루고 있어서 아주 편리하게 사용할수 있다.
그리고 다양한 OS에서 컴파일된 버전이 제공이되고 없을경우 직접 출장와서 라이브러리를 만들어 준다.
역시나 돈이 좋긴 하다.
국내에서 대부분의 검색엔진 회사에서 이 라이브러리를 쓰는걸로 알고 있다.
이 외에도 특히나 Java 계열에서는 오픈된 Doc -> Txt 변환 라이브러리가 많은걸로 알고 있다.
pdf 관련 툴 및 라이브러리 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.