Blog

맥에서 PDF 폰트 알아내기, 이미지 추출하기

November 18, 2014

맥에서 PDF 폰트 알아내기, 이미지 추출하기

요즘은 이와 관련된 웹서비스가 많이 있어서 별도로 프로그램을 설치할 필요 없이 쉽게 이용 가능하다. 다만 업로드할 수 있는 용량에 제한이 있는 경우가 많아서 로컬에서 사용할 수 있는 방법을 찾아봤다.

PDF 파일의 정보를 확인하거나 추출하기 위해서 pdffonts를 사용할 수 있는데 과거엔 xpdf 라이브러리에 포함되어 있다가 현재에는 poppler 라이브러리를 설치해 사용할 수 있다. 이 라이브러리는 homebrew를 통해 쉽게 설치할 수 있다.

brew install poppler

폰트 정보를 알아내기 위해서는 다음과 같이 사용할 수 있다.

pdffonts <파일명>

이미지를 추출할 때는 다음과 같이 쓸 수 있다.

pdfimages <파일명> <추출 경로>

추출된 이미지가 ppm인 경우는 일반적으로 사용 가능한 포맷인 jpg로 변경해 사용 가능하다. 이 경우엔 imagemagick 라이브러리에 포함되어 있는 convert를 사용할 수 있다.

해당 라이브러리가 설치되어 있지 않다면 역시 brew를 통해 설치할 수 있다.

brew install imagemagick

설치가 완료되었으면 다음과 같은 명령어로 일괄 변환할 수 있다.

convert *.ppm image%d.jpg

여기서 사용된 라이브러리들은 리눅스 패키지 매니저에서도 설치 가능하다.