How to install PDFTK, pdftoppm, Tesseract OCR
PDFTK: 병합, 분할, 회전, 암호화 등, PDFtoPPM: 이미지(png) 변환, Optical Character Recognition
PDFTK
- Install pdftk
sudo apt install pdftk
- merge (shuffle)
pdftk A=file1.pdf B=file2.pdf shuffle A B output output.pdf
- 파일의 일부만 저장하기
pdftk input.pdf cat 2-end output output.pdf
- 파일 합치기
pdftk file1.pdf file2.pdf file3.pdf cat output output.pdf
Ghostscript
pdf 압축하기
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf file.pdf
- PDFSETTINGS option 압축레벨
- /screen, /ebook, /printer, /prepress
PDFTOPPM
- install
sudo apt-get install poppler-utils
- pdf -> png
pdftoppm -png input.pdf output
Tesseract OCR (Optical Character Recognition)
.png -> .txt
- install
sudo apt install tesseract-ocr
- useage
tesseract image.png output.txt
- Multiple images
#!/bin/bash
for file in output-*.png; do
tesseract "$file" "${file%.png}.txt"
done
- python library: pytesseract
OCRmyPDF
PDF 파일에 OCR 레이어를 추가. 원본 이미지를 그대로 유지하고 텍스트 레이어만 추가 함
PDF Translator
AI PDF Translator
-
Ask your pdf, ChatGPT https://askyourpdf.com/upload 대화는 잘 못한다. 요약만 좀 할 줄 앎.
- https://www.chatpdf.com/
- pdf와 대화
- 120페이지의 PDF 또는 10MB 파일 까지 가능.
- 하루에 3개의 PDF 파일을 올릴 수 있음.
- 질문은 하루에 50번까지.
- 원하는 답변은 나오지 않음
- https://pdf.ai/
- pdf와 대화
- 원하는 답변이 나오지 않음
- https://www.deepl.com/translator/files
- 문서 번역 후 pdf 저장
- 성능 좋음.
- 한달에 3개 문서, 최대 5MB, 글자수 제한 있음. 무료 체험 가능.
-
https://wordvice.ai/ko/proofreading/d677e113-800e-462b-b7f4-62611ef0d10a PDF는 없다. side by side 비교가 가능.
- https://dashboard.doctranslator.com/translations?locale=ko 무조건 유료 서비스. 짧은 글에 8만원 받는다.
Google Translator
- https://www.onlinedoctranslator.com/ko/ 수고 스럽고 번역 결과가 어색해서 원문과 교차로 봐야한다. 무료 무제한. 기부 형태.
Remove Linebreaks
- https://removelinebreaks.net/ 깨진 문자열 복원
추천
- 한 두 페이지: 네이버 파파고 어플
- 영어 원서 통번역: DeepL
- 원문과 번역본을 셔플해서 볼 때: https://www.onlinedoctranslator.com/ko/
- 1MB 이하로 분할 처리 필요
-
Ipad notability에서 검토
- 스캔본 -> 구글 드라이브에 넣고 구글 문서로 열기 -> DeepL 번역 크롬 extension 설치