PDF zu Text mit PyPDF
Ein PyPDF-Python-Script zum Export des Inhalts einer PDF-Datei im Textformat.
import pyPdf def getPDFContent(path): content = "" pdf = pyPdf.PdfFileReader(file(path, "rb")) for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + "\n" # Loesche Leerzeichen content = " ".join(content.replace("\xa0", " ").strip().split()) return content print getPDFContent("test.pdf")