PDF zu Text mit PyPDF
Ein PyPDF-Python-Script zum Export des Inhalts einer PDF-Datei im Textformat.
import pyPdf
def getPDFContent(path):
content = ""
pdf = pyPdf.PdfFileReader(file(path, "rb"))
for i in range(0, pdf.getNumPages()):
content += pdf.getPage(i).extractText() + "\n" # Loesche Leerzeichen
content = " ".join(content.replace("\xa0", " ").strip().split())
return content
print getPDFContent("test.pdf")