PDF zu Text mit PyPDF

Ein PyPDF-Python-Script zum Export des Inhalts einer PDF-Datei im Textformat.

import pyPdf  
def getPDFContent(path):
     content = ""
     pdf = pyPdf.PdfFileReader(file(path, "rb"))
     for i in range(0, pdf.getNumPages()):
         content += pdf.getPage(i).extractText() + "\n"     # Loesche Leerzeichen
     content = " ".join(content.replace("\xa0", " ").strip().split())
     return content
print getPDFContent("test.pdf")