Mustafa Görmezer

  • Schrift vergrößern
  • Standard-Schriftgröße
  • Schriftgröße verkleinern
Home Know How-Sammlung Python Scripte PDF zu Text mit PyPDF

PDF zu Text mit PyPDF

E-Mail Drucken PDF
Ein PyPDF-Python-Script zum Export des Inhalts einer PDF-Datei im Textformat.
import pyPdf

def getPDFContent(path):
    content = ""
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    for i in range(0, pdf.getNumPages()):
        content += pdf.getPage(i).extractText() + "\n"
    # Loesche Leerzeichen
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf")
Zuletzt aktualisiert am Dienstag, 29. Mai 2007  

Schnipsel

Metadaten und URLs extrahieren mit PDFx

PDFx ermöglicht es, Metadaten und URLs aus PDF-Dokumenten zu extrahieren. Es ist ein Python-Programm für die Kommandozeile und kann auch als Python-Modul aus anderen Anwendungen heraus verwendet werden. Das Programm wurde unter der Apache Lizenz veröffentlicht.

 
Excel-Dateien lesen mit Python

Microsoft Excel Dateien lassen sich mit der Python Bibliothek XLRD Plattformunabhängig lesen und schreiben. Dieser Artikel von Mike Driscoll zeigt ein BEispiel, wie man es ohne Office-Installation macht.

Anzeigen

 

Statistik

Seitenaufrufe : 7832586

Wer ist online

Wir haben 122 Gäste online