• Python Scripte

    PDF zusammenführen/verbinden mit PyPdf

    Dieses PyPDF-Beispiel demonstriert, wie zwei PDF Dokumente in einer dritten PDF-Datei zusammengeführt (konkateniert) werden: from pyPdf import PdfFileWriter, PdfFileReader output = PdfFileWriter() input1 = PdfFileReader(file("C:\\test2.pdf", "rb")) input2 = PdfFileReader(file("C:\\GEHEIM2.pdf", "rb")) for page in range(input1.getNumPages()): output.addPage(input1.getPage(page)) print 'Added page %s from first file'%page for page in range(input2.getNumPages()): output.addPage(input2.getPage(page)) print 'Added page %s from second file'%page outputStream = file("c:\\document-output.pdf", "wb") output.write(outputStream) outputStream.close()

  • Python Scripte

    PDF im Batch mit OpenOffice und Python

    Mit Python lässt sich OpenOffice wunderbar zur Konvertierung von Dokumenten im Batch automatisieren. Das folgende Python Script ist ein Office zu PDF Batch Converter, basierend auf der OpenOffice PyUNO API. Es wird am besten mit dem Python Interpreter aus OpenOffice aufgerufen und konvertiert alle Dokumente in einem angegebenen Verzeichnis zu PDF. Vorraussetzung ist natürlich, dass die PyUNO API bei der OpenOffice-Installation mitinstalliert und OpenOffice Im Servermodus gestartet wurde: soffice "-accept=socket,host=localhost,port=2002;urp;" Und hier ein beispielhafter Aufruf des Programms: c:\\programme\\OpenOffice\\program\\python.bat c:\\converter\\ooconvert.py c:\\testdocs\\doc Und nun der Python Quellcode: # For a list of possible export formats see # http://www.openoffice.org/files/documents/25/111/filter_description.html # or # /opt/OpenOffice.org/share/registry/data/org/openoffice/Office/TypeDetection.xcu import sys, os, uno from com.sun.star.beans import PropertyValue export_format="writer_pdf_Export" export_extension="pdf"…

  • Python Scripte

    PDF zu Text mit PyPDF

    Ein PyPDF-Python-Script zum Export des Inhalts einer PDF-Datei im Textformat. import pyPdf def getPDFContent(path): content = "" pdf = pyPdf.PdfFileReader(file(path, "rb")) for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + "\n" # Loesche Leerzeichen content = " ".join(content.replace("\xa0", " ").strip().split()) return content print getPDFContent("test.pdf")

  • Ghostscript

    Informationen zum PDF mit Ghostscript ausgeben

    Mit Ghostscript 8.56 kann man auch nützliche Informationen zu PDF Dateien ausgeben. Das Zusatztool pdf_info.ps ist zwar noch nicht mit im Installer enthalten – dürfte aber bald in die Distribution einfließen. Folgende Infos werden ausgegeben: MediaBox und CropBox für jede Seite Verwendete Fonts Eingebettete Fonts Man kann das Tool (eine Postscript Datei) z.B. mit svn co http://svn.ghostscript.com:8080/ghostscript/trunk/gs/toolbin/ zusammen mit anderen Tools herunterladen – ein svn-Client vorausgesetzt. gswin32c.exe -dNODISPLAY -q -sFile=c:\test.pdf -dDumpMediaSizes -dDumpFontsUsed -dShowEmbeddedFonts c:\toolbin\pdf_info.ps

  • Ghostscript

    Postcript zu PDF mittels Ghostscript

    Der kostenlose Postscript Interpreter Ghostscript kann Postscript neben vielen anderen Ausgabeformaten auch zu PDF konvertieren. Folgender Aufruf konvertiert eine Postscript Datei im Batch zu PDF. gswin32c.exe -sDEVICE="pdfwrite" -dNOPAUSE -dBATCH -dSAFER -dQUIET -sOUTPUTFILE="yourpdffile.pdf" "yourpostscriptfile.ps" Wenn ein 24-Bit Tiff-Resultat gewünscht ist: gswin32c.exe -sDEVICE="tiff24nc" -dNOPAUSE -dBATCH -dSAFER -dQUIET -sOUTPUTFILE="yourpdffile.tif" "yourpostscriptfile.ps" Tipp: Auf Linux wird Ghostscript (welches oft schon vorinstalliert ist) mit dem Kommando gs aufgerufen.

  • Batch Converter

    PDF2TIFF Intelligent Batch Converter

    Der PDF2TIFF Batchconverter ist eine Batchlösung zur Konvertierung von PDF Dokumenten zu TIFF mit einer gewissen Intelligenz. Es konvertiert nicht einfach stumpf die Dokumente. Sondern untersucht jede Seite auf Farbinhalt und kann abhängig von der Anzahl Farben einer Seite diese in eine Farb-Tiff oder eine FAX G4-Tiff umwandeln. Die Farb-Tiff-Ausgabe wird zusätzlich um Platz zu sparen mit dem LZW-Algorithmus komprimiert und die Farben bei Bedarf reduziert.

  • OpenOffice.org

    Dokumente mit OpenOffice vergleichen und Unterschiede in einer PDF Datei zeigen

    Ein sehr interessantes PyUNO Script, welches zwei Word Dokumente mit OpenOffice gegeneinander vergleicht und die Unterschiede in einer PDF Datei markiert hat Neil Blakey-Milner in seinem Blog veröffentlicht. Dabei werden neu erzeugte Passagen farblich hervorgehoben und gelöschte Passagen durchgestrichen dargestellt. Man kann diese Funktion mit der aus Microsoft Office bekannten Dokumente vergleichen und zusammenführen vergleichen.   Damit das Programm im Netz nicht verloren geht, hab ich es hier nochmal abgelegt: PyUNO compare doc