-
PDF zusammenführen/verbinden mit PyPdf
Dieses PyPDF-Beispiel demonstriert, wie zwei PDF Dokumente in einer dritten PDF-Datei zusammengeführt (konkateniert) werden: from pyPdf import PdfFileWriter, PdfFileReader output = PdfFileWriter() input1 = PdfFileReader(file("C:\\test2.pdf", "rb")) input2 = PdfFileReader(file("C:\\GEHEIM2.pdf", "rb")) for page in range(input1.getNumPages()): output.addPage(input1.getPage(page)) print 'Added page %s from first file'%page for page in range(input2.getNumPages()): output.addPage(input2.getPage(page)) print 'Added page %s from second file'%page outputStream = file("c:\\document-output.pdf", "wb") output.write(outputStream) outputStream.close()
-
PDF im Batch mit OpenOffice und Python
Mit Python lässt sich OpenOffice wunderbar zur Konvertierung von Dokumenten im Batch automatisieren. Das folgende Python Script ist ein Office zu PDF Batch Converter, basierend auf der OpenOffice PyUNO API. Es wird am besten mit dem Python Interpreter aus OpenOffice aufgerufen und konvertiert alle Dokumente in einem angegebenen Verzeichnis zu PDF. Vorraussetzung ist natürlich, dass die PyUNO API bei der OpenOffice-Installation mitinstalliert und OpenOffice Im Servermodus gestartet wurde: soffice "-accept=socket,host=localhost,port=2002;urp;" Und hier ein beispielhafter Aufruf des Programms: c:\\programme\\OpenOffice\\program\\python.bat c:\\converter\\ooconvert.py c:\\testdocs\\doc Und nun der Python Quellcode: # For a list of possible export formats see # http://www.openoffice.org/files/documents/25/111/filter_description.html # or # /opt/OpenOffice.org/share/registry/data/org/openoffice/Office/TypeDetection.xcu import sys, os, uno from com.sun.star.beans import PropertyValue export_format="writer_pdf_Export" export_extension="pdf"…
-
PDF zu Text mit PyPDF
Ein PyPDF-Python-Script zum Export des Inhalts einer PDF-Datei im Textformat. import pyPdf def getPDFContent(path): content = "" pdf = pyPdf.PdfFileReader(file(path, "rb")) for i in range(0, pdf.getNumPages()): content += pdf.getPage(i).extractText() + "\n" # Loesche Leerzeichen content = " ".join(content.replace("\xa0", " ").strip().split()) return content print getPDFContent("test.pdf")
-
Informationen zum PDF mit Ghostscript ausgeben
Mit Ghostscript 8.56 kann man auch nützliche Informationen zu PDF Dateien ausgeben. Das Zusatztool pdf_info.ps ist zwar noch nicht mit im Installer enthalten – dürfte aber bald in die Distribution einfließen. Folgende Infos werden ausgegeben: MediaBox und CropBox für jede Seite Verwendete Fonts Eingebettete Fonts Man kann das Tool (eine Postscript Datei) z.B. mit svn co http://svn.ghostscript.com:8080/ghostscript/trunk/gs/toolbin/ zusammen mit anderen Tools herunterladen – ein svn-Client vorausgesetzt. gswin32c.exe -dNODISPLAY -q -sFile=c:\test.pdf -dDumpMediaSizes -dDumpFontsUsed -dShowEmbeddedFonts c:\toolbin\pdf_info.ps
-
Schwarze PDFs statt farbige PDF-Zeichnungen aus CATIA V5
Mittlerweile scheint das PDF-Format als Archivformat auch in PDM/PLM-Systemen Einzug zu halten. Was ist aber, wenn CATIA V5 die PDF-Ausgabe in Farbe durchführt und die Zeichnungen in S/W ausgedruckt diverse Grautöne bei den Bemaßungen zeigen ?
-
Postcript zu PDF mittels Ghostscript
Der kostenlose Postscript Interpreter Ghostscript kann Postscript neben vielen anderen Ausgabeformaten auch zu PDF konvertieren. Folgender Aufruf konvertiert eine Postscript Datei im Batch zu PDF. gswin32c.exe -sDEVICE="pdfwrite" -dNOPAUSE -dBATCH -dSAFER -dQUIET -sOUTPUTFILE="yourpdffile.pdf" "yourpostscriptfile.ps" Wenn ein 24-Bit Tiff-Resultat gewünscht ist: gswin32c.exe -sDEVICE="tiff24nc" -dNOPAUSE -dBATCH -dSAFER -dQUIET -sOUTPUTFILE="yourpdffile.tif" "yourpostscriptfile.ps" Tipp: Auf Linux wird Ghostscript (welches oft schon vorinstalliert ist) mit dem Kommando gs aufgerufen.
-
PDF2TIFF Intelligent Batch Converter
Der PDF2TIFF Batchconverter ist eine Batchlösung zur Konvertierung von PDF Dokumenten zu TIFF mit einer gewissen Intelligenz. Es konvertiert nicht einfach stumpf die Dokumente. Sondern untersucht jede Seite auf Farbinhalt und kann abhängig von der Anzahl Farben einer Seite diese in eine Farb-Tiff oder eine FAX G4-Tiff umwandeln. Die Farb-Tiff-Ausgabe wird zusätzlich um Platz zu sparen mit dem LZW-Algorithmus komprimiert und die Farben bei Bedarf reduziert.
-
Dokumente mit OpenOffice vergleichen und Unterschiede in einer PDF Datei zeigen
Ein sehr interessantes PyUNO Script, welches zwei Word Dokumente mit OpenOffice gegeneinander vergleicht und die Unterschiede in einer PDF Datei markiert hat Neil Blakey-Milner in seinem Blog veröffentlicht. Dabei werden neu erzeugte Passagen farblich hervorgehoben und gelöschte Passagen durchgestrichen dargestellt. Man kann diese Funktion mit der aus Microsoft Office bekannten Dokumente vergleichen und zusammenführen vergleichen. Damit das Programm im Netz nicht verloren geht, hab ich es hier nochmal abgelegt: PyUNO compare doc