-
HTML zu PDF oder Postscript
Webseiten in eine PDF-Datei zu wandeln, ist technisch eine große Herausforderung. Unterschiedlicher könnten beide Dateiformate nicht sein. HTMLDOC versucht den Spagat und wandelt Webseiten und HTML-Dateien (auch kostenlos) in indiziertes HTML, PDF und Postscript. Und in die andere Richtung geht es mit pdftohtml.
-
HTML-Code von Webseiten automatisiert mit Internet Explorer speichern
Hin und wieder möchte man für den einen oder anderen Zweck den HTML-Code von Webseiten abspeichern. Sicher könnte man hierfür den Quellcode jeder einzelnen Seite mit dem Webbrowser anzeigen und den Inhalt in eine separate Datei abspeichern – oder noch einfacher im Menü "Speichern" aufrufen. Praktischer ist es aber, insbesondere für viele URLs/Webseiten, es automatisiert von Python erledigen zu lassen. Das folgende Python Script automatisiert den Microsoft Internet Explorer und holt vollautomatisch den Quellcode einer angegebenen URL: # This example need ActivePython or any other Python distribution # with the Pywin32 module from Marc Hammond from win32com.client import Dispatch from time import sleep def download_url(url): """ Note: IE internally formats…