Hyperlinks aus Excel extrahieren mit Python

Hier ist ein kleines Python-Script, welches alle Hyperlinks aus Microsoft Excel Dokumenten in eine Textdatei extrahiert. Es benötigt Pywin32!

from win32com.client import Dispatch 
from sys import argv 
from sys import exit  
if len(argv)<=2:     
    print 'This tool extracts all Hyperlink addresses from Excel documents to a file..'
    print '\nUsage: xlshyperlink.exe  '     
    exit()
app = Dispatch('Excel.Application') 
app.Visible = 0 
doc = app.Workbooks.Open(argv[1], 0, False, 2) 
file = open(argv[2], 'w') 
count = 0 
for i in range (doc.Worksheets.Count):
     for worksheet in range (doc.Worksheets.Item(i+1).Hyperlinks.Count):
         link = doc.Worksheets.Item(i+1).Hyperlinks.Item(worksheet+1).Address
         file.write(link+'\n')
         print link
         count += 1 
file.close() 
print 'Written %s URLS to file %s'%(count, argv[2]) 
doc.Saved = 1 
app.Quit() 

Office2PS Python Modul

Dieses Python-Modul ist zwar noch kein eigenständiger PDF Converter. Er kann aber zur Postscript-Generierung aus Microsoft Office Dokumenten dienen und somit zur Entwicklung eigener PDF Converter genutzt werden.

Es nutzt Microsoft Office und einen installierten Postscript Druckertreiber für den Export der Postscript-Dateien aus einem vorher installierten Postscript-Druckertreiber.

Hinweis: Da Powerpoint immer nur als einzelne Instanz laufen kann wurde in der aktuellen Version eine Mutex-Funtionalität implementiert. Hierzu muss für das Programm eine eindeutige GUID auf dem System erzeugt werden. Dies geschieht einmalig, indem Sie msoffice2ps.py mit dem Argument -guid aufrufen. Dabei wird eine textdatei namens pyguid.cfg erzeugt, die beim Aufruf von msoffice2ps.py gelesen wird.

Download Office2PS als ZIP