Mustafa Görmezer

  • Schrift vergrößern
  • Standard-Schriftgröße
  • Schriftgröße verkleinern
Home Web-Programmierung Inhalte aus Webseiten speichern per Web Scraping

Inhalte aus Webseiten speichern per Web Scraping

E-Mail Drucken PDF
Die interessantesten Daten schlummern immer noch im Internet auf Webservern und sind leider nur sehr sehr schwer automatisiert zugänglich oder verarbeitbar. Man denke nur an all die 1 Euro Schätze auf Ebay, die gerade ungehoben zu ende gehen...

Dieser Frage sind zwei Tutorials auf http://sig.levillage.org/ gewidmet. Diese demonstrieren, wie die Thematik Web Scraping mit Python umgesetzt werden kann. Das detailliert beschriebene Beispiel recherchiert auf dvspot.com nach bestimmten DV Kameras und "pumpt" die technischen Daten in eine von Excel lesbare CSV Datei.

Zuletzt aktualisiert am Donnerstag, 31. März 2011  

Schnipsel

Metadaten und URLs extrahieren mit PDFx

PDFx ermöglicht es, Metadaten und URLs aus PDF-Dokumenten zu extrahieren. Es ist ein Python-Programm für die Kommandozeile und kann auch als Python-Modul aus anderen Anwendungen heraus verwendet werden. Das Programm wurde unter der Apache Lizenz veröffentlicht.

 
Excel-Dateien lesen mit Python

Microsoft Excel Dateien lassen sich mit der Python Bibliothek XLRD Plattformunabhängig lesen und schreiben. Dieser Artikel von Mike Driscoll zeigt ein BEispiel, wie man es ohne Office-Installation macht.

Anzeigen

 

Statistik

Seitenaufrufe : 7829975

Wer ist online

Wir haben 230 Gäste online