Website-Scraping mit UserTalk
Manchmal gibt es ganz profane Gründe, warum man eine Webseite scrapen muß — und wenn es die eigene Seite ist.
So habe ich zum Beispiel einen Kunden, der seine Werbung als PHP-Script ausliefert. Aber nun gibt es ja bekanntlich auch noch andere Möglichkeiten, Webseiten auszuliefern, es müssen ja nicht unbedingt PHP-Seiten sein. Und iFrames kommen auch nicht immer in Frage. Der Schockwellenreiter besteht aus statischen Seiten, PHP ist hier nicht.
Was liegt also näher, als die entsprechende Anzeige auf eine sonst leere (unter PHP laufende) Webseite zu plazieren und diese dann mit einem Spider immer dann auszulesen, wenn die Seiten des Schockwellenreiters aktualisiert werden und die Anzeige dann im »Klartext« einzubinden. In UserTalk, Frontiers integrierter Scriptsprache, ist das ein Fünfzeiler:

Die Funktion tcp.examples.httpGet() spidert die Seite und packt den kompletten Inhalt in einen String. Da die Seite ansonsten fast leer ist , gibt es neben den notwendigen Header- und Body-Elementen nur die Tabelle, in der die Anzeige eingeschlossen ist. Mit string.patternMatch() finden wir den Anfang und das Ende unseres gewünschten HTML-Schnipsels und mit string.mid() lesen wir es aus. Wenn wir diese Funktion nun an passender Stelle in unser Template packen, dann haben wir immer dann den neuesten Anzeigen-Code, wenn wir unsere Seiten neu herausschreiben. UserTalk Rulez!
Technorati-Tags: Frontier Scraping UserTalk
Posted by Jörg Kantel | Permalink | | | Frontier
Haben wollen!
Building Scalable Websites — Building, scaling, and optimizing the next generation of web applications.
Posted by Jörg Kantel | Permalink | | | Webworking
Ich habe gelesen: Spidering Hacks
Spidering und Scraping? Ist das im Zeitalter von Web 2.0, RSS-Feeds und Webservices nicht so etwas von Web 1.0 (beta)? Braucht es dazu wirklich dieses Buch? Ich weiß nicht, ob »man« dieses Buch braucht, aber ich fand es wichtig, spannend (ja, wirklich) und informativ. Denn solange zum Beispiel das Umweltbundesamt die Daten zur Ozonbelastung und andere Luftgütedaten nicht als RSS-Feed oder Webservice herausgibt, solange besteht die Notwendigkeit, sich diese Daten durch Spidern oder Scrapen zu besorgen. Und dabei hilft dieses Buch.
Erst einmal führt es aber in die Grundlagen ein und erinnert ausführlich daran, daß wir unseren Spidern »Gutes Benehmen« beizubringen haben, wozu die Beachtung der robots.txt ebenso gehört, wie die Verpflichtung, den zu spidernden Server durch allzuhäufige Nachfragen nicht lahmzulegen. Und sauber identifizierbar sollte unser Spider ebenfalls sein. Danach geht es in medias res. Es wird eine (Perl-) Toolbox zusammengestellt, die uns das Spidern und Scrapen erleichtert. Aber auch auf andere Unix-Werkzeuge, wie z.B. wget oder lynx wird eingegangen.
Und dann wird es erst recht interessant: Es werden Beispiele vorgeführt, wie man mit einfachen Mitteln Mashups baut — und das zu einer Zeit (das Buch ist von 2003!), wo es das Wort Mashup noch gar nicht gab. Die Beispiele sind fast alle in Perl, vollständig dokumentiert und die Erklärung sind witzig geschrieben und in einem Englisch, das auch ich sicher lesen kann.
Um also auf die Eingangsfrage zurückzukommen: Ja, man braucht so ein Buch und wenn es so ein gut geschriebenes Buch ist wie Spidering Hacks, um so besser.
Und wer noch tiefer in die Grundlagen der Web-Client-Programmierung einsteigen will oder muß, dem empfehle ich das Buch Web Client Programming with Perl aus dem gleichen Verlag (das es auch als Open Book online gibt). Es ist auch schon älter, aber immer noch gut — denn am eigentlich Protokoll hat sich ja nichts geändert. Mit diesen beiden Büchern ist der Spider-Programmierer bestens gewappnet, auch wenn er in anderen Sprachen als Perl programmieren will oder muß. ![]()
Technorati-Tags: Perl Spidering Scraping WebClients
Posted by Jörg Kantel | Permalink | | | Webworking
Mambo Jazz
Der Soundtrack für den Sommer: Dizzy Gillespie und seine Band spielen Bang Bang (MP3, 3:04 min., 3,7 MB). Jetzt nur noch mit einem kühlen Sommerdrink in einer Strandbar sitzen... [aurgasm]
Posted by Jörg Kantel | Permalink | | | Musik
Nordseeträume
Auf Walcheren habe ich die meisten Sommer meiner Kindheit verbracht. Und bei der momentanen Hitzewelle wünsche ich mich da wieder hin...
Alte Landkarten: Theatri Orbis Terrarum Enchiridion. [BibliOdyssey]
Technorati-Tags: Zeeland Walcheren Landkarten
Posted by Jörg Kantel | Permalink | | | Mapping
Socialtext-Wiki nun Open Source
Ross Mayfield von Socialtext hat am Montag auf der OSCON bekanntgegeben, daß Socialtext nun als Open Source (Mozilla Public Licence 1.1) und der Download ab sofort verfügbar ist. Die in Perl geschriebene Wiki-Software basiert auf der Kwiki (
) Engine, wurde aber von Socialtext auf die Bedürfnisse in Unternehmen stark erweitert. Interessant für Unternehmen sind unter anderem die LDAP-Integration und die Möglichkeit, das Wiki auch als (versionierenden) File-Server zu nutzen. Testen! [RSS BLOGGER]
Technorati-Tags: Wiki Kwiki Socialtext Perl
Posted by Jörg Kantel | Permalink | | | CMS
Software für Mac OS X
How Does Open Source Software Stack Up on the Mac? »Apple does a great job of providing elegant software for its platform. But there are plenty of good offerings beyond the fruits of Cupertino. In this amazing survey of proprietary and open source software, Matthew Russell attempts to organize what's available on both fronts and even dares to assign grades. Has he missed anything?« Umfangreiche Übersicht, kann einen auf Tage beschäftigen. Daher erst einmal ausdrucken! [Meerkat: An Open Wire Service: O'Reilly Network]
Technorati-Tags: MacOSX Software
Posted by Jörg Kantel | Permalink | |
Mit Werbung gelinkt
Gericht untersagt Werbelinks in redaktionellen Inhalten
Das Kammergericht Berlin hat Bild.T-Online untersagt, mit einfachen Links in redaktionellen Texten auf Werbeseiten zu verweisen, bei denen der Link nicht als Werbung gekennzeichnet ist. Links, die aus einem redaktionellen Zusammenhang auf eine Werbeseite führen, müssen nach Ansicht des Gerichts so gestaltet sein, daß für Nutzer erkennbar ist, daß auf eine Werbeseite verwiesen wird. Sei dies nicht der Fall, so liege ein Verstoß gegen den Trennungsgrundsatz vor, heißt es im Urteil des Berliner Kammergerichts vom 30. Juni 2006 (AZ 5 U 127/05,
ca. 60 KB). [Golem.de]
Die Schleichwerbung bei Bild ist auch der heutige »Google des Tages«.
Technorati-Tags: Schleichwerbung
Posted by Jörg Kantel | Permalink | | | Medien
Nach Hause telephonieren - mit Skype
Skype 1.5 für MacOS X in deutscher Sprache: Mehr als 1,5 Jahre nach Erscheinen von Skype 1.0 für MacOS X machen sich die Skype-Macher daran, eine neue Version der VoIP-Software fertig zu bekommen. Eine offizielle Beta gewährt einen Blick auf die Neuerungen für die Mac-Welt. Dazu zählt Unterstützung für Skypecast, eine aufgemotzte Kontaktliste, Mac-spezifische Funktionen und die überarbeitete Bedienoberfläche gibt es in deutsch. [Golem.de]
Technorati-Tags: IP-Telephonie Skype MacOSX
Posted by Jörg Kantel | Permalink | |
»Jugendschutz bei der Handy-Nutzung«
70 Prozent der jungen Europäer zwischen 12 bis 13 Jahren besitzen ein Mobiltelefon. Und die Europäische Kommission sieht schon wieder den Untergang des Abendlandes aufdämmern. [de.internet.com]
Technorati-Tags: EU Jugendschutz Handy
Posted by Jörg Kantel | Permalink | | | Medien
Die Schlange in Leipzig
Das Ungeheuer von Loch Ness ist in diesem Jahr noch nicht wieder aufgetaucht, wohl aber die Schlange in Leipzig: Am 8. September findet in Leipzig der Workshop »Python im deutschsprachigen Raum« statt. Der Workshop ist als Ergänzung zu den internationalen und europäischen Python-Zusammenkünften gedacht. Die Themenpalette der Vorträge ist sehr weit gefaßt und soll alles einschließen, was mit Python im deutschsprachigen Raum zu tun hat. Vorträge können bis zum 31. Juli angemeldet werden. [Daily Python-URL! (from the Secret Labs)]
Posted by Jörg Kantel | Permalink | | | Python
CMS und Document Management Server
ObjectWeb bringt quelloffenen CMS-Server: Das ObjectWeb-Konsortium und eXo Platform haben einen quelloffenen Dokumenten-Manangement-Server (GPL) vorgestellt, der auf Java-Portal-Standards basiert. [Computerwoche Online]
Der Server von exo Platform ist momentan nicht zu erreichen. Auch wegen der Hitze?
Posted by Jörg Kantel | Permalink | | | CMS
Le Blog c'est moi
Ja, wo kreisen sie denn? Blogger kreisen um sich selbst. [Netzeitung.de Internet]
Posted by Jörg Kantel | Permalink | | | Medien
Auch heute: Tropical Heat Wave
Hitzeausfall bei MySpace: Die Internet Community MySpace (
) ist am Montag stundenlang nicht erreichbar gewesen. Schuld daran soll die Hitze in Kalifornien gewesen sein. [Netzeitung.de Internet]
![]()
Posted by Jörg Kantel | Permalink | |



