space picture
That's me, folks

Werbung

Test und Preisvergleich
Preisvergleich und Testberichte zu Notebooks, Handys Digitalkameras
sowie MP3 Player.



quality content
Einkaufen - Autobilder odge - Stadt Blogs Fun



Werbebanner

Kredit online finden - durch Vergleich! CLH Webartikel sind online - cherche la Catalogue Regional pour la france -unser Klassiker prolinks online Ferienhäuser buchen für den Urlaub Ferienhaus nächsten Sommer

Kostenloser Pressedienst
Branchenbuch
Plastikkarten

Linkpopularität
Vermiculite shop
Türkei Reisen
FreeSMS - Hotels
Usenet Hilfe

space picture space picture

Daily Link Icon Mittwoch, den 26. Juli 2006
Website-Scraping mit UserTalk

Manchmal gibt es ganz profane Gründe, warum man eine Webseite scrapen muß — und wenn es die eigene Seite ist. Grins So habe ich zum Beispiel einen Kunden, der seine Werbung als PHP-Script ausliefert. Aber nun gibt es ja bekanntlich auch noch andere Möglichkeiten, Webseiten auszuliefern, es müssen ja nicht unbedingt PHP-Seiten sein. Und iFrames kommen auch nicht immer in Frage. Der Schockwellenreiter besteht aus statischen Seiten, PHP ist hier nicht.

Was liegt also näher, als die entsprechende Anzeige auf eine sonst leere (unter PHP laufende) Webseite zu plazieren und diese dann mit einem Spider immer dann auszulesen, wenn die Seiten des Schockwellenreiters aktualisiert werden und die Anzeige dann im »Klartext« einzubinden. In UserTalk, Frontiers integrierter Scriptsprache, ist das ein Fünfzeiler:

A picture named scrapeBanner.png

Die Funktion tcp.examples.httpGet() spidert die Seite und packt den kompletten Inhalt in einen String. Da die Seite ansonsten fast leer ist , gibt es neben den notwendigen Header- und Body-Elementen nur die Tabelle, in der die Anzeige eingeschlossen ist. Mit string.patternMatch() finden wir den Anfang und das Ende unseres gewünschten HTML-Schnipsels und mit string.mid() lesen wir es aus. Wenn wir diese Funktion nun an passender Stelle in unser Template packen, dann haben wir immer dann den neuesten Anzeigen-Code, wenn wir unsere Seiten neu herausschreiben. UserTalk Rulez!

Technorati-Tags:

Posted by Jörg Kantel | Permalink | | | Frontier

Haben wollen!

Book Cover Building Scalable Websites — Building, scaling, and optimizing the next generation of web applications.

Posted by Jörg Kantel | Permalink | | | Webworking

Ich habe gelesen: Spidering Hacks

Book Cover Spidering und Scraping? Ist das im Zeitalter von Web 2.0, RSS-Feeds und Webservices nicht so etwas von Web 1.0 (beta)? Braucht es dazu wirklich dieses Buch? Ich weiß nicht, ob »man« dieses Buch braucht, aber ich fand es wichtig, spannend (ja, wirklich) und informativ. Denn solange zum Beispiel das Umweltbundesamt die Daten zur Ozonbelastung und andere Luftgütedaten nicht als RSS-Feed oder Webservice herausgibt, solange besteht die Notwendigkeit, sich diese Daten durch Spidern oder Scrapen zu besorgen. Und dabei hilft dieses Buch.

Erst einmal führt es aber in die Grundlagen ein und erinnert ausführlich daran, daß wir unseren Spidern »Gutes Benehmen« beizubringen haben, wozu die Beachtung der robots.txt ebenso gehört, wie die Verpflichtung, den zu spidernden Server durch allzuhäufige Nachfragen nicht lahmzulegen. Und sauber identifizierbar sollte unser Spider ebenfalls sein. Danach geht es in medias res. Es wird eine (Perl-) Toolbox zusammengestellt, die uns das Spidern und Scrapen erleichtert. Aber auch auf andere Unix-Werkzeuge, wie z.B. wget oder lynx wird eingegangen.

Und dann wird es erst recht interessant: Es werden Beispiele vorgeführt, wie man mit einfachen Mitteln Mashups baut — und das zu einer Zeit (das Buch ist von 2003!), wo es das Wort Mashup noch gar nicht gab. Die Beispiele sind fast alle in Perl, vollständig dokumentiert und die Erklärung sind witzig geschrieben und in einem Englisch, das auch ich sicher lesen kann.

Book Cover Um also auf die Eingangsfrage zurückzukommen: Ja, man braucht so ein Buch und wenn es so ein gut geschriebenes Buch ist wie Spidering Hacks, um so besser.

Und wer noch tiefer in die Grundlagen der Web-Client-Programmierung einsteigen will oder muß, dem empfehle ich das Buch Web Client Programming with Perl aus dem gleichen Verlag (das es auch als Open Book online gibt). Es ist auch schon älter, aber immer noch gut — denn am eigentlich Protokoll hat sich ja nichts geändert. Mit diesen beiden Büchern ist der Spider-Programmierer bestens gewappnet, auch wenn er in anderen Sprachen als Perl programmieren will oder muß. Grins

Technorati-Tags:

Posted by Jörg Kantel | Permalink | | | Webworking

Mambo Jazz

Der Soundtrack für den Sommer: Dizzy Gillespie und seine Band spielen Bang Bang (MP3, 3:04 min., 3,7 MB). Jetzt nur noch mit einem kühlen Sommerdrink in einer Strandbar sitzen... [aurgasm]

Posted by Jörg Kantel | Permalink | | |

Nordseeträume

Auf Walcheren habe ich die meisten Sommer meiner Kindheit verbracht. Und bei der momentanen Hitzewelle wünsche ich mich da wieder hin...

A picture named zelandia.jpg

Alte Landkarten: Theatri Orbis Terrarum Enchiridion. [BibliOdyssey]

Technorati-Tags:

Posted by Jörg Kantel | Permalink | | | Mapping

Socialtext-Wiki nun Open Source

Notizzettel Ross Mayfield von Socialtext hat am Montag auf der OSCON bekanntgegeben, daß Socialtext nun als Open Source (Mozilla Public Licence 1.1) und der Download ab sofort verfügbar ist. Die in Perl geschriebene Wiki-Software basiert auf der Kwiki (Icon Icon Icon) Engine, wurde aber von Socialtext auf die Bedürfnisse in Unternehmen stark erweitert. Interessant für Unternehmen sind unter anderem die LDAP-Integration und die Möglichkeit, das Wiki auch als (versionierenden) File-Server zu nutzen. Testen! [RSS BLOGGER]

Technorati-Tags:

Posted by Jörg Kantel | Permalink | | |

Software für Mac OS X

How Does Open Source Software Stack Up on the Mac? »Apple does a great job of providing elegant software for its platform. But there are plenty of good offerings beyond the fruits of Cupertino. In this amazing survey of proprietary and open source software, Matthew Russell attempts to organize what's available on both fronts and even dares to assign grades. Has he missed anything?« Umfangreiche Übersicht, kann einen auf Tage beschäftigen. Daher erst einmal ausdrucken! [Meerkat: An Open Wire Service: O'Reilly Network]

Technorati-Tags:

Posted by Jörg Kantel | Permalink | |

Mit Werbung gelinkt

Gericht untersagt Werbelinks in redaktionellen Inhalten
Das Kammergericht Berlin hat Bild.T-Online untersagt, mit einfachen Links in redaktionellen Texten auf Werbeseiten zu verweisen, bei denen der Link nicht als Werbung gekennzeichnet ist. Links, die aus einem redaktionellen Zusammenhang auf eine Werbeseite führen, müssen nach Ansicht des Gerichts so gestaltet sein, daß für Nutzer erkennbar ist, daß auf eine Werbeseite verwiesen wird. Sei dies nicht der Fall, so liege ein Verstoß gegen den Trennungsgrundsatz vor, heißt es im Urteil des Berliner Kammergerichts vom 30. Juni 2006 (AZ 5 U 127/05, PDF Icon ca. 60 KB). [Golem.de]

Die Schleichwerbung bei Bild ist auch der heutige »Google des Tages«.

Technorati-Tags:

Posted by Jörg Kantel | Permalink | | |

Nach Hause telephonieren - mit Skype

Skype 1.5 für MacOS X in deutscher Sprache: Mehr als 1,5 Jahre nach Erscheinen von Skype 1.0 für MacOS X machen sich die Skype-Macher daran, eine neue Version der VoIP-Software fertig zu bekommen. Eine offizielle Beta gewährt einen Blick auf die Neuerungen für die Mac-Welt. Dazu zählt Unterstützung für Skypecast, eine aufgemotzte Kontaktliste, Mac-spezifische Funktionen und die überarbeitete Bedienoberfläche gibt es in deutsch. [Golem.de]

Technorati-Tags:

Posted by Jörg Kantel | Permalink | |

»Jugendschutz bei der Handy-Nutzung«

70 Prozent der jungen Europäer zwischen 12 bis 13 Jahren besitzen ein Mobiltelefon. Und die Europäische Kommission sieht schon wieder den Untergang des Abendlandes aufdämmern. [de.internet.com]

Technorati-Tags:

Posted by Jörg Kantel | Permalink | | |

Die Schlange in Leipzig

Python Icon, Photo: Gabriele Kantel Das Ungeheuer von Loch Ness ist in diesem Jahr noch nicht wieder aufgetaucht, wohl aber die Schlange in Leipzig: Am 8. September findet in Leipzig der Workshop »Python im deutschsprachigen Raum« statt. Der Workshop ist als Ergänzung zu den internationalen und europäischen Python-Zusammenkünften gedacht. Die Themenpalette der Vorträge ist sehr weit gefaßt und soll alles einschließen, was mit Python im deutschsprachigen Raum zu tun hat. Vorträge können bis zum 31. Juli angemeldet werden. [Daily Python-URL! (from the Secret Labs)]

Posted by Jörg Kantel | Permalink | | | Python

CMS und Document Management Server

ObjectWeb bringt quelloffenen CMS-Server: Das ObjectWeb-Konsortium und eXo Platform haben einen quelloffenen Dokumenten-Manangement-Server (GPL) vorgestellt, der auf Java-Portal-Standards basiert. [Computerwoche Online]

Der Server von exo Platform ist momentan nicht zu erreichen. Auch wegen der Hitze?

Posted by Jörg Kantel | Permalink | | |

Le Blog c'est moi

Ja, wo kreisen sie denn? Blogger kreisen um sich selbst. [Netzeitung.de Internet]

Posted by Jörg Kantel | Permalink | | |

Auch heute: Tropical Heat Wave

Hitzeausfall bei MySpace: Die Internet Community MySpace (Icon Icon Icon) ist am Montag stundenlang nicht erreichbar gewesen. Schuld daran soll die Hitze in Kalifornien gewesen sein. [Netzeitung.de Internet]

Sonne

Posted by Jörg Kantel | Permalink | |

space picture space picture space picture space picture

Werbung
Monatskalender
Juli 2006
So
Mo
Di
Mi
Do
Fr
Sa
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 
Interne Links
Archiv
Kategorien