Wat zijn spiders?
Spiders of webcrawlers zijn kleine programma's die bepaalde websites doorzoeken en daar informatie uithalen. Bijna alle zoekmachines (google, yahoo) gebruiken spiders om hun zoekindex actueel te houden. Andere spiders zijn gemaakt om hele websites voor offline gebruik om te zetten. Zoals bijvoorbeeld wget. Met wget is het mogelijk om een complete website lokaal op te slaan.
Er zijn ontzettend veel bekende spiders waarvan hier onder een beperkte lijst.
- Yahoo Slurp
- Googlebot
- WISENutbot
- Google AdSense
- MSNBot
- BaiDuSpider
- AskJeeves
Voor een uitgebreidere lijst verwijs ik naar: www.robotstxt.org
Een groot nadeel van een spider is dat het nogal wat bandbreedte kost om telkens weer een hele website door te nemen. Daarvoor is er het bestand robots.txt. In dit bestand kan worden aangegeven welke bestanden niet mogen worden gedownload. Let wel dat niet elke spider het robots.txt bestand respecteerd. Soms is het nodig om een spider op een andere manier te gaan weren.
Spiders zijn opzich niet heel erg intelligent, maar het verwerken van de data waar ze mee terugkomen is soms wel heel erg intelligent. Hier ligt de kracht van een goede- en een slechte zoekmachine.
Met behulp van de programmeertaal Python is het mogelijk om op een vrij eenvoudige manier een eigen spider te maken.
Hier is een eenvoudig voorbeeld van een copyright check spider geschreven in Python:
*import urllib, string
Copyright J.P. Kloosterman 2005
Op dit werk is een Creative Commons Licentie van toepassing.