Wat zijn spiders?

Spiders of webcrawlers zijn kleine programma's die bepaalde websites doorzoeken en daar informatie uithalen. Bijna alle zoekmachines (google, yahoo) gebruiken spiders om hun zoekindex actueel te houden. Andere spiders zijn gemaakt om hele websites voor offline gebruik om te zetten. Zoals bijvoorbeeld wget. Met wget is het mogelijk om een complete website lokaal op te slaan.

Er zijn ontzettend veel bekende spiders waarvan hier onder een beperkte lijst.

  1. Yahoo Slurp
  2. Googlebot
  3. WISENutbot
  4. Google AdSense
  5. MSNBot
  6. BaiDuSpider
  7. AskJeeves

Voor een uitgebreidere lijst verwijs ik naar: www.robotstxt.org

Een groot nadeel van een spider is dat het nogal wat bandbreedte kost om telkens weer een hele website door te nemen. Daarvoor is er het bestand robots.txt. In dit bestand kan worden aangegeven welke bestanden niet mogen worden gedownload. Let wel dat niet elke spider het robots.txt bestand respecteerd. Soms is het nodig om een spider op een andere manier te gaan weren.

Spiders zijn opzich niet heel erg intelligent, maar het verwerken van de data waar ze mee terugkomen is soms wel heel erg intelligent. Hier ligt de kracht van een goede- en een slechte zoekmachine.

Met behulp van de programmeertaal Python is het mogelijk om op een vrij eenvoudige manier een eigen spider te maken.

Hier is een eenvoudig voorbeeld van een copyright check spider geschreven in Python:

*import urllib, string

#copyright J.P. Kloosterman #6 november 2005

#Stel de pagina in.

pagina = urllib.urlopen("").read()

#Kijk of een pagina een copyright mededeling heeft.

if string.find(pagina,"Copyright")>-1:
print "Deze pagina heeft een copyright mededeling."
else:
print "Geen copyright mededeling op deze pagina."*

Er zijn spiders die erg handig zijn, zoals bijvoorbeeld mygale. Deze spider stelt u instaat het internet naar artikelen over de programmeertaal Python af te struinen.

Wanneer u een website heeft is het misschien handig om een spider te maken die elke bezoeker een tegenbezoek doet. Indien er bruikbare informatie is, dan wordt dat aan u doorgegeven. Dit scheelt u weer om de hele webserver log door te nemen.


Copyright J.P. Kloosterman 2005
Creative Commons License
Op dit werk is een Creative Commons Licentie van toepassing.