Hoe werkt een zoekmachine zoals Google?

We gebruiken dagelijks zoekmachines om informatie op te zoeken. Maar voor de meeste mensen is de werking van zoekmachines een mysterie. Dit artikel licht een tipje van de sluier. 

De werking van Google stap-voor-stap

Zoekmachines combineren drie functies:

  1. Alle webcontent in kaart brengen
  2. Deze informatie indexeren
  3. De info rangschikken o.b.v. een zoekopdracht

Laten we elke functie eens van dichtbij bekijken….

Stap 1: webcontent in kaart brengen

Het internet bestaat uit miljarden pagina’s. Google en andere zoekmachines proberen die in kaart te brengen via een proces dat we ‘crawling‘ noemen.

Dit proces is eigenlijk vrij simpel. Een webcrawler – ook wel spider genoemd – bezoekt een pagina en verzamelt alle links. Dat kunnen zowel interne als externe links zijn. Denk bijvoorbeeld aan de startpagina van een wijnhandel met links naar de contactpagina en webshop, maar ook links naar leveranciers. 

De crawler ontdekt die links, volgt ze en herhaalt het proces. 

Dit onderstreept trouwens het belang van links. Heb je een niet-gelinkte pagina gepubliceerd, dan kunnen crawlers die ook niet terugvinden. PS: er zijn manieren om die pagina toch te laten crawlen, maar daar gaan we nu niet dieper op in.

Stap 2: informatie indexeren

De volgende stap bestaat uit het analyseren en indexeren van alle informatie op de pagina’s die de webcrawlers verzamelden. 

Zoekmachines kijken bijvoorbeeld naar de tekst op een pagina, de titel, afbeeldingen, meta data… en slaan die info op in een gigantische database. Om je een idee te geven; de zoekindex van Google is meer dan 100.000 TB groot.

Leuk om te weten; een van Google’s datacenters ligt in België, namelijk in het Waalse stadje St. Ghislain.

Stap 3: resultaten ophalen en rangschikking

Van zodra iemand in Google een term intypt, verzamelt de zoekmachines alle pagina’s uit de zoekindex die hierbij passen. 

Een vereenvoudigd voorbeeld; stel dat iemand zoekt naar “Katy Perry”. Dan wordt deze zoekopdracht in aparte woorden opgesplitst, namelijk “Katy” en “Perry”. Google kijkt in haar database op welke pagina’s beide woorden terugkomen. Een pagina over Matthew Perry van Friends zou dus niet in aanmerking komen omdat “Katy” ontbreekt. 

Voor de meeste zoekopdrachten zijn er duizenden of zelfs miljoenen resultaten. Het is onbegonnen werk om die allemaal aan de gebruiker te tonen. Daarom gaat Google ze rangschikken volgens relevantie

Deze rangschikking gebeurt aan de hand van een complex algoritme. Dit algoritme houdt rekening met honderden factoren, waaronder:

Uiteindelijk krijgt elk resultaat een score. De pagina met de hoogste score staat bovenaan in Google. De rest van de pagina wordt aflopend ingevuld. 

Surface web, deep web en dark web

Tot zover een korte uitleg over de werking van zoekmachines.

Belangrijk om te weten is dat het internet veel groter is dan wat je terugvindt in Google. Google indexeert enkel het surface web. Daarnaast zijn er nog het deep web en het dark web.

  1. Surface web: alle pagina’s die we als gebruiker gewoon kunnen bezoeken, zoals bol.com, standaard.be, fuseo.be, reddit.com, enz. 
  2. Deep web: pagina’s die zoekmachines niet kunnen bereiken (meestal beschermd met een wachtwoord), zoals medische gegevens, financiële data, overheidsrapporten, enz.
  3. Dark web: websites waarvoor je speciale software nodig hebt, zoals het Tor netwerk.

Weetjes over de werking van zoekmachines

Wat je zeker moet weten over de werking van Google en andere zoekmachines: