Je website laten indexeren door zoekmachines

Als je een website hebt gebouwd en bij een provider hebt geïnstalleerd, wil je natuurlijk graag dat er veel bezoekers komen. Één van de manieren om je site bekend te maken is door deze aan te melden bij zoekmachines. Dat zijn websites die beschikken over databases met daarin gegevens over websites. Die kun je doorzoeken om sites te vinden die gaan over een door jou gekozen onderwerp.
Er bestaan duizenden zoekmachines. De -op het moment dat dit wordt geschreven- in Nederland meest geraadpleegde is Google. Andere bekende zoekmachines zijn DuckDuckGo en Bing.

Als je je website aanmeldt bij een zoekmachine wordt door die zoekmachine een bezoek gebracht aan je website. Dat wordt gedaan door een "Spider". Dat is een speciaal programma, dat de pagina's van je website doorzoekt op beschrijvingen (descriptions) en sleutelwoorden (keywords). Deze gegevens worden in de database van de zoekmachine opgenomen. Als er nu iemand is die zoekt naar een sleutelwoord dat in jouw website voorkomt, wordt de URL van jouw site als zoekresultaat getoond.
Andere namen voor een Spider zijn: "Robot", "Bot", "Webbot", "Webcrawler" en "Crawler".

Spiders kijken naar informatie in de HEAD en in de BODY.
In de HEAD gaat het op de <meta>-tags en de <title>-tag. In de BODY wordt gekeken naar de tekst zelf alsook naar de alt="..." attributen in de <img>-tags.

Het is mogelijk om spiders te beïnvloeden, zodat bepaalde keywords een grotere nadruk krijgen dan andere. Het is ook mogelijk om te bepalen welke delen van je site wél of juist níét worden bezocht. Ook kun je de tijd die ligt tussen twee opeenvolgende bezoeken van de spider beïnvloeden.

Hier vind je een beschrijving van de de mogelijkheden die er zijn om spiders van zoekmachines te beïnvloeden, zodat jouw site zo gunstig mogelijk in de zoekmachines wordt opgenomen.

Behalve de drie bovengenoemde items kun je ook een sitemap bouwen die helemaal op zoekmachines is gericht. Dergelijke sitemaps worden geschreven in XML, een taal die verwant is aan HTML. Zie XML-sitemaps voor het aansturen van zoekmachines.

Ook een 'gewone' sitemap is een goede methode om webcrawlers de weg te wijzen door je website. Noodzakelijk is dat de links allemaal zijn opgegeven als tekst-link (dus geen plaatjes) met <a>-tags. Webcrawlers hebben moeite met JavaScript.

De file robots.txt
 
De beste methode om spiders te beïnvloeden is door het gebruik van het zogenaamde "Robots Exclusion Protocol". Dit is een verzameling voorschriften voor spiders, waarin staat welke spider welk deel van de website niet mag bezoeken.

De file robots.txt zet je in dezelfde directory neer als de file index.html, waarmee je website wordt gestart. Per website is er maar één robots.txt-file. Als robots.txt niet aanwezig is gaan de meeste robots er van uit dat de hele site mag worden geïndexeerd.
Informatie over hoe je zo'n file opbouwt krijg je met de knop hieronder.

Vreemd genoeg maakt de informatie geen deel uit van de HTML-standaard of iets dergelijks. De meeste spiders weten er prima de weg mee. Door de tijd is het een de facto standaard geworden die door de meeste zoekmachines wordt gebruikt.

Tags in de <HEAD>
 
Als een spider je site bezoekt kijkt deze naar twee soorten tags die in de <HEAD> staan, te weten <title>...</title> en <meta name="..." content="...">.

Tags in de <BODY>
 
Robots kijken niet alleen naar de tags in de <HEAD>, maar nemen ook de "echte", voor de lezer bestemde tekst door. Eenvoudige woorden zoals de, als, en worden er uit gefilterd. Ook zg. Stopwoorden zoals website en internet worden er uit gehaald. Wat overblijft wordt behandeld als Keyword.

Sommige woorden kun je voor de lezer extra benadrukken door ze cursieF of vet te zetten. Dat doe je met de tags <i>...</i> respectievelijk <b>...</b>.
De nadruk die je in de tekst legt kun je ook doorgeven aan de spider die jouw website bezoekt. Daarvoor moet je andere tags gebruiken:

Op het scherm zul je geen verschil zien. Maar de spider gaat er anders mee om.

Bij het doorzoeken van de website worden ook de hyperlinks gevolgd, zij het beperkt. Zie daarvoor de opmerkingen bij de <meta>-tag robots.

Over <meta name="keywords" content="...">
 
In deze tag kun je allerhande sleutelwoorden zetten, ook sleutelwoorden die niets met de inhoud van het document van doen hebben. Dat gebeurt vaak door sites die andere inhoud hebben dan de keywords suggereren. Het is verwarrend voor webcrawlers omdat die niet meer eenduidig kunnen bepalen in welke categorie(ën) een document thuishoort.

Het doelbewust gebruiken van onjuiste keywords heeft zelfs een eigen naam gekregen: Zoekmachinespam. Je kunt <meta name="keywords" content="..."> beter niet gebruiken als je niet zeker weet wat je doet. Te veel, overdadige, overbodige keywords beïnvloeden de indexering negatief. Van de zoekmachine Bing (van Microsoft), maar ook van andere grote zoekmachines, wordt vermoed dat verkeerd gebruikte keywords leiden tot een lagere plaats in de zoekresultaten.

Pas op met SEO aanbieders
 
Webmasters van (meestal zakelijke) websites worden regelmatig benaderd door bedrijven die aan SEO doen. Meestal beloven ze een hoge notering in zoekmachine-resultaten binnen zeer korte tijd.
Het belangrijkste is dat de spiders de HTML-documenten met nuttige informatie weten te vinden. Een goede sitemap met daarin alleen tekst-links werkt hier goed bij. Verder zorg je dat HTML-documenten die alleen besturing bevatten (bijvoorbeeld menu's en framesets) van de zoekacties worden uitgesloten. Dit, in combinatie met de juiste beschrijvingen en keywords, zorgt ervoor dat je site vanzelf hoger in de resultaten komt te staan. Daar heb je geen duur SEO-bedrijf voor nodig. Het kost alleen tijd en moeite om het te bereiken.

SEO is geen activiteit die je één keer doet. Integendeel, je moet het goed bijhouden!

Sommige aanbieders van SEO zijn ronduit onbetrouwbaar. Voor een snel resultaat wordt soms zoekmachinespam gebruikt. Websites die door zo'n malafide bedrijf zijn "verbeterd" vallen, na verloop van weinig tijd, zonder uitzondering weer terug in de resultaten. Aan het eind is het dan slechter dan het ooit was...

 
terug

html-101; Laatste wijziging: 7 mei 2020