Je website laten indexeren door zoekmachines
Als je een website hebt gebouwd en bij een provider hebt geïnstalleerd, wil je natuurlijk graag dat
er veel bezoekers komen. Één van de manieren om je site bekend te maken is door deze aan te melden
bij zoekmachines. Dat zijn websites die beschikken over databases met daarin gegevens over websites. Die kun
je doorzoeken om sites te vinden die gaan over een door jou gekozen onderwerp.
Er bestaan duizenden zoekmachines. De -op het moment dat dit wordt geschreven- in Nederland meest geraadpleegde
is Google. Andere bekende zoekmachines zijn DuckDuckGo en Bing.
Als je je website aanmeldt bij een zoekmachine wordt door die zoekmachine een bezoek gebracht aan je website.
Dat wordt gedaan door een "Spider". Dat is een speciaal programma, dat de pagina's van je website
doorzoekt op beschrijvingen (descriptions) en sleutelwoorden (keywords). Deze gegevens worden in de
database van de zoekmachine opgenomen. Als er nu iemand is die zoekt naar een sleutelwoord dat in jouw website voorkomt,
wordt de URL van jouw site als zoekresultaat getoond.
Andere namen voor een Spider zijn: "Robot", "Bot", "Webbot",
"Webcrawler" en "Crawler".
Spiders kijken naar informatie in de HEAD en in de BODY.
In de HEAD gaat het op de <meta>-tags en de <title>-tag. In de BODY wordt gekeken naar de
tekst zelf alsook naar de alt="..." attributen in de <img>-tags.
Het is mogelijk om spiders te beïnvloeden, zodat bepaalde keywords een grotere nadruk krijgen dan andere. Het is ook mogelijk om te bepalen welke delen van je site wél of juist níét worden bezocht. Ook kun je de tijd die ligt tussen twee opeenvolgende bezoeken van de spider beïnvloeden.
Hier vind je een beschrijving van de de mogelijkheden die er zijn om spiders van zoekmachines te beïnvloeden, zodat jouw site zo gunstig mogelijk in de zoekmachines wordt opgenomen.
- Er worden drie items besproken:
- De file robots.txt
- Tags in de <HEAD>
- Tags in de <BODY>
Behalve de drie bovengenoemde items kun je ook een sitemap bouwen die helemaal op zoekmachines is gericht. Dergelijke sitemaps worden geschreven in XML, een taal die verwant is aan HTML. Zie XML-sitemaps voor het aansturen van zoekmachines.
Ook een 'gewone' sitemap is een goede methode om webcrawlers de weg te wijzen door je website. Noodzakelijk is dat de links allemaal zijn opgegeven als tekst-link (dus geen plaatjes) met <a>-tags. Webcrawlers hebben moeite met JavaScript.
De file robots.txt
De beste methode om spiders te beïnvloeden is door het gebruik van het zogenaamde "Robots Exclusion
Protocol". Dit is een verzameling voorschriften voor spiders, waarin staat welke spider welk deel van de
website niet mag bezoeken.
De file robots.txt zet je in dezelfde directory neer als de file index.html, waarmee je website
wordt gestart. Per website is er maar één robots.txt-file. Als robots.txt niet aanwezig is
gaan de meeste robots er van uit dat de hele site mag worden geïndexeerd.
Informatie over hoe je zo'n file opbouwt krijg je met de knop hieronder.
Vreemd genoeg maakt de informatie geen deel uit van de HTML-standaard of iets dergelijks. De meeste spiders weten er prima de weg mee. Door de tijd is het een de facto standaard geworden die door de meeste zoekmachines wordt gebruikt.
Tags in de <HEAD>
Als een spider je site bezoekt kijkt deze naar twee soorten tags die in de <HEAD> staan, te weten
<title>...</title> en <meta name="..."
content="...">.
- De inhoud van <title>...</title> is te zien in de bovenbalk van het browser-window. Als je pagina
in een frame wordt geladen (zoals dat bij deze site meestal het geval zal zijn) zie je in de bovenbalk de
<title> van de HTML-code die de frames en de framesets bevat.
Opmerking: De inhoud van de <title>-tag kun je veranderen met behulp van JavaScript. Hoe dat moet kun je lezen in het item "De tekst van de titelbalk veranderen". Voor indexering heeft dat echter geen zin. Er wordt door de robots alleen naar de <title>-tag in <HEAD> gekeken en niet naar wat het eventueel ook nog meer zou kunnen zijn.
- De inhoud van de <meta>-tags wordt niet aan de bezoekers getoond. In het onderstaande vind je
een overzicht van de beschikbare tags. Dit is geen volledige opsomming van de bestaande <meta>-tags.
Alleen tags waarmee je robots kunt beïnvloeden worden hier genoemd.
name="..." content="..." description Beschrijving van de inhoud van je site. Maak deze niet al te lang maar wel zo duidelijk mogelijk.
De tag mag zich over meerdere regels code uitstrekken.keywords Sleutelwoorden, waarop je site wordt geïndexeerd. Geeft zoveel mogelijk sleutelwoorden op, gescheiden door komma's. Merk op dat er verschil wordt gemaakt tussen enkel- en meervoud. Dus het keyword "Sleutel" is wat anders dan "Sleutels."
De tag mag zich over meerdere regels code uitstrekken.
Zie ook de opmerking onderaan deze pagina.rating Algemene aanduiding voor je website. Hiermee kun je de indeling van je site in rubrieken sturen. De aanduiding General wordt het meest gebruikt. Deze tag is op deze site niet toegepast.classification Algemene aanduiding voor je website. Hiermee kun je de indeling van je site in rubrieken sturen. Deze site heeft de classification Internet.language Aanduiding voor de taal waarin je site is geschreven. Voor Nederlands gebuik je NL.author Naam van de schrijver en/of webmaster van de site. Je kunt meerdere namen opgeven, gescheiden door komma's.
Bekende variant: name="Web_author".generator Naam van het programma waarmee de website is gemaakt, bijvoorbeeld "Microsoft Frontpage 4.0".revisit-after Tijd die de robot moet wachten tot een volgend bezoek. Dit is handig voor sites die heel vaak sterk veranderen, zoals Nieuwsberichten. Deze tag is op deze site niet toegepast.robots Hier geef je aan of een pagina geïndexeerd moet worden en of de links op de pagina moeten worden gevolgd. Voorbeelden:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
De werking spreekt eigenlijk voor zichzelf. In plaats van "index,follow" kun je ook "ALL" gebruiken. In plaats van "noindex,nofollow" kun je ook "NONE" gebruiken.
Met deze tag kun je verfijningen aanbrengen in de reactie van de spider op de gegevens in de file robots.txt. Deze tag wordt echter niet door alle bestaande spiders ondersteund. Er zijn (helaas) ook spiders die robots.txt en <meta name="robots" content="....> domweg negeren en alles indexeren wat ze kunnen vinden.
Merk op dat onder het volgen van links wordt verstaan: links die zijn gemaakt met behulp van <A href="...">....</A>. Links die worden gemaakt met behulp van JavaScript-opdracht document.location='...' worden niet gevolgd. Ook <A>-tags die zijn geschreven met behulp van document.write worden niet gevolgd! Dit geldt ook voor links die bij het openen van de pagina zijn verborgen met style="visibility:hidden" en style="display:none".
Bekende variant: name="GoogleBot", speciaal voor de spider van de zoekmachine Google. De werking van deze tag is -behalve de naam- gelijk aan name="robots". Zie ook het item Pagina's buiten de zoekmachine-cache houden. Er zijn er -naast Googlebot- nog veel meer!
Een andere manier om een zoekmachine te beïnvloeden is:
<meta name="robots" content="noarchive">
Zoekmachines slaan een kopie van de webpagina op in een cache, een soort archief. De zoekmachine kan daarmee de pagina toch (min of meer) laten zien als de 'normale' versie niet (meer) beschikbaar is. Je kunt het opslaan van een pagina in de cache tegenhouden door content="noarchive" te gebruiken.
Door een meta-tag met content="noarchive" in een pagina te zetten verwijder je ook reeds bestaande kopieën van die pagina uit de cache.
Er zijn boze tongen die beweren dat dit ongunstig is voor de indexering van je website als geheel. Dat is dan weer slecht voor de vindbaarheid van die pagina of zelfs je hele website. Ik betwijfel of dat waar is. Ik raad wel aan deze tag alleen te gebruiken als het echt nodig is. - Het is zaak om de meta-tags zo goed mogelijk te kiezen. Zonodig moet je na verloop van tijd kijken of
de zoekwoorden waarmee je site wordt gevonden overeenstemmen met de meta-tags. Als dat niet zo is kun
je ze aanpassen. Dat zal er toe leiden dat je site hoger in de zoekresultaten verschijnt. Diensten als
Google Analytics kunnen hier goede diensten
bewijzen.
Het verbeteren van de positie in de zoekresultaten heet Zoekmachine Optimalisatie of SEO (wat staat voor Search Engine Optimization).
Tags in de <BODY>
Robots kijken niet alleen naar de tags in de <HEAD>, maar nemen ook de "echte", voor de lezer
bestemde tekst door. Eenvoudige woorden zoals de, als, en worden er uit gefilterd.
Ook zg. Stopwoorden zoals website en internet worden er uit gehaald. Wat overblijft wordt
behandeld als Keyword.
Sommige woorden kun je voor de lezer extra benadrukken door ze cursieF of vet te zetten. Dat
doe je met de tags <i>...</i> respectievelijk <b>...</b>.
De nadruk die je in de tekst legt kun je ook doorgeven aan de spider die jouw website bezoekt. Daarvoor moet
je andere tags gebruiken:
- Vervang <i>...</i> door <em>...</em>.
"em" staat voor "emphasize", dat betekent "benadrukken". - Vervang <b>...</b> door <strong>...</strong>.
"strong" staat voor "sterk", in de zin van "dit is belangrijk".
Bij het doorzoeken van de website worden ook de hyperlinks gevolgd, zij het beperkt. Zie daarvoor de opmerkingen bij de <meta>-tag robots.
Over <meta name="keywords" content="...">
In deze tag kun je allerhande sleutelwoorden zetten, ook sleutelwoorden die niets met de inhoud van het document
van doen hebben. Dat gebeurt vaak door sites die andere inhoud hebben dan de keywords suggereren. Het is verwarrend
voor webcrawlers omdat die niet meer eenduidig kunnen bepalen in welke categorie(ën) een document thuishoort.
Het doelbewust gebruiken van onjuiste keywords heeft zelfs een eigen naam gekregen: Zoekmachinespam. Je kunt <meta name="keywords" content="..."> beter niet gebruiken als je niet zeker weet wat je doet. Te veel, overdadige, overbodige keywords beïnvloeden de indexering negatief. Van de zoekmachine Bing (van Microsoft), maar ook van andere grote zoekmachines, wordt vermoed dat verkeerd gebruikte keywords leiden tot een lagere plaats in de zoekresultaten.
Pas op met SEO aanbieders
Webmasters van (meestal zakelijke) websites worden regelmatig benaderd door bedrijven die aan SEO doen. Meestal
beloven ze een hoge notering in zoekmachine-resultaten binnen zeer korte tijd.
Het belangrijkste is dat de spiders de HTML-documenten met nuttige informatie weten te vinden. Een goede sitemap met
daarin alleen tekst-links werkt hier goed bij. Verder zorg je dat HTML-documenten die alleen besturing bevatten
(bijvoorbeeld menu's en framesets) van de zoekacties worden uitgesloten. Dit, in combinatie met de juiste beschrijvingen
en keywords, zorgt ervoor dat je site vanzelf hoger in de resultaten komt te staan. Daar heb je geen duur
SEO-bedrijf voor nodig. Het kost alleen tijd en moeite om het te bereiken.
SEO is geen activiteit die je één keer doet. Integendeel, je moet het goed bijhouden!
Sommige aanbieders van SEO zijn ronduit onbetrouwbaar. Voor een snel resultaat wordt soms zoekmachinespam gebruikt. Websites die door zo'n malafide bedrijf zijn "verbeterd" vallen, na verloop van weinig tijd, zonder uitzondering weer terug in de resultaten. Aan het eind is het dan slechter dan het ooit was...