Pagina's buiten de zoekmachine-cache houden
In het artikel Je website laten indexeren door zoekmachines
wordt het een en ander gezegd over hoe je je website 'goed' in de zoekmachines krijgt, of de zoekmachines juist uit je
website weg houdt. Het gaat daar speciaal om het besturen van de software die de zoekmachine-indexen voorzien van data,
de zgn. "crawlers", "spiders", "webbots" of gewoon "bots".
Dit verhaal geeft daar een aanvulling op, namelijk hoe je voorkomt dat zoekmachines pagina's die niet meer bestaan toch
blijft tonen in de zoekresultaten.
Veel, zo niet alle, zoekmachines hebben een archief. Vaak wordt dat geraadpleegd als er weinig relevante resultaten te vinden zijn in de 'actutele' database. Bij de zoekresultaten staat dan een melding in de geest van [in cache]. Je kunt dit o.a. tegenkomen bij Google. Als je een dergelijke link volgt kan het zomaar gebeuren dat de gezochte pagina onvindbaar is, omdat die niet meer bestaat.
Wanner wel en wanneer niet archiveren?
Archivering is een activiteit van de zoekmachines. In principe wordt alles gearchiveerd, daar hoef je niets voor te doen.
Er is ook niets op tegen om je site in de zoekmachine caches te laten opnemen. Alleen als je niet wilt dat
je site in de cache wordt gezet moet je wat doen.
Archiveren is goed voor vluchtige informatie die wel langere tijd beschikbaar blijft, zoals nieuwsberichten, sportuitslagen,
enzovoort. Er bestaat ook informatie die snel weg moet zijn als je een pagina verwijdert. Stel: je hebt een (web-)winkel.
Als je de prijzen verlaagt vanwege de uitverkoop, moet dat tijdelijk goed vindbaar zijn, maar daarna niet meer. Anders wordt
dat verwarrend voor je klanten.
Voorkomen is beter dan genezen
Als je wilt voorkomen dat een pagina in de archieven van zoekmachines terecht komt, moet je jezelf afvragen of die pagina
ook 'gewoon' moet worden geïndexeerd. Je zult er meestal op uit komen dat een pagina wel of juist niet
gevonden mag/moet worden met een zoekmachine. Dan zul je, óf de webbots nadrukkelijk moeten uitnodigen om de pagina
te indexeren, óf de webbots helemaal buiten de deur moeten houden. Zie daarvoor
Je website laten indexeren door zoekmachines.
Werkwijze
Je kunt aan de spider kenbaar maken dat de pagina niet in het archief mag worden opgenomen met de meta-tag:
<meta name="robots" name="noarchive">
Als je name="robots" gebruikt, geldt dit in principe voor de crawlers van alle zoekmachines. Als je wilt dat dit alleen moet gelden voor één bepaalde zoekmachine, moet je die bij naam noemen, bijvoorbeeld:
Zoekmachine | name="..." | |
Googlebot | ||
Yahoo | Slurp (maakt tegenwoordig gebruik van Bingbot) | |
Bing | Bingbot (opvolger van MSNbot) | |
Baidu | Baiduspider | |
Xenu (div. overheden om (belasting-)fraude op te sporen) |
Een andere methode om een pagina buiten de archieven te houden is door het maken van snippets te voorkomen. Een snippet het stukje tekst wat in de resultatenlijst van een zoekactie verschijnt. Zonder de snippet kan een zoekmachine de pagina niet of nauwelijks terugvinden in de database. De META-tag luidt:
<meta name="robots" name="nosnippet">
Als je nosnippet gebruikt zal dat bij Google tot gevolg hebben dat de pagina uit de cache wordt verwijderd.
Let wel, de pagina blijft wel vindbaar op de 'normale' manier.
Veel andere, zo niet alle, zoekmachines werken ook op deze manier.
Een pagina die al in de cache zit verwijderen
Het is mogelijk om een pagina die in de cache zit daaruit te (laten) verwijderen, gesteld dat de pagina nog bestaat. Zet
gewoon een noarchive- of nosnippet-meta-tag in je code. Na verloop van tijd (reken op minstens een
maand) zal de pagina vanzelf uit de cache verdwijnen doordat de crawlers op de meta-tag reageren.
Als een pagina is verwijderd kan die na verloop van tijd ook uit de cache verdwijnen (om voor mij onduidelijke reden). Meestal blijft een verdwenen pagina wel in de cache achter.
Als een pagina om juridische reden van internet moet worden verwijderd, is daar meestal de hulp bij nodig van de organisatie achter de zoekmachine. Elk bedrijf heeft daar zijn eigen regels voor. Veel nuttige informatie over dit onderwerp is te vinden op de site van Arnoud Engelfriet.
Gebruik:
- Deze meta-tags moeten in de <HEAD> staan.