BelStat home

Module 1

les 1

les 3

Les 1.2, Steekproeven en populatie

 

Het begrip “populatie” binnen de statistiek is breder dan een groep mensen die in een land wonen. In het algemeen spreken we van een gehele verzameling elementen. Deze elementen kunnen mensen zijn, of dieren, of dingen of gebeurtenissen die je wilt onderzoeken. Dus een populatie kan alle inwoners van een land zijn, maar ook alle mussen in een park, alle chocolade repen geproduceerd in een fabriek, of zelfs alle operaties in een ziekenhuis in een jaar. Essentieel is dat het om een groep elementen gaat waar onderzoek naar uitgaat.

 

Een steekproef is een deelverzameling van de populatie. Een steekproef wordt genomen om zonder de hele populatie te bekijken iets te zeggen over deze populatie.

  

Vraag

In een biologisch onderzoek wordt de staat van de Drentse hei bekeken. Wat is in dit soort onderzoek de heide?

 

a)      Een verzameling

b)      Een populatie

c)      Een steekproef

 

Antwoord

 

a)      Nee

b)      Ja

c)      Nee

 

De bedoeling van een steekproef is om zo veel mogelijk informatie over een populatie te krijgen met zo min mogelijk metingen. Meestal worden steekproeven dan ook genomen om tijd en geld te sparen.

Als men vlak voor de verkiezingen een idee wil krijgen over hoe Nederlanders zullen stemmen dan is het veel te omslachtig en veel te duur om iedere stemgerechtigde alvast te vragen wat hij of zij denkt te gaan stemmen. Het is veel goedkoper en sneller om een peiling uit te voeren bij een gedeelte van alle stemgerechtigden.

Soms worden steekproeven uitgevoerd omdat het fysiek onmogelijk is om een hele populatie te meten. Het is bijvoorbeeld onmogelijk om alle vissen in de zee te tellen.

 (gekleurde vissen zwemmen voorbij)

Een andere situatie is waar de populatie oneindig is. Het gooien van een dobbelsteen kan oneindig vaak gebeuren. Om een idee te krijgen of alle zijden even vaak boven komen, en zo niet welke zijden vaker boven komen kan je een steekproef nemen door de dobbelsteen bijvoorbeeld 100 keer te gooien.

 (Dobbelsteen, met steeds een andere kant boven)

Een andere goede reden voor een steekproef ontstaat wanneer hetgeen je wilt meten kapot gaat door de meting. Als je in een touwfabriek wilt testen bij welke kracht een bepaald type touw knapt is het niet handig om aan al het geproduceerde touw steeds harder te trekken tot het knapt. Je weet dan bij welke kracht het touw knapt maar je hebt geen touw meer over. Voer je de krachttest echter uit op een steekproef uit al het geproduceerde touw, dan kun je de kracht schatten waarbij dit type touw gemiddeld knapt.

 (Touw waar steeds harder aan wordt getrokken en dat uiteindelijk knapt)

Naast dit alles, vermindert het gebruik van steekproeven het aantal meetfouten. In een steekproef worden minder metingen gedaan dan in een populatie. Dan kunnen er ook minder fouten gemaakt worden.

Een steekproef kan alleen goede en voldoende informatie over een populatie geven, als de steekproef representatief voor de populatie is. Wat is een representatieve steekproef denk je?

Als we het kiesgedrag van Nederlanders willen peilen ben jij dan een representatieve steekproef?

(tekening van een groep mensen. Een grote hand boven de mensen wijst een mensje aan. Deze kijkt een beetje angstig)

Nee, ik vrees het niet. Als jij samen met nog 999 anderen was uitgekozen dan was het een ander verhaal, maar een persoon is niet genoeg. Als jij PvdA stemt zegt dat nog helemaal niets over de rest van de bevolking. Een steekproef van een persoon, of twee of zelfs vijf of tien is veel te klein. Hoe groter de steekproef hoe beter beeld je krijgt. Aan de andere kant hoe kleiner de steekproef hoe sneller en goedkoper. Het is altijd de kunst om een goed evenwicht te vinden tussen deze twee tegenwerkende krachten.

 Wat denk je, is een schoolklas een representatieve steekproef?

 (tekening schoolklas)

In eerste instantie is een schoolklas waarschijnlijk te klein. Veel belangrijker is dat je niet trekt uit de doelpopulatie trekt. Je doel populatie is niet Nederlanders, maar stemgerechtigde Nederlanders. Daar meeste schoolkinderen onder de 18 zijn, zal een steekproef van schoolkinderen geen informatie geven over het kiesgedrag van stemgerechtigde Nederlanders.

 Nou, wat denk je van alle volwassen bezoekers aan een golfveld op een dag? (tekening)

In Nederland is golf redelijk een elite sport. Waarschijnlijk geeft het stemgedrag van de bezoekers aan het golfveld daarom een scheef beeld. Het is heel belangrijk dat als je een steekproef neemt je niet een heel specifieke groep uitkiest maar je de steekproef zo willekeurig mogelijk neemt, dus zoveel mogelijk door het toeval laten bepalen. Je kiest bijvoorbeeld 100 willekeurige stemgerechtigde Nederlanders uit het bevolkingsregister van 10 willekeurig gekozen gemeentes. In statistische termen zeggen we dat een steekproef aselect moet zijn. Dat wil zeggen: louter door het toeval bepaald en dus geheel willekeurig.

De meest pure manier om een willekeurige, oftewel aselecte, steekproef te nemen is met behulp van zogenaamde aselecte cijfer tabellen. De engelse term hiervoor, random number tables, wordt ook vaak gebruikt.

De aselecte cijfer tabellen zijn overzichten van volledig willekeurige getallen die bijvoorbeeld in kolommen van 5 cijfers worden weergegeven zoals in Tabel 1.1

 

Voor je de tabel kan gebruiken moet je de gehele populatie waar je de steekproef uit wilt trekken nummeren. Dus in het geval van de Nederlandse stemgerechtigde bevolking krijgt iedereen een nummer van 1 tot 12 miljoen, of wat dan ook het exacte aantal stemgerechtigde Nederlanders is.

Om het voorbeeld niet te ingewikkeld te maken ga ik er nu even van uit dat de populatie alleen de 800 stemgerechtigde inwoners van een dorp betreft. Dus je wilt met behulp van een aselecte cijfer tabel een aselecte steekproef van bijvoorbeeld 20 dorpelingen trekken om daarmee een idee van het stemgedrag van het dorp te krijgen.

Nummer alle 800 inwoners. Kies dan op een willekeurige plaats in de tabel het eerste aselecte getal. Je kan bijvoorbeeld je ogen dicht doen en gewoon prikken, maar je kan bijvoorbeeld ook als je verjaardag 2 mei is het getal in de tweede kolom en de vijfde rij kiezen.

 (Door een druk op een knop, of andere manier moet deze plaats inde tabel nu oplichten).

Voor je verder gaat kiezen moet je eerst een aantal besluiten nemen. Allereerst is het nummer van ieder van de 800 inwoners maximaal 3 cijfers groot. Het heeft dus geen zin om alle vijf de cijfers uit een kolom te gebruiken. Je moet van tevoren beslissen of je steeds de eerste drie, de laatste drie of een andere combinatie van drie uit vijf gebruikt. Daarnaast moet je beslissen hoe je verder gaat nadat je het eerste aselecte getal hebt getrokken. Ga je inde tabel naar beneden, of naar boven, of naar links of rechts? Neem je steeds het volgende getal, of sla je één of twee getallen over?

Stel je kiest voor de eerste drie van de vijf cijfers. Voor ieder volgend getal ga je naar beneden, en sla je iedere keer één rij over. Als je aan het eind van de kolom komt, ga je verder met de kolom die er rechts naast ligt.

(In een simulatie (met of zonder op knoppen drukken) laat zien wat de achtereenvolgende getallen zijn. Als een getal groter is dan 800 verschijnt er een kruis door het getal met de tekst)

Een aselect getal dat groter is dat de populatie, in dit geval 800, moet overgeslagen worden. Niemand heeft dit nummer.

Deze procedure kun je ook uit voeren met een steekproef van 1000 uit de 12 miljoen stemgerechtigde Nederlanders. Het is dan wel veel handiger om gebruik te maken van een zogenaamd aselecte cijfer generator (eng: random number generator). Dit is een computer programma dat aselecte cijfers uitspuwt op basis van een populatie- en steekproef-grootte die jij op geeft. Op het Internet zijn er vele te vinden. Ik heb er hier ook één toegevoegd.

 Hier een random generator applet plaatsen, met wat aanwijzingen en oefeningen om het uitte proberen.

Probeer maar eens een steekproef van 5 uit een populatie van 12 miljoen te trekken. Let er daarbij op dat alle getrokken nummers tussen de 0 en 12 miljoen moeten liggen.

Nog even terugkomend op de aselecte cijfer tabellen: Deze kunnen efficiënter gebruikt worden als de nummering van de elementen in de populatie volstrekt willekeurig is. Dus als inwoners niet op basis van bijvoorbeeld leeftijd of woonwijk zijn genummerd, maar volstrekt willekeurig. Je kan dan een systematische aselecte steekproef trekken in plaats van een gewone aselecte steekproef. In dat geval hoef je slechts één aselect cijfer te trekken. Dit kan doordat je de populatie opdeelt in net zoveel groepen als de steekproef groot is. Iedere groep bevat evenveel nummers, namelijk de populatiegrootte gedeeld door de steekproefgrootte Dus in het dorp bevat de eerste groep de inwoners met nummers 1 tot 800/20 = 40. de volgende groep bevat de volgende 40 inwoners. Dat zijn de inwoners met nummer 41 tot 80, enzovoort. Met behulp van een aselecte cijfer tabel (of eventueel generator) trek je een aselect getal tussen 1 en 40. Dit is bijvoorbeeld 24. Je steekproef van 20 bestaat dan uit de inwoners met nummers 24, 24 +40 =64, 24+40+40=104, enzovoort tot en met nummer 784.

 

Naast de normale aselecte steekproef en de systematische aselecte steekproef bestaan er nog vele andere vormen van min of meer aselecte steekproeven. Ik zal er hier een paar bespreken.

Allereerst is er de gelede steekproef. Deze wordt gebruikt als er duidelijke verschillen zijn tussen bepaalde groepen in de populatie. Sommige bevolkingsgroepen vertonen een duidelijk ander stemgedrag dan andere bevolkingsgroepen. Jongeren stemmen anders dan ouderen en die stemmen weer anders dan mensen met een leeftijd tussen die van jongeren en ouderen. Ook gelovigen stemmen vaak anders dan niet gelovigen. Om een goed beeld van de hele populatie te krijgen moet je zorgen dat de samenstelling van de steekproef ten aanzien van de bevolkingsgroepen min of meer overeenkomt met de werkelijke samenstelling. Met andere woorden als de ene bevolkingsgroep 30% van de populatie betreft en de andere 70%, moet je er voor zorgen je steekproef ook ongeveer deze verhouding heeft. Oftewel selecteer 30% van je steekproef uit de eerste groep en 70% van je steekproef uit de tweede groep. In een gelde steekproef bepaal je per groep het stemgedrag.

Naast de gelede steekproef kennen we ook de cluster steekproef. Hierbij is het de onderzoeker die de populatie in groepen opdeelt in plaats van dat er al duidelijk groepen zijn. Een bekende methode is het land opdelen in vele kleine geografische gebieden. Selecteer uit deze gebieden een aantal representatieve gebieden en ondervraag alle inwoners in die uitgekozen gebieden.

 Plaatje land indelen in groepen. Een paar van de gebieden worden als geheel gekleurd

Een variant op de cluster steekproef is de meerstadia steekproef. Hierbij wordt de populatie niet alleen in groepen opgedeeld maar worden aselecte steekproeven genomen in een paar van de aselect gekozen groepen. Dus alleen een paar mensen die in de gekozen gebieden wonen worden ondervraagd.

Zelfde plaatje als net maat nu zie je een paar gekleurde stipjes in de paar gebieden die net nog geheel gekleurd waren.

Vraag

80 ziekenhuizen zijn betrokken bij een onderzoek naar het effect van een nieuw medicijn tegen te hoge bloeddruk. In een eerste vooronderzoek krijgen  10 patiënten in 8 ziekenhuizen het medicijn. Hoe zou je dit type steekproef noemen?

      a)      Gelede steekproef

b)      Cluster steekproef

c)      Meerstadia steekproef

 

Antwoord

a)      nee

b)      nee

c)      ja

 

Hoe je een steekproef neemt hangt af van wat voor soort onderzoek je doet. Dat wil zeggen in welk vakgebied je onderzoek doet, wat je budget is, wat je doel is en daaruit voortvloeiend wat je hypotheses zijn en vraagstelling.

Iemand die experimenteel onderzoek doet naar een scheikundig verschijnsel doet een heel ander type onderzoek dan iemand die het gedrag van mensen bestudeert. Binnen de laatste categorie is er weer een wereld van verschil tussen de psycholoog die wetenschappelijk onderzoek doet naar bijvoorbeeld het kopieergedrag in groepen en een student die als onderdeel van zijn studie het gedrag van medestudenten tijdens feestjes bestudeert. De eerste zal een veel grootschaliger onderzoek doen met een ruimer budget. Het budget bepaald ook hoeveel mensen men kan bestuderen, oftewel hoe groot de steekproef is.

Afhankelijk van de aard van het onderzoek moet gekeken worden of er een experimenteel onderzoek of een observerend onderzoek wordt opgezet. De scheikundige zal waarschijnlijk een experimenteel onderzoek doen waarbij hij van tevoren een statistische proefopzet maakt. Binnen zo’n proefopzet zal hij proberen zoveel mogelijk variabelen te controleren zodat hij zeker is van wat en hoe het verschijnsel verklaard kan worden. De statistiek achter het proefopzetten is een vak apart en wordt onder andere in Module... in meer detail behandeld.

Menselijke gedragingen daarentegen worden vaak onderzocht met behulp van observaties. Ook kunnen daarbij vragenlijsten gebruikt worden. Dit brengt weer een heel eigen manier van steekproef trekken met zich mee. Bij vragenlijsten heb je bijvoorbeeld het probleem van de non-reponse. Niet iedereen die je een vragenlijst opstuurt zal deze invullen. De vraag daarbij is of de groep mensen die de vragenlijst invult representatief is voor de hele populatie. Als voornamelijk plichtsgetrouwe mensen de lijst invullen en opsturen en het onderzoek betreft iets waarbij er duidelijke verschillen zijn tussen plichtsgetrouwe en minder plichtsgetrouwe mensen is er waarschijnlijk sprake van een zekere mate van afwijking. Ook kan er een afwijking ontstaan als je een uitspraak wilt doen over de gehele bevolking van een land en je onderzoekt als student alleen je mede studenten (steekproef selectie afwijking). De meningen van je medestudenten zijn niet representatief voor de gehele bevolking omdat je waarschijnlijk een select gezelschap hebt qua leeftijd, opleiding en interesse. Daarnaast kunnen nog afwijkingen ontstaan indien een interviewer de vragen stelt en dit niet neutraal doet (vraagsteller afwijking) of de vragen gevoelig zijn en men de neiging heeft sociaal wenselijk te antwoorden of in ieder geval jezelf niet in een negatief daglicht wil zetten (eigenbehoud afwijking)

Al met al moge het duidelijk zijn dat er veel typen steekproeven zijn die afhankelijk van het soort onderzoek het best gekozen kunnen worden, maar die ieder ook hun eigen problemen met zich mee brengen. Dit is niet de plaats om hier nu verder in detail op in te gaan. Gedurende de cursus zal je met de meeste veelgebruikte typen steekproef in aanraking komen en steeds beter een gevoel krijgen wat je in welke situatie het beste kan gebruiken. Het belangrijkste daarbij is dat je er altijd naar streeft dat je steekproef representatief is, dus a select en voldoende groot.

Vraag

Een jonge man is gevraagd in een winkelstraat een korte vragenlijst af te nemen over het gebruik van SMS. Om zijn werk te veraangenamen ondervraagt hij alleen meisjes die hij er leuk vindt uitzien. Tot wat voor soort afwijking in de steekproef kan dit leiden?

 

a)      Eigenbehoud afwijking

b)      Vraagsteller afwijking

c)      Steekproef selectie afwijking

 

Antwoord

 

a)      Nee, het gaat hierbij met name om de keuze van personen die de jonge man ondervraagt.

b)      Nee, het gaat hierbij met name om de keuze van personen die de jonge man ondervraagt.

c)      Ja, De groep die hij ondervraagd is vanwege het feit dat het slechts één geslacht betreft en een beperkte leeftijdsgroep, en waarschijnlijk ook een bepaalde interesse groep niet representatief voor de gehele bevolking.

Ga door naar les3