BelStat home

Module 1

les 1

les 2

Les 1.3,  Data, variabelen en parameters

 

Je hebt gezien dat het lang niet altijd nodig is om alle elementen van een populatie te meten, om nauwkeurige informatie te krijgen over deze populatie. Een steekproef is vaak voldoende. Zo is het ook niet nodig om alle kenmerken van de elementen te meten. Alleen de kenmerken waarin je geïnteresseerd bent hoef je te meten.

Inwoners van Nederland hebben vele kenmerken. Inkomen, lengte, gewicht, kleur ogen, en kiesgedrag zijn slechts enkele voorbeelden. In het ene onderzoek ben je geïnteresseerd in kiesgedrag, in het andere onderzoek ben je geïnteresseerd in lengte.

In de statistiek noem je het kenmerk (of de kenmerken) waar je onderzoek naar doet de variabele(n). Dus, in het ene onderzoek ben je geïnteresseerd in de variabele “kiesgedrag”, in ander onderzoek in de variabele “lengte” en “oogkleur” en in weer ander onderzoek in nog weer andere variabelen.

tekening poppetje met verschillende lengte, met pijlen die de lengte aangeven en ook pijlen naar de oogkleur.

Een variabele, het woord zegt het al, kan binnen een populatie of steekproef allerlei waarden aannemen. De lengte van Nederlanders varieert en de lengtes van 5 aselect gekozen Nederlanders zullen ook verschillen.

Ik zal in alle lessen de naam van een variabele in schuine hoofdletters weergeven. In het algemeen zal ik de letter X gebruiken, en als er meer variabelen zijn de opeen volgende letters Y en Z. Metingen aan X, oftewel realisaties van X, zal ik met kleine schuine letters xi weergeven. De index “i” geeft hierbij aan de hoeveelste meting het is. Vijf aselect gekozen Nederlanders hebben bijvoorbeeld de volgende lengtes in cm:

x1 = 168,

x2 = 179,

x3 = 191,

x4 = 174,

x5 = 180,

Verwar variabelen, en zeker de metingen daaraan niet met parameters. Parameters zijn vaste vaak onbekende grootheden van een populatie. Zo is de gemiddelde lengte van alle Nederlanders een parameter. Deze gemiddelde lengte is (op één moment) een vast getal al weet je de waarde niet exact. Parameters zal ik weergeven met Griekse letters. Zo zal je in module 3 zien dan ik voor het populatie gemiddelde de Griekse mu ( ) gebruik.

In het meeste onderzoek, ben je uiteindelijk geïnteresseerd in de waarden van populatie parameters. Dus in onderzoek naar de lengte van Nederlanders zijn het vaak parameters zoals het gemiddelde en de variantie waar je een uitspraak over wilt doen. Om tot zo’n uitspraak te komen kun je één of meerdere metingen doen aan de variabele “lengte”, oftewel je kunt een steekproef nemen. Het gemiddelde en de variantie van de 5 aselect gekozen Nederlanders zijn schatters voor het populatie gemiddelde en de populatie variantie.

In de wereld van data, variabelen en parameters wil ik nog een stap verder gaan. Om een aantal toekomstige lessen te begrijpen moet je weten dat er eigenlijk twee type variabelen zijn. Dit zijn de zogenaamde stochastische variabelen en vaste variabelen. Beide zijn variabelen in de zin dat ze verschillende waarden kunnen aannemen. De waarden van een stochastische variabele volgen een kansverdeling die aangeeft welke waarde met welke kans kan voorkomen. Echter de waarden van een vaste variabele, zijn min of meer van tevoren vastgezet.

Stel dat je de relatie wilt bepalen tussen lengte en gewicht van Nederlanders. Je kan dit doen met een statistische techniek genaamd regressie analyse (zie module 9). Hiervoor heb je een aselecte steekproef van Nederlanders nodig wiens lengte en gewicht je aan elkaar gaat relateren. De steekproef kan je op verschillende manieren nemen. Allereerst kan je bijvoorbeeld 100 mensen aselect uit de Nederlandse bevolking trekken en hun lengte en gewicht meten. In dat geval zijn lengte en gewicht stochastische variabelen. Je kan ook een steekproef van 100 Nederlanders nemen waarbij je 20 willekeurige Nederlanders tussen 150 en 160 cm neemt, 20 tussen 160 en 170 cm, enzovoort. In dit geval is lengte een vaste variabele. Lengte varieert nog steeds maar de frequentie van bepaalde lengtes is niet bepaald door toevalskansen maar door jou. Het gewicht van al deze mensen is nog steeds een stochastische variabele. Dit gebeurt veel in experimenteel onderzoek. De keuze van de waarden van de vaste variabele(n) worden bepaald met een zogenaamde statistische proefopzet.

Vraag

In een scheikundig experiment wordt het gedrag van een vloeistof bekeken bij 3 geselecteerde verschillende temperaturen. Wat is de temperatuur in dit experiment?

a)      Een parameter

b)      Een vaste variabele

c)      Een stochastische variabele

 

Antwoord

a)      Nee, de temperatuur is geen populatie grootheid maar iets dat wordt vastgesteld door degene die het experiment uitvoert.

b)      Ja, de temperatuur varieert maar wordt hier van tevoren op 3 niveaus vastgesteld.

c)      Nee, de temperatuur wordt op 3 warden vastgesteld.

Kenmerken van elementen worden vaak door een getal worden vastgelegd. Jans lengte is 185 cm en hij is 37 jaar. Soms is zo’n kwantificering echter niet mogelijk  De data zijn dan niet kwantitatief, maar kwalitatief. Je kan deze indeling in kwalitatief en kwantitatief nog iets verfijnen met de vier volgende veelgebruikte schalen.

Nominale schaal.

Dit betreft puur kwalitatieve gegevens. Met deze gegevens kan je geen wiskundige berekeningen doen. Voorbeelden zijn geslacht en kleur. Groene ogen is niet twee maal zo veel als blauwe ogen. Groen is ook niet beter of slechter dan blauw. Kleur is puur kwalitatief.

Tekening/animatie

Ordinale Schaal.

Dit betreft kwalitatieve gegevens die te ordenen zijn. Echte berekeningen kan je hier niet mee doen, maar je kan wel aangeven wat beter is of eerder of een dergelijke ordening. De beste voorbeelden zijn de antwoord categorieën in veel vragen lijsten waarbij je zoiets kan antwoorden als: “volledig mee oneens”, “mee oneens”, “niet mee eens/niet mee oneeens”, “mee eens”. “volledig mee eens”.

Tekening/animatie

Ratio schaal.

Dit betreft kwantitatieve gegevens waarbij je kan optellen en aftrekken. Verschillen tussen waarden van dit type data hebben een betekenis. Echter verhoudingen tussen waarden van dit type data hebben geen betekenis. Er is niet een vast nulpunt. Het meeste beroemde voorbeeld hiervan is temperatuur. De uitspraak 30 graden minus 10 graden is 20 graden is juist en betekenisvol, maar de uitspraak 40 graden is twee maal zo warm als 32 graden is onjuist. Dit kan je gemakkelijk zien als je switched van Celsius naar Farhenheit: 104 is niet tweemaal zoveel als 68. Dit komt omdat het nulpunt gekozen door Celsius een ander is dan dat gekozen door Fahrenheit.

Tekening/animatie

Interval schaal.

Dit betreft puur kwantitatieve gegevens. Verschillen en ratio’s hebben een betekenis bij dit type data. De meeste gegevens waar we mee zullen werken zullen van dit type zijn. De lengte en gewicht van Nederlanders zijn voorbeelden van dit type data.

Tekening/animatie

Dit was het wat betreft de inleiding in de statistiek. Probeer nog even de laatste vraag die net zoals bij iedere les onderaan staat ter controle of je de les begrijpt. Ga dan naar de opgaven die bij deze Module horen om te kijken of je voldoende begrip hebt van hetgeen ik hier heb verteld en je door kunt naar een volgende Module.

Succes.

 

Vraag

Op welke schaal worden kalenderjaren gemeten?

a)      Ordinaal

b)      Interval

c)      Ratio

 

Antwoord

a)      Nee, Kalenderjaren zijn kwantitatieve kenmerken.

b)      Ja, Kalenderjaren hebben geen absoluut nulpunt. Bij het Christelijk geloof wordt de geboorte van Christus als het jaar nul genomen. In andere geloven is er vaak een ander jaar 0. Je kan daarom ook niet zeggen dat het jaar 2000 2 maal later is dan het jaar 1000.

c)      Nee, Wat denk je is het jaar 2000 twee maal later dan het jaar 1000?