Les
1.3, Data, variabelen en parameters
Je
hebt gezien dat het lang niet altijd nodig is om alle elementen van een
populatie te meten, om nauwkeurige informatie te krijgen over deze
populatie. Een steekproef is vaak voldoende. Zo is het ook niet nodig om
alle kenmerken van de elementen te meten. Alleen de kenmerken waarin je geïnteresseerd
bent hoef je te meten. Inwoners
van Nederland hebben vele kenmerken. Inkomen, lengte, gewicht, kleur ogen,
en kiesgedrag zijn slechts enkele voorbeelden. In het ene onderzoek ben je
geïnteresseerd in kiesgedrag, in het andere onderzoek ben je geïnteresseerd
in lengte. In
de statistiek noem je het kenmerk (of de kenmerken) waar je onderzoek naar
doet de variabele(n). Dus, in het ene onderzoek ben je geïnteresseerd in
de variabele “kiesgedrag”, in ander onderzoek in de variabele
“lengte” en “oogkleur” en in weer ander onderzoek in nog weer
andere variabelen. tekening poppetje met verschillende lengte, met pijlen die de lengte aangeven en ook pijlen naar de oogkleur. Een variabele, het woord zegt het al, kan binnen een populatie of steekproef allerlei waarden aannemen. De lengte van Nederlanders varieert en de lengtes van 5 aselect gekozen Nederlanders zullen ook verschillen. Ik
zal in alle lessen de naam van een variabele in schuine hoofdletters
weergeven. In het algemeen zal ik de letter X
gebruiken, en als er meer variabelen zijn de opeen volgende letters Y en Z. Metingen aan X,
oftewel realisaties van X, zal
ik met kleine schuine letters xi
weergeven. De index “i” geeft hierbij aan de hoeveelste meting het is.
Vijf aselect gekozen Nederlanders hebben bijvoorbeeld de volgende lengtes
in cm: x1
= 168, x2
= 179, x3
= 191, x4
= 174, x5
= 180, Verwar
variabelen, en zeker de metingen daaraan niet met parameters. Parameters
zijn vaste vaak onbekende grootheden van een populatie. Zo is de
gemiddelde lengte van alle Nederlanders een parameter. Deze gemiddelde
lengte is (op één moment) een vast getal al weet je de waarde niet
exact. Parameters zal ik weergeven met Griekse letters. Zo zal je in
module 3 zien dan ik voor het populatie gemiddelde de Griekse mu (
) gebruik. In
het meeste onderzoek, ben je uiteindelijk geïnteresseerd in de waarden
van populatie parameters. Dus in onderzoek naar de lengte van Nederlanders
zijn het vaak parameters zoals het gemiddelde en de variantie waar je een
uitspraak over wilt doen. Om tot zo’n uitspraak te komen kun je één of
meerdere metingen doen aan de variabele “lengte”, oftewel je kunt een
steekproef nemen. Het gemiddelde en de variantie van de 5 aselect gekozen
Nederlanders zijn schatters voor het populatie gemiddelde en de populatie
variantie. In
de wereld van data, variabelen en parameters wil ik nog een stap verder
gaan. Om een aantal toekomstige lessen te begrijpen moet je weten dat er
eigenlijk twee type variabelen zijn. Dit zijn de zogenaamde stochastische
variabelen en vaste variabelen. Beide zijn variabelen in de zin dat ze
verschillende waarden kunnen aannemen. De waarden van een stochastische
variabele volgen een kansverdeling die aangeeft welke waarde met welke
kans kan voorkomen. Echter de waarden van een vaste variabele, zijn min of
meer van tevoren vastgezet. Stel
dat je de relatie wilt bepalen tussen lengte en gewicht van Nederlanders.
Je kan dit doen met een statistische techniek genaamd regressie analyse
(zie module 9). Hiervoor heb je een aselecte steekproef van Nederlanders
nodig wiens lengte en gewicht je aan elkaar gaat relateren. De steekproef
kan je op verschillende manieren nemen. Allereerst kan je bijvoorbeeld 100
mensen aselect uit de Nederlandse bevolking trekken en hun lengte en
gewicht meten. In dat geval zijn lengte en gewicht stochastische
variabelen. Je kan ook een steekproef van 100 Nederlanders nemen waarbij
je 20 willekeurige Nederlanders tussen 150 en 160 cm neemt, 20 tussen 160
en 170 cm, enzovoort. In dit geval is lengte een vaste variabele. Lengte
varieert nog steeds maar de frequentie van bepaalde lengtes is niet
bepaald door toevalskansen maar door jou. Het gewicht van al deze mensen
is nog steeds een stochastische variabele. Dit gebeurt veel in
experimenteel onderzoek. De keuze van de waarden van de vaste variabele(n)
worden bepaald met een zogenaamde statistische proefopzet. Vraag In
een scheikundig experiment wordt het gedrag van een vloeistof bekeken bij
3 geselecteerde verschillende temperaturen. Wat is de temperatuur in dit
experiment? a)
Een
parameter b)
Een
vaste variabele c)
Een
stochastische variabele Antwoord a)
Nee,
de temperatuur is geen populatie grootheid maar iets dat wordt vastgesteld
door degene die het experiment uitvoert. b)
Ja,
de temperatuur varieert maar wordt hier van tevoren op 3 niveaus
vastgesteld. c)
Nee,
de temperatuur wordt op 3 warden vastgesteld. Kenmerken
van elementen worden vaak door een getal worden vastgelegd. Jans lengte is
185 cm en hij is 37 jaar. Soms is zo’n kwantificering echter niet
mogelijk De data zijn dan
niet kwantitatief, maar kwalitatief. Je kan deze indeling in kwalitatief
en kwantitatief nog iets verfijnen met de vier volgende veelgebruikte
schalen. Nominale
schaal.
Dit
betreft puur kwalitatieve gegevens. Met deze gegevens kan je geen
wiskundige berekeningen doen. Voorbeelden zijn geslacht en kleur. Groene
ogen is niet twee maal zo veel als blauwe ogen. Groen is ook niet beter of
slechter dan blauw. Kleur is puur kwalitatief. Tekening/animatie Ordinale
Schaal.
Dit
betreft kwalitatieve gegevens die te ordenen zijn. Echte berekeningen kan
je hier niet mee doen, maar je kan wel aangeven wat beter is of eerder of
een dergelijke ordening. De beste voorbeelden zijn de antwoord categorieën
in veel vragen lijsten waarbij je zoiets kan antwoorden als: “volledig
mee oneens”, “mee oneens”, “niet mee eens/niet mee oneeens”,
“mee eens”. “volledig mee eens”. Tekening/animatie Ratio
schaal. Dit
betreft kwantitatieve gegevens waarbij je kan optellen en aftrekken.
Verschillen tussen waarden van dit type data hebben een betekenis. Echter
verhoudingen tussen waarden van dit type data hebben geen betekenis. Er is
niet een vast nulpunt. Het meeste beroemde voorbeeld hiervan is
temperatuur. De uitspraak 30 graden minus 10 graden is 20 graden is juist
en betekenisvol, maar de uitspraak 40 graden is twee maal zo warm als 32
graden is onjuist. Dit kan je gemakkelijk zien als je switched van Celsius
naar Farhenheit: 104 is niet tweemaal zoveel als 68. Dit komt omdat het
nulpunt gekozen door Celsius een ander is dan dat gekozen door Fahrenheit.
Tekening/animatie Interval
schaal.
Dit
betreft puur kwantitatieve gegevens. Verschillen en ratio’s hebben een
betekenis bij dit type data. De meeste gegevens waar we mee zullen werken
zullen van dit type zijn. De lengte en gewicht van Nederlanders zijn
voorbeelden van dit type data. Tekening/animatie Dit
was het wat betreft de inleiding in de statistiek. Probeer nog even de
laatste vraag die net zoals bij iedere les onderaan staat ter controle of
je de les begrijpt. Ga dan naar de opgaven die bij deze Module horen om te
kijken of je voldoende begrip hebt van hetgeen ik hier heb verteld en je
door kunt naar een volgende Module. Succes. VraagOp
welke schaal worden kalenderjaren gemeten? a)
Ordinaal b)
Interval c)
Ratio Antwoord a)
Nee,
Kalenderjaren zijn kwantitatieve kenmerken. b)
Ja,
Kalenderjaren hebben geen absoluut nulpunt. Bij het Christelijk geloof
wordt de geboorte van Christus als het jaar nul genomen. In andere geloven
is er vaak een ander jaar 0. Je kan daarom ook niet zeggen dat het jaar
2000 2 maal later is dan het jaar 1000. c)
Nee,
Wat denk je is het jaar 2000 twee maal later dan het jaar 1000?
|