Les 2.2 Regels voor histogrammenHistogrammen
moeten aan een aantal regels voldoen. Allereerst moet
het aantal klassen niet te groot zijn en niet te klein. Sommige
tekstboeken geven vuistregels zoals het aantal klassen k
moet tussen
en
in liggen. Of neem als het aantal klassen het eerste gehele getal waarvoor
geldt
In beide gevallen wordt met
“n” het totaal aantal
waarnemingen bedoeld. Als je het prettig
vindt kun je dit soort vuistregels gebruiken. Ik ben er zelf niet zo dol
op. Ik vind het belangrijker dat je een beetje gevoel krijgt wat een goed
aantal klassen is in iedere
situatie. Je moet altijd in je achterhoofd houden waarom je de histogram
maakt. Vaal wil je een idee krijgen over de verdeling van de frequenties
over de klassen. Dus je wil graag weten welke waarden veel voor komen en
welke weinig. Als je klasse
indeling te klein is geeft dit je vrijwel geen informatie. Als je
bijvoorbeeld maar een klasse maakt zitten alle waarnemingen in deze
klasse. Dit geeft je geen
extra informatie. In ons voorbeeld wisten we al dat we 12 waarnemingen
hadden. Als je heel veel
klassen maakt, ongeveer evenveel als (of zelfs meer dan) er waarnemingen
zijn, geeft dit je ook geen informatie, want iedere klasse bevat 0, 1 of
misschien hooguit 2 waarnemingen. We wisten al dat er maar 1 student 162
cm was en 1 student 191 en de rest er tussen in. In ons voorbeeld
van de lengtes van 12 studenten hebben we gekozen voor 4 klassen, maar 3
klassen of 5 was ook niet slecht geweest. Meer dan 5 of minder dan 3
is naar mijn idee een mindere keuze, maar dit blijft subjectief.
Kijk zelf wat je vindt van de verschillende histogrammen met ieder een
ander aantal klassen. Het is natuurlijk
zo dat bovenstaande histogrammen van 1, 2, 3 enzovoort klassen maar
voorbeelden zijn van histogrammen met 1, 2, 3 enzovoort klassen. Hoe een
histogram van een bepaald aantal klassen er precies uitziet wordt mede
bepaald door de begin waarde van de eerste klasse, de eindwaarde van de
laatste klasse en de klasse breedte. Welke begin waarde
van de eerste klasse en eindwaarde van de laatste klasse je kiest maakt
niet zoveel uit zolang de laagste waarde van alle waarnemingen maar in de
eerste klasse en de hoogste waarde in de laatste klasse valt. Het is
gebruikelijk om alle intervallen even breed te maken. Dit is niet absoluut
noodzakelijk, maar om verwarring te voorkomen wel aan te raden. Vooral als
je frequenties in verschillende klassen wil vergelijken is het heel lastig
als bv klasse 1 van lage waardes twee keer zo groot is als klasse 2 met
hoge waardes. Het kan dan lijken
bij frequentie van bijvoorbeeld 16 in klasse 1 en een frequentie 10 in
klasse 2 dat lage waardes meer voorkomen dan hoge waardes. Echter als we
van klasse 1 twee klassen ter grootte van klasse 2 hadden gemaakt hadden
die ieder maar 8 elementen, of een 7 en de ander 9 elementen kunnen
hebben. Dan zouden we correct hebben geconcludeerd dat hoge waardes iets
meer voorkomen dan lage en midden waardes.Wees dus heel voorzichtig als je
niet alle klassen even breed maakt. In hetgeen dat volgt ga ik er vanuit
dat alle klassen even breed zijn. De klassenbreedte
wordt bepaald door de begin en eindwaarde en het aantal klassen dat je
wilt maken: Klassenbreedte = (eindwaarde-beginwaarde)/(aantal
klassen) Omgekeerd, het
aantal klassen wordt bepaald door de klasse breedte en de begin en
eindwaarde: Aantal klassen =
(eindwaarde-beginwaarde)/(klassenbreedte) Bij het kiezen van
begin en eindwaarde zowel als de klassenbreedte zou ik als advies willen
geven: Zorg altijd dat de klassenbreedte een mooi interval is. In ons
voorbeeld hebben we klassen genomen van 10 cm. Dat is een mooie en
makkelijke maat. We hadden ook 4 klassen kunnen maken van 11,34 cm maar
dat is niet mooi, niet handig, en er is ook geen enkele reden toe. [figuur
F5-11] Dus,
probeer altijd klassen van 5, 10, 100 of dergelijke eenheden te maken, dat
werkt veel makkelijker dan intervallen van bijvoorbeeld 56,8376. In iets
mindere mate geldt iets soortgelijks ook voor de begin en eindwaarde. Het
is eenvoudiger werken met een beginwaarde van 155, in plaats van 155,343. Als laatste zou ik
willen opmerken dat je moet zorgen dat alle klassen aansluiten en niet
overlappen. Op deze manier zorg je ervoor dat alle waarnemingen in precies
een klasse terecht komen en niet meer of minder dan 1 keer geteld worden. [Figuur
5-12] In de figuur
hierna wordt de lengte 168 cm niet geteld en 178 cm twee maal. Dit geeft
natuurlijk een erg verdraaid beeld. HIER
MENSEN HUN EIGEN LENGTE IN LATEN TYPEN? OF TOCH ERGENS ANDERS? VRAAG: Wat
is de klasse breedte in het volgende histogram? A
8, Nee, dit is het aantal klassen. B
8.75, Nee, kijk nog eens goed naar het histogram, met name de x-as. C
10, Ja, het verschil tussen de klassenmiddes is steeds 10. [{plaatje van histogram met 8 staven;
x-y combinaties zijn: 110-5, 120-8, 130-5, 140-9, 150-12, 160-7, 170-5,
180-3}
|
|