Een scatterplot is een grafische weergave om het verband tussen twee variabelen of gegevensreeksen visueel te maken. Een scatterplot wordt in het Nederlands ook wel spreidingsdiagram, strooiingsdiagram, correlatiediagram of puntdiagram genoemd. Allemaal verschillende termen voor hetzelfde: een handig hulpmiddel om snel patronen of verbanden duidelijk te maken tussen twee verschillende variabelen of metingen. In deze blog gaan we dieper in op hoe en wanneer je een scatterplot toepast en hoe je er zelf één kunt maken.
Wanneer komt de scatterplot van pas?
Het unieke aan een spreidingsdiagram is dat je op zoek gaat naar een verband, of correlatie tussen twee afzonderlijke variabelen of gegevensreeksen. Waar je met veel andere grafische weergaven, zoals een boxplot of een standaarddeviatie juist de uitkomst van één variabele of gegevensreeks overzichtelijk in beeld brengt.
Met een scatterplot kun je bijvoorbeeld onderzoeken of er een verband is tussen de leeftijd van mensen en hoeveel zij verdienen. Of tussen het aantal trainingen dat het voetbalteam van jouw dochter heeft gehad en de prestaties tijdens wedstrijden. Meer werk gerelateerd zou je een spreidingsdiagram ook goed in kunnen zetten om het effect van bepaalde procesverbeteringen te beoordelen. Zo zou je bijvoorbeeld het gebruik van een nieuwe, vereenvoudigde template, kunnen afzetten tegen het aantal minuten dat de taak kost. Bespaart het echt tijd als de nieuwe werkwijze wordt gevolgd? Je ziet het snel als je de gegevens in een spreidingsdiagram zet.
Hoe lees je een scatterplot?
Als je niet precies weet waar je naar kijkt, lijkt het misschien lastig om een scatterplot op de juiste manier te lezen en daarmee te interpreteren. In de basis is het echter niet heel ingewikkeld, je hebt eigenlijk maar drie uitkomsten.
1. Nulcorrelatie: alle puntjes lijken lukraak over de grafiek verdeeld te zijn, zonder dat je hier enig verband uit kunt halen. Spoiler: een verband is er dus ook niet.
2. Positieve correlatie: de puntjes gaan praktisch in een vloeiende lijn van links naar rechts omhoog. Dat wil zeggen dat zowel de variabele van de x-as als de variabele op de y-as gelijktijdig toeneemt en er dus een positief verband is tussen de twee.
3. Negatieve correlatie: het omgekeerde kan ook het geval zijn. Als de puntjes in een schuine lijn van linksboven naar rechtsonder gaan, betekent dat dat wanneer de ene variabele afneemt, de ander toeneemt. Oftewel een negatief verband.
Natuurlijk liggen de puntjes meestal niet zo netjes op één lijn, maar vaak is het ook als er wat meer afwijking in de gegevens is, nog altijd goed te zien of en welk soort correlatie er tussen de twee gegevensreeksen is. Voor het interpreteren van die correlatie, is het goed om onze blog daarover nog even erop na te slaan. Daarin gaven we al aan dat niet elk verband ook even nuttig is en dat je echt kritisch moet kijken wat een verband nu precies zegt.
Hoe maak je zelf een scatterplot?
Nu je wat meer weet over de spreidingsdiagram en waar je deze voor in kunt zetten, ben je vast ook benieuwd hoe je deze kunt maken. Je maakt een scatterplot eenvoudig met handige tools voor statistische berekeningen, zoals SPSS of Minitab. Maar ook het voor praktisch iedereen toegankelijke Excel kan je hierbij helpen.
Laten we als voorbeeld onderzoeken of er een verband is tussen de leeftijd van mensen in een organisatie en hun maandsalaris.
– Stap 1: zet alle leeftijden in 1 kolom neer en alle bijbehorende maandsalarissen in de kolom erachter.
– Stap 2: Ga naar het tabblad Invoegen en kies bij Grafieken voor de grafiek met alle kleine puntjes erin.
– Stap 3: Selecteer de grafiekvorm Spreiding.
– Stap 4: Als je op een cel gaat staan waar je een getal hebt ingevoerd bij stap 1, selecteert Excel automatisch al de gegevensreeksen die je bij deze stap hebt ingevoerd. Even op Enter klikken, en zie daar je zelfgemaakte scatterplot.
Uit dit bovenstaande fictieve voorbeeld kunnen we dus wel concluderen dat er een positieve correlatie bestaat tussen leeftijd en de hoogte van het maandsalaris. Ondanks de paar kleine uitschieters hier en daar gaat de lijn toch redelijk evenredig omhoog.
Meer weten over statistiek?
Statistiek is typisch zo’n onderwerp dat interessanter wordt naarmate je er meer van weet. En, niet geheel onbelangrijk, het is een belangrijk onderdeel van Lean en Lean Six Sigma. Het kunnen interpreteren van data is immers een essentieel onderdeel om te achterhalen waar de verbeterpotentie zit. Daarom is statistiek ook altijd onderdeel van onze trainingen. Wil je je specifiek verder verdiepen in alleen statistiek? Overweeg dan eens onze training Minitab, waar je de basiskneepjes leert van statistiek in het algemeen en dit programma in het bijzonder.