De tank van Henk

In een eerdere blogpost (https://roelandringaboxum.nl/bayesiaanse-inferentie/) kon je lezen hoe Bayesiaanse inferentie kan worden toegepast om de (on)schuld van mensen te beoordelen, gezonken duikboten terug te vinden en positieve testuitslagen van nare ziektes op waarde te schatten. In deze post gaan we een experiment bekijken dat op het grensvlak van de statistiek en psychologie ligt.

Henk 2.0

Maak kennis met Henk. Henk is nogal conservatief, stemt rechts en is van mening dat geweld een noodzakelijk kwaad is. Hij begint zijn dag steevast met krachttraining en heeft ervaring met vuurwapens. Stel dat je nu zou moeten kiezen tussen de volgende twee hypothesen, waarvan er één waar is:


1) Henk is militair
2) Henk is docent

Welke hypothese zou je dan het meest waarschijnlijk vinden, en waarom?

Je voelt em misschien al aankomen: bij dit soort vragen gaan we van nature al gauw de mist in. En dan met name met de waarom-vraag.

Henk 1.0

Stel dat ik de vraag anders zou stellen: maak opnieuw kennis met Henk. Stel dat je zou moeten kiezen tussen de volgende twee hypothesen, waarvan er één waar is:

1) Henk is militair
2) Henk is docent

Welke hypothese zou je nu het meest waarschijnlijk vinden, en waarom? Hopelijk wordt er dan ergens een stukje statistiek in je hersens geactiveerd, en vraag je jezelf af hoeveel militairen en hoeveel docenten we in Nederland hebben. De verhouding tussen deze twee bepaalt de waarschijnlijkheid van beide hypothesen. Een rekenvoorbeeld dat enigszins in de buurt komt van de daadwerkelijke cijfers maar is gekozen voor het rekengemak: stel dat we in Nederland 500.000 docenten hebben en 50.000 militairen. Bij elkaar zijn dat er 550.000 mensen. De kans dat Henk militair is, is dan \frac{50.000}{50.000+500.000}= \frac{1}{11} = 9 \%, en de kans dat Henk docent is \frac{500.000}{50.000+500.000}=  91 \%. Dit is het startpunt voor onze andere vraag.

Henk heeft karakter

We weten nu dus dat zonder verdere achtergrondinformatie de kans dat Henk docent is ,P(docent), gelijk is aan ,P(docent) = 91 \% en dat ,P(militair) = 9 \%. Het idee achter Bayesiaanse inferentie is dat we met de karakteromschrijving van Henk nu extra informatie krijgen waarmee we deze ‘a priori’ kansen moeten updaten. De vraag is welk deel van de militairen in onze populatie aan de karakteromschrijving voldoen, en welk deel van de docenten. Stel dat we toegeven aan stereotypering en stellen dat 90% van de militairen aan de karakteromschrijving, en 10% van de docenten. Nu introduceren we nog een stukje notatie: we noteren een kans op A gegeven B als P(A|B). Dus P(docent| karakter) is de kans dat Henk uit onze populatie docent is, gegeven de karakteromschrijving van Henk. Net zo bedoelen we met P(militair| karakter) de kans dat Henk militair is, gegeven de karakteromschrijving van de persoon. Nu kijken we naar het totale aantal mensen dat aan de karakteromschrijving voldoet. Dat is gelijk aan 90% van de militairen (45.000) plus 10% van de docenten (50.000). In totaal dus 95.000 mensen. De kans dat Henk militair is, is dan gegeven door

\frac{45.000}{50.000+45.000}= 47 \%

De kans dat Henk docent is, wordt gegeven door

\frac{50.000}{50.000+45.000}= 53 \%

wat natuurlijk ook gelijk is aan 100% – 47%. Je ziet: de kans dat Henk docent is, is ongeveer net zo groot als dat Henk militair is. De simpele reden: de karakteromschrijving past misschien tien keer beter bij een militair dan bij een docent, maar er zijn ook ongeveer tien keer zoveel docenten als militairen in Nederland! Deze twee effecten heffen elkaar nagenoeg op.

De regel van Bayes

We kunnen bovenstaande berekening ook doen met de kansen alleen. Als we de hypothese als H noteren (Henk is militair, of Henk is docent), en de data als D (de karakteromschrijving), dan zegt Bayes dat

P(H|D) = \frac{P(D|H)P(H)}{P(D)}

De grote kracht in deze simpele formule zit em in de omkering: we kunnen P(H|D) uitdrukken in P(D|H). In het geval van twee niet-overlappende en elkaar uitsluitende hypothesen H1 en H2 kunnen we de formule van Bayes ook schrijven als

P(H_i|D) = \frac{P(D|H_i)P(H_i)}{P(D|H_1)P(H_1) + P(D|H_2)P(H_2)}

met i=1,2. Als je wilt kun je proberen om deze formule los te laten op onze Henk.

Base rate fallacy

De misvatting die we in Henk zijn geval zagen noemen we de base rate fallacy. We hebben de neiging om ons veel meer te richten op specifieke informatie over een persoon dan op het algemene voorkomen van dit soort personen in de populatie. Je kunt dit experiment, en vele anderen, nalezen in Kahnemans briljante boek “Thinking, fast and slow”. Dus mocht je de volgende keer iemand zien leunen op een stereotypering, pak dan onze Henk erbij en wijs deze persoon op de base rate fallacy.


Geplaatst

in

door

Reacties

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *