donderdag 4 oktober 2012

Significant niet-causaal

Zit er werkelijk iets in, of is het gewoon giswerk op basis van brute force rekenwerk? Als je wilt, kun je je namelijk helemaal kapót rekenen aan vanalles en nog wat. En ogenschijnlijk nog verbanden vinden ook. Je kent vast het voorbeeld dat vaak wordt gebruikt om de begrippen correlatie en causaliteit uit te leggen. In een dorp wordt een statistisch significant verband berekend tussen aantallen geboorten en de aanwezigheid van ooievaars. De relatie tussen beide fenomenen is echter nul en dus is de relatie onzin. Het een veroorzaakt of verklaart het ander niet; is nuet causaal.

Zoiets gebeurt heel vaak als we nog niet goed snappen wat we zien of meemaken. Dat is ook een logische en zinvolle stap. Het is zo'n beetje: wie niet waagt, die niet wint. En wie niet zoekt, zal ook niet vinden. En dus proberen we veel te kwantificeren om daarna de variabelen met elkaar te kruisen op zoek naar verbanden. In de jaren tachtig, negentig nam dat met het bestaan van data warehouses een enorm, maar vrij korte, vlucht in de publiciteit: datamining. Oneerbiedig: dankzij de ineens beschikbare rekenkracht kon er ineens snel en willekeurig - de brute force - worden gezocht naar onvoorspelde verbanden. Een el dorado voor marketeers moet dat zijn geweest.

Uiteraard heeft datamining significante verbanden opgeleverd, net zo goed als dat er voorbeelden zijn te vinden waarin eerder bevestigend dan exploratief is gezocht. Zowel het zoeken naar verbanden die je verwacht als het vinden van volslagen onverwachte, is een risico.

20121004-190010.jpg

Eigenlijk is het vrij logisch. Een verband dat je vindt, moet je ook kunnen verklaren. Vast nog niet honderd procent, maar een heel eind moet toch lukken. Een verband vinden dat op geen enkele manier logisch is, is een risico omdat je dan ook een niet-causaal verband kan hebben gevonden. En ja, officieel dien je eerst een theorie te hebben en met onderzoek te proberen die te ontkrachten. Lukt dat 'falsificeren' niet, dan heb je een goede theorie. Maar je moet dus wel een vermoeden, een hypothese, hebben.

In de wereld van de social media is het al een poosje een soort van Wilde Westen, zo lijkt het; een prima omgeving voor dit soort van zaken.

Wellicht dat het vooral marketeers zijn die op zoek zijn naar greep op de social media. Dat zou kunnen verklaren waarom er zo fanatiek wordt gezocht naar 'de beïnvloeders'. Dat het belangrijk wordt gevonden te weten wat de beste tijd is om een tweet te versturen. Wie nu eigenlijk de gebruikers zijn van de onderscheiden social media. Dat kún je lachend afdoen als onzin. Maar al die snippers kennis gaan op den duur vast op in een solide verhaal. En sommige snippers zullen inderdaad overbodig blijken.

20121004-185959.jpg

Af en toe kun je je wel verbazen over de snippers die we vinden. Vandaag was het weer raak. In Venture Beat staat een artikel over een onderzoek van Compendium. Er hoort een mooie infographic bij die je zelf even mag aanclicken via het oorspronkelijk verhaal. Ook hier weer prachtig snippermateriaal: wat is het effect van het gebruik van uitroeptekens in social media? Of van vraagtekens? En hashtags? Wat zijn de leestijden van onderscheiden social media? En wat de beste lengte voor een tweet of Facebookbericht?

Nu alleen nog snappen waaróm dat zo is.

Geen opmerkingen:

Een reactie posten