De senaste dagarna har jag varit väldigt frustrerad över nyhetsrapporteringen kring en ny studie som har publicerats i den vetenskapliga tidskriften Journal of Youth and Adolescence. Forskarna tror sig ha visat att föräldrarnas kränkande behandling av sina barn stör barnens känsloreglering, vilket i sin tur förklarar varför dessa har ökade risker att bli utsatta för mobbning och att utsätta andra för liknande handlingar. För många tycks fynd av det här slaget vara helt oproblematiska men historien har lärt oss en annan läxa.

Kylskåpsmödrarnas återkomst
Under 1950- och 1960-talen populariserades föreställningen om att autism skulle orsakas av emotionellt kyliga mödrar, eller s.k. “kylskåpsmödrar”. Redan 1949 publicerade psykiatern Leo Kanner en artikel i American Journal of Orthopsychiatry som baserades på hans kliniska observationer av ett femtiotal barn med autism och deras föräldrar. Det bör noteras här att det var primärt mödrarna som tog med sina barn till kliniken på den tiden medan fäderna arbetade utanför hemmet. I artikeln noterar Kanner att mödrarna som tog med sig sina barn till kliniken uppenbart visade på emotionell kylighet (s. 422):

Barnens drag och färdigheter såg Kanner istället som ett uttryck för att dessa sökte bekräftelse hos sina föräldrar (s. 425):

Mot bakgrund av den moderna autismforskningen framstår dessa typer av analyser som oerhört ytliga. Vi vet numera att autism är ett starkt ärftligt tillstånd som huvudsakligen orsakas av olika typer av genvarianter (för detaljer, läs Mark Daly:s populärvetenskapliga översikt). Det faktum att mödrarna också uppvisar autistiska drag och har svårt att anknyta till sina barn är därför inte märkligt då dessa har i genomsnitt högre nivåer av autistiska drag jämfört med mödrar utan barn med autism. Problemet ligger således inte i mödrarnas förhållningssätt i sig utan de faktorer som orsakar förhållningssätten. Detta kan förklara varför stödinsatser av typen “föräldraträning” som enbart adresserar förhållningssätten inte tenderar att vara särskilt fruktbara i dessa sammanhang. Det krävs istället andra, mer omfattande och komplexa, insatser.

Den aktuella studien
Forskarlaget rapporterar att de har undersökt 1409 högstadieungdomar i en “mellanstor stad i Sverige”. Studien är longitudinell, vilket innebär att forskarna har följt upp samma ungdomar över tid. I det här fallet har deltagarna undersökts vid tre mättillfällen, från årskurs 7 till årskurs 9. Bortfallet beskrivs vara marginellt och man har inte funnit att de som inte valde att delta skiljde sig ifrån deltagarna på ett antal faktorer som de har undersökt.

Ungdomarna fick själva skatta hur pass ofta de blev exponerade för hånfulla och nedsättande kommentarer av sina föräldrar, hur pass svårt de hade att reglera sina negativa känslor samt hur pass ofta de utsattes för mobbning och/eller utsatte andra för mobbning. Forskarna tillämpade därefter något som kallas för strukturella ekvationsmodeller för att undersöka sambanden mellan dessa tre faktorer över tid:

Fördelen med strukturella ekvationsmodeller är att man kan skatta flera statistiska samband mellan olika variabler samtidigt, där pilhuvuden i illustrationen ovan indikerar riktningen i sambanden. Det faktum att man undersöker flera hypoteser samtidigt gör dock inte den statistiska modellen mer eller mindre kausal, vilket många forskare trodde när dessa lanserades för ett antal decennier sedan. Det är nog lätt att hamna i den fällan när man ser diagram av den ovanstående typen.

Hypotesprövningar
När man läser resultatavsnittet för studien slås man av att de observerade sambanden är tämligen små och knappt statistiskt signifikanta. Det vore därför fördelaktigt om vi snabbt friskade upp våra minnen kring hypotesprövningar.

I de flesta vetenskapliga studier har forskare samlat information bland ett urval av deltagare och man vill då veta huruvida de observerade sambanden som man har identifierat går att generalisera till en större population. Ponera att vi har fått fram data om kroppslängd bland två grupper av deltagare, exempelvis våldsbrottslingar och icke-dömda. Vi finner att våldsbrottslingarna är i genomsnitt fem centimeter kortare än de icke-dömda.

Sambandsanalysen ger oss därtill ett s.k. “p-värde”. Detta värde säger oss vad sannolikheten är för att vi ska observera en minst lika avvikande skillnad mellan grupperna, givet att det inte skulle finnas någon skillnad mellan grupperna i populationen. P-värden som understiger 0,05 (eller 5%) brukar i regel betraktas vara statistiskt signifikanta men vad innebär det mer konkret?

Om vi i det här fiktiva exemplet skulle ha fått p-värde på 0,03 skulle vi tolka det som att sannolikheten för att vi ska observera en genomsnittlig skillnad i kroppslängd om minst fem centimeter mellan våldsbrottslingar och icke-dömda i vårt urval trots att det inte skulle finnas någon skillnad i populationen uppgår till enbart 3%. Vi är därför beredda att acceptera att ha fel i högst 5% av fallen.

Multipla tester och p-värden
Efter en vecka har våra kollegor samlat in mer data bland deltagarna. Vi får in ytterligare 9 variabler att analysera, vilka inkluderar alltifrån födelsevikt till intelligenskvot, inkomst och personlighetsdrag. Problemet med att genomföra ett stort antal tester är att det ökar risken för att minst ett av testerna ska bli statistiskt signifikanta trots att trots att det inte skulle finnas ett sådant samband i populationen. För att motverka detta har statistiker utvecklat olika metoder för att korrigera för antalet tester som man genomför. Ett populärt angreppssätt kallas för Bonferroni-metoden, vilket innebär att man dividerar gränsvärdet för signifikans (0,05) med antalet tester som man har genomfört.

Om vi genomför samtliga 10 tester (gruppskillnader i kroppslängd och ytterligare 9 variabler) kommer det nya gränsvärde för statistisk signifikans att vara 0,005 (0,05/10). Vi accepterar därför att enbart att ha fel i 0,5% av fallen eftersom vi har ökat antalet tester som vi vill genomföra. Detta innebär därför att det tidigare resultatet för kroppslängd (p=0,03) inte längre är statistiskt signifikant då p-värdet överstiger 0,005.

Multipla tester i den aktuella studien
Forskarlaget bakom den aktuella studien har genomfört ett stort antal tester som de inte har korrigerat för. Hur pass många tester som de har genomfört framgår inte ens av artikeln. De har exempelvis justerat den primära statistiska modellen för ett flertal mätbara störfaktorer. De har därtill testat för könsskillnader där detaljerna för testerna lyser med sin frånvaro:

Supplemental models included the addition of control variables known to correlate with derisive parenting (i.e., warmth, behavioral control, solicitation of information, knowledge, excessive control, physically punitive parenting, and disclosure), adolescent anger dysregulation (i.e., defiance, callous-unemotional traits, and impulsivity and irresponsibility), and peer difficulties (i.e., peer acceptance, substance use). Each control variable was separately added to the model as a grade 7 predictor to determine if the same pattern of statistically significant indirect effects were maintained. Sex differences were tested with multiple group models.

De har även undersökt alternativa mekanismer:

Follow-up analyses explored alternative patterns of indirect effects (Little 2013). Two models were tested: (a) the mediated path from Grade 7 adolescent anger dysregulation to Grade 9 peer difficulties through Grade 8 derisive parenting, and (b) the mediated path from Grade 7 derisive parenting to Grade 9 adolescent anger dysregulation through Grade 8 peer difficulties. Neither set of indirect effects reached conventional levels of statistical significance.

Det är inte ovanligt att forskare genomför kompletterande analyser av det här slaget men i det här fallet har man varken kontrollerat för antalet tester som har genomförts och än mer häpnadsväckande så redogör man inte för analyserna i bilagor. Det är därför väldigt vanskligt att värdera resultaten.

Mot bakgrund av detta blir det därför märkligt att se att deras p-värden tenderar att vara nära “det konventionella” gränsvärdet för statistisk signifikans (p=0,05). Notera att detta inte är tillämpbart i det aktuella fallet pga multipla tester. Ett axplock av dessa p-värden:

Dåligt kontrollerad
Om vi bortser ifrån det ovanstående för en stund och ser till studiens forskningsdesign kan vi klart konstatera att den är ytterst bristfällig. Den har varken tagit hänsyn till socioekonomiska faktorer eller till ärftliga faktorer. Det är inte slumpmässigt vilka föräldrar som har en förhöjd benägenhet att håna och trakassera sina barn. Emotionell reglering är inte heller något som uppstår av en slump hos barnen. Det går delvis i arv. Det är genom en rigorös kontroll av ärftliga faktorer som forskare kan isolera effekterna av miljöfaktorer för att se vilka av dessa som har en kausal effekt på barnens utfall. I det aktuella fallet har forskarna visat, om man nu ens kan anta att sambanden är statistiskt signifikanta, att barn till hånfulla föräldrar rapporterar högre grad av negativa utfall.

Den okritiska rapporteringen i massmedia
Om man tolkar sambanden som kausala skulle det innebära att insatser som får föräldrar att bli mindre hånfulla skulle ha en direkt effekt på barnens utfall. Det är precis det som forskningsledaren Håkan Stattin gör när TT ringer upp:

Till Sveriges Radio gör han följande uttalande:

Ett flertal andra medier tolkar fynden som kausala. Här SVT:

Jag har inte kunnat se att en enda journalist har ställt en kritisk fråga till forskarlaget. Det är ytterst anmärkningsvärt och nyhetsrapporteringen har varit enligt min mening fullkomligt vilseledande.

Är det då bra att håna sina barn?
Självfallet inte. Allt annat lika är det bättre att inte håna sina barn än att göra det. Samtidigt är inte allt annat lika. Vi kan inte vara säkra på att det är hånet i sig som orsakar utfallen eller om det beror på att hånfulla föräldrar har andra egenskaper som förklarar barnens överrisker. Utan en fördjupad förståelse för fenomenet (läs: orsakerna) kommer vi inte kunna utveckla effektiva insatser för att minska på barnens lidande. Givet de otaliga begränsningar som jag har listat ovan har jag svårt att se hur den här studien kan bidra till mer effektiva insatser. Precis som forskningen kring kylskåpsmödrarna.