What have twin studies taught us about educational attainment?

The development in the field of the behavior genetics of educational outcomes has been nothing less than astonishing in the recent decade. Numerous twin studies have demonstrated that roughly half of the individual differences in academic achievement could be attributed to genetic factors. The same studies have also shown important contributions of both family-wide and individual-specific environmental factors. Molecular genetic investigations have thus far identified over a thousand genetic variants that are associated with educational attainment. Researchers are now using these discoveries to predict a wide range of different outcomes in external datasets.

In a series of blog posts, I intend on summarizing some of the important studies in the field. Given the nature of blog posts, this will not be a systematic review of the literature but my aim is to make it as representative as possible.

Why twin models?

The rationale for the classical twin model is the estimate the relative contributions of genetic and environmental influences to a trait of interest. The classical twin model is based on the assumptions that identical twins share all of their co-segregating genes whilst fraternal twins share half of their co-segregating genes. The model further assumes that the early environmental influences are roughly equal across both types of twins. There are a number of additional assumptions as well but the validity of the model remains strong (1, 2). Given these model assumptions, the presence of genetic influences is determined by the extent to which the correlation of a given trait is higher in identical twins as compared to fraternal twins. 

By measuring a trait of interest in a sufficiently large group of identical and fraternal twins, researchers are able to examine to what extent the individual differences in the trait could be attributed to three sources of influences; (A) additive genetic influences or the heritability, (C) shared environmental influences, and (E) unique environmental influences. Shared environmental influences encompass an aggregate of all non-genetic factors within the family that make the twins more similar to one another in regards to the trait of interest. These could include factors like parenting practices and socioeconomic status. Unique environmental influences is a somewhat misleading term as it includes all factors that make the twins different from one another. These include individual-specific environmental risk factors but also measurement error and random (stochastic) events. 

The evidence from the UK
The Twins Early Development Study (TEDS) is a representative study of approximately 16,000 twin pairs in the United Kingdom. In a study of academic achievement measured at the age of 16 years (GCSE exam scores), the TEDS researchers found that an excess of 50% of the individual differences between the twins could be attributed to genetic factors (3). Furthermore, the researchers found that environmental factors shared within the family explained between a fifth to a quarter of the individual differences whilst the rest of the variation was attributed to unique environmental influences. In other words, both nature and nurture explained why the students differed in their achievements. 

In a follow-up study (4), the TEDS team were interested in examining the relative contributions of genetic and environmental influences on intelligence and specific school subjects:

Similar to the previous study, the researchers found that an excess of half of the individual differences across all of the examined outcomes could be attributed to genetic differences in the population. Among the school subjects, shared environmental influences explained a larger proportion of the individual differences than did unique environmental influences. In contrast, they found that shared environmental influences explained a very small proportion of the variation in intelligence.

The second aim of this study was to examine how intelligence and the specific school subjects were related to one another by adopting multivariate twin models. This approach enabled the researchers to study how genetic and environmental influences explained the associations between the outcomes. To put this in more simpler terms, one could say that if the association between two outcomes was stronger among identical twins as compared to fraternal twins then it implied that genetic factors explained a proportion of the observed association in the sample. 

The researchers found, rather expectedly, strong associations between the measures of achievement in the specific subjects and intelligence. In other words, this meant that students who achieved well in a particular subject were on average more likely than their peers to achieve well in other subjects. Interestingly, the researchers also found that the genetic influences overlapped to a large extent between the outcomes. Expressed more technically, the observed genetic correlations between each combination of the specific school subjects and intelligence varied between 44% and 88%. These findings support the existence of both generalist genes that explain differences across all of the examined outcomes and specialist genes that only explain differences in the specific outcomes. The shared environmental correlations were even stronger, ranging between 66% and 95%. This implies that shared environmental factors might be influencing academic performance more generally across all of the subjects rather than being subject-specific. In contrast, the unique environmental correlations were rather low, ranging between 9% to 35%, which could either suggest that the individual-level risk factors were subject-specific or that the estimates were attenuated by a combination of measurement error and random noise.

What’s included in the high heritability of academic achievement?
To many readers, it may seem somewhat strange that the heritability estimates of the academic achievement measures are so large. One of the many advantages of the TEDS study is its comprehensive data collection measuring the participant’s abilities, personality, problem behaviors and living conditions. This allowed the researchers to study how such factors overlapped genetically with school performance, as measured by an index of the GCSE core subjects (5):

The heritability of school performance was estimated to 62% and genetic factors that explained individual differences in intelligence accounted for about half of it. Together, all of the measures explained roughly three quarters of the heritability. 

The stability of school performance
The TEDS team have also examined the stability of school performance and its relative determinants among the twins from primary school up to secondary school (6). The study found that the contributions of genetic and environmental influences were relatively stable across time and subject: 

Similar findings in the Netherlands
Dutch behaviour geneticists have extensively studied measures of educational attainment for a number of decades and their findings have been similar to their British colleagues. In a 2015 study of 12 414 twin pairs, for instance, they observed that the heritability estimates for different indicators of educational attainment measured during primary school varied between 44% and 73% (7):

Even academic choices are heritable
A fascinating line of research has demonstrated that heritable factors do not only contribute to individual differences in academic performance but also to our choices to pursue higher education and the subjects that we wish to specialize in. Importantly, these studies have also shown why twin studies are important to get gain greater insights into how environmental factors also explain such differences.

In a 2016 paper of 6584 twin pairs (8), the TEDS researchers examined how genetic and environmental factors influenced the choice to pursue university preparatory courses (“A-levels”). They additionally examined the subject-specific courses that the students elected.

The results indicated that heritable factors explained an excess of 40 percent of the individual differences across all of the outcomes. The researchers nevertheless observed that whilst shared environmental factors explained roughly the same amount of variation in the choice to pursue any of the A-level courses, their contributions to the subject-specific courses were substantially lower. One interpretation of these findings could be that family members encourage the students to pursue higher education but that they may be less concerned with the specific subjects that the students choose.

You’re on your own once you’ve reached the university
In one of their most recent studies, the TEDS team examined university outcomes among 3000 of the twin pairs (9). Similar to the previous study, they found that genetic and shared environmental influences contributed roughly equally to the choice of enrolling at university. Again, this is consistent with family members encouraging the students to pursue higher education. Interestingly, the authors failed to find that such factors influenced how the students performed in their university courses. The latter was instead explained by genetic (46%) and unique environmental (54%) influences.

Highest achieved education
A 2013 meta-analysis estimated the heritability of educational attainment as defined by the highest achieved educational level to be approximately 40% (10), which is somewhat smaller in magnitude to those presented above. This illustrates the importance of outcome definitions. A crude measure of highest achieved educational level will rank individuals with very heterogenous abilities equally. For instance, two individuals with master’s degrees in astrophysics and history, respectively, will, on average, have very different abilities. The best outcome definition will therefore depend on what the specific research question of interest is.

Where are the genes?
In my next blog post, I will cover the recent advances in the molecular genetics of educational attainment, from genome-wide association studies to studies that adopt genetic risk scores to predict a wide range of outcomes. Please subscribe to the blog to stay updated.

Är det bra att håna och trakassera sina barn? En lektion i vilseledande forskning och journalistik

De senaste dagarna har jag varit väldigt frustrerad över nyhetsrapporteringen kring en ny studie som har publicerats i den vetenskapliga tidskriften Journal of Youth and Adolescence. Forskarna tror sig ha visat att föräldrarnas kränkande behandling av sina barn stör barnens känsloreglering, vilket i sin tur förklarar varför dessa har ökade risker att bli utsatta för mobbning och att utsätta andra för liknande handlingar. För många tycks fynd av det här slaget vara helt oproblematiska men historien har lärt oss en annan läxa.

Kylskåpsmödrarnas återkomst
Under 1950- och 1960-talen populariserades föreställningen om att autism skulle orsakas av emotionellt kyliga mödrar, eller s.k. “kylskåpsmödrar”. Redan 1949 publicerade psykiatern Leo Kanner en artikel i American Journal of Orthopsychiatry som baserades på hans kliniska observationer av ett femtiotal barn med autism och deras föräldrar. Det bör noteras här att det var primärt mödrarna som tog med sina barn till kliniken på den tiden medan fäderna arbetade utanför hemmet. I artikeln noterar Kanner att mödrarna som tog med sig sina barn till kliniken uppenbart visade på emotionell kylighet (s. 422):

Barnens drag och färdigheter såg Kanner istället som ett uttryck för att dessa sökte bekräftelse hos sina föräldrar (s. 425):

Mot bakgrund av den moderna autismforskningen framstår dessa typer av analyser som oerhört ytliga. Vi vet numera att autism är ett starkt ärftligt tillstånd som huvudsakligen orsakas av olika typer av genvarianter (för detaljer, läs Mark Daly:s populärvetenskapliga översikt). Det faktum att mödrarna också uppvisar autistiska drag och har svårt att anknyta till sina barn är därför inte märkligt då dessa har i genomsnitt högre nivåer av autistiska drag jämfört med mödrar utan barn med autism. Problemet ligger således inte i mödrarnas förhållningssätt i sig utan de faktorer som orsakar förhållningssätten. Detta kan förklara varför stödinsatser av typen “föräldraträning” som enbart adresserar förhållningssätten inte tenderar att vara särskilt fruktbara i dessa sammanhang. Det krävs istället andra, mer omfattande och komplexa, insatser.

Den aktuella studien
Forskarlaget rapporterar att de har undersökt 1409 högstadieungdomar i en “mellanstor stad i Sverige”. Studien är longitudinell, vilket innebär att forskarna har följt upp samma ungdomar över tid. I det här fallet har deltagarna undersökts vid tre mättillfällen, från årskurs 7 till årskurs 9. Bortfallet beskrivs vara marginellt och man har inte funnit att de som inte valde att delta skiljde sig ifrån deltagarna på ett antal faktorer som de har undersökt.

Ungdomarna fick själva skatta hur pass ofta de blev exponerade för hånfulla och nedsättande kommentarer av sina föräldrar, hur pass svårt de hade att reglera sina negativa känslor samt hur pass ofta de utsattes för mobbning och/eller utsatte andra för mobbning. Forskarna tillämpade därefter något som kallas för strukturella ekvationsmodeller för att undersöka sambanden mellan dessa tre faktorer över tid:

Fördelen med strukturella ekvationsmodeller är att man kan skatta flera statistiska samband mellan olika variabler samtidigt, där pilhuvuden i illustrationen ovan indikerar riktningen i sambanden. Det faktum att man undersöker flera hypoteser samtidigt gör dock inte den statistiska modellen mer eller mindre kausal, vilket många forskare trodde när dessa lanserades för ett antal decennier sedan. Det är nog lätt att hamna i den fällan när man ser diagram av den ovanstående typen.

När man läser resultatavsnittet för studien slås man av att de observerade sambanden är tämligen små och knappt statistiskt signifikanta. Det vore därför fördelaktigt om vi snabbt friskade upp våra minnen kring hypotesprövningar.

I de flesta vetenskapliga studier har forskare samlat information bland ett urval av deltagare och man vill då veta huruvida de observerade sambanden som man har identifierat går att generalisera till en större population. Ponera att vi har fått fram data om kroppslängd bland två grupper av deltagare, exempelvis våldsbrottslingar och icke-dömda. Vi finner att våldsbrottslingarna är i genomsnitt fem centimeter kortare än de icke-dömda.

Sambandsanalysen ger oss därtill ett s.k. “p-värde”. Detta värde säger oss vad sannolikheten är för att vi ska observera en minst lika avvikande skillnad mellan grupperna, givet att det inte skulle finnas någon skillnad mellan grupperna i populationen. P-värden som understiger 0,05 (eller 5%) brukar i regel betraktas vara statistiskt signifikanta men vad innebär det mer konkret?

Om vi i det här fiktiva exemplet skulle ha fått p-värde på 0,03 skulle vi tolka det som att sannolikheten för att vi ska observera en genomsnittlig skillnad i kroppslängd om minst fem centimeter mellan våldsbrottslingar och icke-dömda i vårt urval trots att det inte skulle finnas någon skillnad i populationen uppgår till enbart 3%. Vi är därför beredda att acceptera att ha fel i högst 5% av fallen.

Multipla tester och p-värden
Efter en vecka har våra kollegor samlat in mer data bland deltagarna. Vi får in ytterligare 9 variabler att analysera, vilka inkluderar alltifrån födelsevikt till intelligenskvot, inkomst och personlighetsdrag. Problemet med att genomföra ett stort antal tester är att det ökar risken för att minst ett av testerna ska bli statistiskt signifikanta trots att trots att det inte skulle finnas ett sådant samband i populationen. För att motverka detta har statistiker utvecklat olika metoder för att korrigera för antalet tester som man genomför. Ett populärt angreppssätt kallas för Bonferroni-metoden, vilket innebär att man dividerar gränsvärdet för signifikans (0,05) med antalet tester som man har genomfört.

Om vi genomför samtliga 10 tester (gruppskillnader i kroppslängd och ytterligare 9 variabler) kommer det nya gränsvärde för statistisk signifikans att vara 0,005 (0,05/10). Vi accepterar därför att enbart att ha fel i 0,5% av fallen eftersom vi har ökat antalet tester som vi vill genomföra. Detta innebär därför att det tidigare resultatet för kroppslängd (p=0,03) inte längre är statistiskt signifikant då p-värdet överstiger 0,005.

Multipla tester i den aktuella studien
Forskarlaget bakom den aktuella studien har genomfört ett stort antal tester som de inte har korrigerat för. Hur pass många tester som de har genomfört framgår inte ens av artikeln. De har exempelvis justerat den primära statistiska modellen för ett flertal mätbara störfaktorer. De har därtill testat för könsskillnader där detaljerna för testerna lyser med sin frånvaro:

Supplemental models included the addition of control variables known to correlate with derisive parenting (i.e., warmth, behavioral control, solicitation of information, knowledge, excessive control, physically punitive parenting, and disclosure), adolescent anger dysregulation (i.e., defiance, callous-unemotional traits, and impulsivity and irresponsibility), and peer difficulties (i.e., peer acceptance, substance use). Each control variable was separately added to the model as a grade 7 predictor to determine if the same pattern of statistically significant indirect effects were maintained. Sex differences were tested with multiple group models.

De har även undersökt alternativa mekanismer:

Follow-up analyses explored alternative patterns of indirect effects (Little 2013). Two models were tested: (a) the mediated path from Grade 7 adolescent anger dysregulation to Grade 9 peer difficulties through Grade 8 derisive parenting, and (b) the mediated path from Grade 7 derisive parenting to Grade 9 adolescent anger dysregulation through Grade 8 peer difficulties. Neither set of indirect effects reached conventional levels of statistical significance.

Det är inte ovanligt att forskare genomför kompletterande analyser av det här slaget men i det här fallet har man varken kontrollerat för antalet tester som har genomförts och än mer häpnadsväckande så redogör man inte för analyserna i bilagor. Det är därför väldigt vanskligt att värdera resultaten.

Mot bakgrund av detta blir det därför märkligt att se att deras p-värden tenderar att vara nära “det konventionella” gränsvärdet för statistisk signifikans (p=0,05). Notera att detta inte är tillämpbart i det aktuella fallet pga multipla tester. Ett axplock av dessa p-värden:

Dåligt kontrollerad
Om vi bortser ifrån det ovanstående för en stund och ser till studiens forskningsdesign kan vi klart konstatera att den är ytterst bristfällig. Den har varken tagit hänsyn till socioekonomiska faktorer eller till ärftliga faktorer. Det är inte slumpmässigt vilka föräldrar som har en förhöjd benägenhet att håna och trakassera sina barn. Emotionell reglering är inte heller något som uppstår av en slump hos barnen. Det går delvis i arv. Det är genom en rigorös kontroll av ärftliga faktorer som forskare kan isolera effekterna av miljöfaktorer för att se vilka av dessa som har en kausal effekt på barnens utfall. I det aktuella fallet har forskarna visat, om man nu ens kan anta att sambanden är statistiskt signifikanta, att barn till hånfulla föräldrar rapporterar högre grad av negativa utfall.

Den okritiska rapporteringen i massmedia
Om man tolkar sambanden som kausala skulle det innebära att insatser som får föräldrar att bli mindre hånfulla skulle ha en direkt effekt på barnens utfall. Det är precis det som forskningsledaren Håkan Stattin gör när TT ringer upp:

Till Sveriges Radio gör han följande uttalande:

Ett flertal andra medier tolkar fynden som kausala. Här SVT:

Jag har inte kunnat se att en enda journalist har ställt en kritisk fråga till forskarlaget. Det är ytterst anmärkningsvärt och nyhetsrapporteringen har varit enligt min mening fullkomligt vilseledande.

Är det då bra att håna sina barn?
Självfallet inte. Allt annat lika är det bättre att inte håna sina barn än att göra det. Samtidigt är inte allt annat lika. Vi kan inte vara säkra på att det är hånet i sig som orsakar utfallen eller om det beror på att hånfulla föräldrar har andra egenskaper som förklarar barnens överrisker. Utan en fördjupad förståelse för fenomenet (läs: orsakerna) kommer vi inte kunna utveckla effektiva insatser för att minska på barnens lidande. Givet de otaliga begränsningar som jag har listat ovan har jag svårt att se hur den här studien kan bidra till mer effektiva insatser. Precis som forskningen kring kylskåpsmödrarna.

Kan hjärnscanning identifiera mördare?

I mitt Twitter-flöde fick jag precis syn på en studie som publicerades häromdagen i den vetenskapliga tidskriften Brain Imaging and Behavior. Forskarlaget hade undersökt skillnader i grå hjärnsubstans bland 203 mördare som jämfördes med 605 andra våldsbrottslingar som inte har begått mord. Forskarna identifierade statistiskt signifikanta skillnader i ett antal hjärnregioner som är associerade med exekutiva funktioner, kontroll av beteenden, emotionell bearbetning och social kognition:

Illustrationer av den ovanstående typen kan ge ett falskt intryck av ett starkt orsakssamband. Därför är det fördelaktigt att hålla huvudet kallt och tänka på att det finns en hel del metodologiska begränsningar med studier av den här typen.

  • Mätningarna har genomförts vid ett tillfälle i vuxen ålder, efter att brotten har begåtts. Forskarna har dels inte kunnat undersöka huruvida utvecklingen av hjärnan över tid påverkade gärningarna, dels kan de heller inte utesluta att gärningarna i sig har orsakat de identifierade skillnaderna.
  • Studiedesignen är icke-experimentell och det är inte slumpmässigt vilka som blir mördare jämfört med de som begår andra typer av brott. Då studien är icke-experimentell har forskarna bara kunnat justera för ett begränsat antal faktorer som utmärker grupperna. Därför kan man inte tolka några eventuella samband som orsakssamband då dessa kan ha påverkats av icke-mätta faktorer.
  • Gruppen “mördare” inkluderade såväl de som hade blivit dömda för mord men även individer som i konfidentiella intervjuer hade medgivit att de antingen hade begått mord eller ett allvarligt mordförsök där utfallet av handlingen hade varit oklart.
  • Våldsbrottslingar med psykossjukdomar eller hjärnskador var exkluderade. Man hade även exkluderat individer som inte kunde skatta den tid som de hade avtjänat i fängelse, vilket forskarna ville justera för i sina statistiska modeller.
  • Generaliserbarheten av fynden kan därtill ifrågasättas då det var en selektion av fångar som valde att delta (mot betalning).
  • Forskarna hade inget replikationsmaterial och således vet man inte om resultaten är avgränsade till det studerade materialet.

Studien är trots dessa begränsningar intressant och bör närmast ses som en liten pusselbit i ett större spel som fortgår. Svaret på frågan som jag ställde i titeln bör nu vara uppenbar.