Har ENCODE-projektet skrotat ”skräp-DNA”?

av Lars Johan Erkell

För en tid sedan offentliggjordes på en gång mer än trettio artiklar av ENCODE-konsortiet, som arbetar med att kartlägga det mänskliga genomets funktion. Projektet är en följd av att HUGO-projektet nu givit oss människans (nästan) kompletta gensekvens; nu gäller det att se vilka delar av genomet som används till vad. Men alla dessa resultat kom i skuggan av ett uttalande i huvudartikeln i tidskriften Nature: att man nu visat att 80 % av människans genom var funktionellt, inte bara de ca 5 % man diskuterat tidigare. Därmed såg det ut som om man punkterade den allmänt accepterade uppfattningen att den största delen av genomet inte har kodande funktioner, utan utgörs av något som lite vårdslöst brukar kallas ”skräp-DNA”.

I början av 1970-talet lanserade genetikern Susumu Ohno tanken att genomet kunde förväntas innehålla en hel del trasiga genkopior – kopior som borde vara inaktiva, men som i undantagsfall skulle kunna få nya funktioner. Detta DNA döptes till ”junk DNA”, men man underströk att detta inte betydde att det måste vara helt utan funktion [1]. Senare blev det klart att genomet till ungefär hälften består av olika typer av parasitiskt DNA [2].

Detta ”skräp-DNA” har studerats mycket under åren, och man vet att en hel del av det transkriberas, alltså kopieras till RNA. Det står dock klart att många av dessa transkript inte har någon biologisk funktion utan kan ses som ett slags genetiskt brus. Därför är det ett sensationellt påstående att nästan hela genomet skulle vara funktionellt. Det är heller ingen tillfällighet att siffran 80 % fått så stor uppmärksamhet; redan i den inledande sammanfattningen i ENCODE-projektets huvudartikel i Nature läser man:

”These data enabled us to assign biochemical functions for 80 % of the genome [...] [3].”

Frågan är nu bara vad som avses med ”biochemical functions”. Det borde rimligtvis handla om processer som leder till vissa resultat, eller till att något händer i en cell. Något som gör skillnad – om processen inte har någon som helst betydelse för cellen känns det inte naturligt att säga att den har en funktion. Längre ner på sidan formulerar man sig dock så här:

”The vast majority (80.4 %) of the human genome participates in at least one biochemical RNA- and/or chromatin-associated event in at least one cell type [3].”

Här har man glidit från ”function” till ”event” – det räcker tydligen att något har hänt, helt frikopplat ifrån eventuell funktion. Ett exempel kan kanske klargöra: man vet att stora delar av vårt genom transkriberas till RNA. Mycket av detta RNA bryts dock omedelbart ner, och ingenting mer händer [4]. Sådan transkription måste rimligtvis räknas som ”event” i ENCODE-projektets betydelse, men man kan ju inte säga att den typen av händelser får cellen att göra något funktionellt.

Men vad är det för typ av ”event” man diskuterar? Man har använt 24 olika typer av experiment för att se om DNA på något sätt skulle vara aktivt, och man har använt sig av 147 olika typer av celler – ett jätteprojekt. Det handlar om olika sätt att påvisa transkription genom att identifiera RNA-molekyler, att identifiera DNA-motiv som binder olika proteiner som hör samman med genetisk aktivitet (t.ex. transkriptionsfaktorer), att identifiera ”öppet” DNA, alltså sekvenser som är tillgängliga för genreglerande proteiner, att finna modifieringar av DNA-bindande proteiner som tyder på aktivitet, och en del annat. Men det är naturligtvis en enorm skillnad på att ett protein binder till DNA eller att en RNA-molekyl transkriberas, och på att man kan registrera en biologisk funktion som innebär att cellen reagerar på något sätt. Man studerar de första stegen – alltså bara de allra första stegen – av komplexa händelsekedjor.

Som framgår av citatet ovan räknar man alltså en gen som aktiv om man registrerat en signal med en av metoderna i en av celltyperna. Det går inte att lägga ribban lägre. Det är väl känt att slumpen spelar in i alla biokemiska processer, inte minst i aktiviteten hos DNA. Lägger man ribban så här lågt riskerar man att plocka upp genetiskt brus som inte har någon biologisk betydelse.

***

Den vanliga siffran på den del av genomet som är kodande brukar anges till ungefär 5 %, men man väntar sig nog allmänt att den siffran kommer att stiga något allteftersom vi lär oss allt mer om genomets funktioner. Men därifrån till 80 % är det ett gigantiskt språng – hur går det här ihop? En av ENCODE-projektets organisatörer, Ewan Birney, förutsåg frågan, och på sin blogg publicerade han en simulerad intervju där man kan läsa följande:

”It’s clear that 80 % of the genome has a specific biochemical activity – whatever that might be. Originally I pushed for using an ’80 % overall’ figure and a ’20 % conservative floor’ figure, since the 20 % was extrapolated from the sampling. But putting two percentage-based numbers in the same breath/paragraph is asking a lot of your listener/reader – they need to understand why there is such a big difference between the two numbers, and that takes perhaps more explaining than most people have the patience for. We had to decide on a percentage, because that is easier to visualize, and we choose 80 % because (a) it is inclusive of all the ENCODE experiments (and we did not want to leave any of the sub-projects out) and (b) 80 % best conveys the difference between a genome made mostly of dead wood and one that is alive with activity. [...] We use the bigger number because it brings home the impact of this work to a much wider audience.”

I klartext: man uppskattar att den riktiga siffran ligger någonstans mellan 20 % och 80 %, men man har medvetet valt att gå ut med 80 %. Varför? Jo, därför att ”läsaren” skulle ha svårt att greppa två siffror (?). Jag misstänker att de läsare som intresserar sig för projekt av det här slaget nog klarar av att hantera två siffror.

Så misstänker jag också att det handlar om marknadsföring. Problemet man har är att ENCODE-projektet är ett kartläggningsarbete som slukar enorma summor. Det är heller inte oomstritt; man kan hävda (och det hävdas också) att pengarna kunde användas bättre i ”vanlig” hypotesdriven forskning. Det gäller alltså för ENCODE-projektet att visa att investeringen betalar sig inte bara som kartläggning, utan också i form av vetenskapliga genombrott. På ett sätt kan jag förstå Birney och hans kollegor; man klarar inte av att driva sådana här jätteprojekt om man inte är övertygad om att projektet är meningsfullt, och att det kommer att leda till viktiga upptäckter.

Uttalandet om att genomet skulle vara till 80 % funktionellt har upprört många, inte bara forskare som anser det oförsvarligt att gå ut med uppgifter man inte kan stå för, se t.ex. (särskilt den sista länken ger en utförlig och bra diskussion):
Man har också ondgjort sig över den okritiska medierapportering som har blivit resultatet av utspelet, se t.ex.:
Inte ens den kreationistiske biologen Todd Wood var särskilt imponerad. Han noterade också att ”creationists will misunderstand the results and use them for propaganda purposes”.

***

Kritiken har inte gått spårlöst förbi; Ewan Birney skriver i sitt blogginlägg Response on ENCODE Reaction:

”With hindsight, we could have used different terminology to convey the concepts, consequence and massive extent of genomic events we observed. (Note to self: one can be precise about definitions in paper or a scientific talk to scientists, but it’s far harder via the medium of everyday press, even to the same audience).”

En annan ENCODE-profil, John Stamatoyannopoulos, har i samtal med journalisten Faye Flam också slagit till reträtt:

”He did admit that the press conference mislead people by claiming that 80 % of our genome was essential and useful. He puts that number at 40 %.”

Så är det ju inte sagt att projektledningens uttalanden har fullständig resonans hos de mer än 400 forskare som arbetar i projektet. En av de yngre forskarna, Max Libbrecht, är mycket öppenhjärtig:

”I do not think anyone has demonstrated function for most of our genome. In fact, ENCODE has not demonstrated function for anything because we published no functional studies. [...] The 80 % figure is almost certainly not even real chemical signatures. If you notice, 80 % of the genome is the percent of the genome that is mappable so right now, I think the 80 % figure simply means that if you sequence any complex genome-wide dataset deeply enough, you will eventually return the entire genome. It’s just a signal-to-noise issue: if you keep looking, you’ll eventually get all the noise possible. [...] Heck, all of it could still be ’junk’ by ENCODE results alone (and now when I say ’junk’, what I mean is that they don’t have a direct effect on gene expression). First of all, the 80 % figure could easily include more noise than signal because it was the informatically low-confidence set of called regions, so it’s not even clear that what’s in those 80 % of regions are even what’s in the cell. Second of all, it’s unclear what many of these assays mean in terms of physical reality. For example, ChIP-Seq signal size is uncorrelated with factor occupancy or ’function’ as we currently understand it.”

På sin egen blogg säger han vidare:

”I think very few members of ENCODE believe that the consortium proved that 80 % of the genome is functional; no one claimed as much on the reddit AMA, and Ewan Birney has made it clear on his blog that he would not make this claim either. [...] I think many members of the consortium (including Ewan Birney) regret the choice of terminology that led to the misinterpretations of the 80 % number. Unfortunately, such misinterpretations are always a danger in scientific communication (both among the scientific community and to the public). Whether the consortium could have done a better job explaining the results, and whether we should expect the media to more accurately represent scientific results, is hard to say. ”

Budskapet att 80 % av vårt genom är funktionellt, och att ”skräp-DNA” skulle vara en skrotad idé, visar sig alltså vara en tidningsanka. Emellertid ligger inte hela skulden på pressen, utan till stor del också på forskarna. Det hela är ganska pinsamt. Det är tråkigt också av det skälet att den här debatten drar uppmärksamheten från de mängder av intressanta resultat projektet har levererat, och de nya metoder man utvecklat. ENCODE-projektet har givit forskningen en bra skjuts framåt, men det har inte motbevisat existensen av ”skräp-DNA”.

Noter

[1] De första publikationer som nämner ”junk DNA” är:
[2] Två nyckelpublikationer som etablerade begreppet ”själviskt DNA” är:
[3] The ENCODE Project Consortium (2012): An Integrated Encyclopedia of DNA Elements in the Human Genome. Nature 489:57–74.

[4] Guenther, M.G., Levine, S.S., Boyer, L.A., Jaenisch, R., Young, R.A. (2007): A Chromatin Landmark and Transcription Initiation at Most Promoters in Human Cells. Cell 130:77–88 .

En populärvetenskaplig sammanfattning finns på bloggen Ars Technica: Inactive genes still produce RNA.

Uppdatering 2013-03-14: Den starka reaktionen på ENCODE-konsortiets publicering var under de första veckorna främst synlig i bloggvärlden. Efter ett halvår börjar det nu också komma kritik i den reguljära vetenskapliga pressen. Hittills har fyra artiklar publicerats. Av dessa sticker Graurs kritik ut från de andra; jag har aldrig sett en så blodig avrättning i en vetenskaplig tidskrift. Emellertid kan jag inte se annat än att kritiken faktiskt är befogad.

Eddy, S. R. (2012): The C-value Paradox, Junk DNA and ENCODE. Current Biology, 22(21), R898.

Niu, D. K., and Jiang, L. (2012): Can ENCODE Tell Us How Much Junk DNA We Carry in Our Genome? Biochemical and biophysical research communications 430:1340–1343.

Graur, D., Zheng, Y., Price, N., Azevedo, R. B., Zufall, R. A., and Elhaik, E. (2013): On the Immortality of Television Sets: ”Function” in the Human Genome According to the Evolution-Free Gospel of ENCODE. Genome Biology and Evolution. Online February 20, 2013.

Doolittle, W.F. (2013): Is Junk DNA Bunk? A Critique of ENCODE. Proc. Natl. Acad. Sci. (USA). Online March 11, 2013.
 
[Ursprungligen publicerad på http://biologg.wordpress.com.]