Molekulare Ähnlichkeiten

Zusammenfassung: In diesem Artikel wird erklärt, wie mittels molekularer Daten molekulare Ähnlichkeitsbäume aufgestellt und molekulare Uhren entwickelt werden. Es werden verschiedene Verfahren vorgestellt und ihre Theorieabhängigkeit aufgezeigt. Weiter wird gezeigt, weshalb eine annahmenfreie Rekonstruktion von Evolution in der molekularen Systematik nicht möglich ist und weshalb es keine allgemein gültige molekulare Uhr gibt.

Inhalt

Einleitung

In den 1960er bzw. 1970er Jahren wurde es möglich, die Sequenz (= Reihenfolge der Aminosäuren bzw. Nukleotide) von Proteinen (= Eiweiße) und DNS (= Erbmolekül Desoxyribonukleinsäure) zu bestimmen. Damit entstand die Hoffnung, dass die Ähnlichkeit auf genetischer Ebene der phänotypischen (= die äußere Erscheinungsform betreffend) Ähnlichkeit der Organismen entsprechen würde. Damit könnten diese molekularbiologischen Ähnlichkeiten zur Rekonstruktion von Stammbäumen genutzt werden. Man erwartete sich darüber hinaus eine Quantifizierbarkeit der Ähnlichkeit. Außerdem bestand die Hoffnung, einander sehr unähnliche Organismen (z.B. Pflanzen und Tiere, die morphologisch (= gestaltlich) kaum gemeinsame Merkmale aufweisen) miteinander vergleichen zu können.

Eines der ersten verwendeten und sicher bekanntesten Beispiele ist das Protein Cytochrom c. Der aus dem Proteinvergleich konstruierte „Stammbaum" der Wirbeltiere stimmte in groben Zügen mit der aufgrund morphologischer Ähnlichkeiten abgeleiteten Verwandtschaft überein und gab daher zu großen Hoffnungen Anlass. Inzwischen beschäftigen sich Tausende von Arbeiten mit der Rekonstruktion von Verwandtschaftsbeziehungen auf der Basis von Makromolekül-Sequenzen (Proteine, RNS und vor allem DNS), so dass sich daraus mittlerweile ein eigenes Fachgebiet innerhalb der Systematik entwickelt hat. Aufgrund des technischen Fortschritts ist es sogar möglich geworden, ganze Genome, also das komplette Erbgut von Organismen, zu vergleichen. Auf jeder bis dato erreichten Ebene vergrößerten sich die Erwartungen an die Aussagekraft von noch mehr Daten. Die Situation hat sich jedoch im Gegenteil erheblich verkompliziert. Denn nahezu jedes Gen evolviert mit einer anderen Rate, hat andere Substitutionsmuster und -wahrscheinlichkeiten. (Unter Substitution versteht man den Austausch eines Nukleotids durch ein anderes.) Widersprüche auf breiter Front sind die Folge. Die Rekonstruktion eines Cladogramms oder Dendrogramms (ein Baum bzw. Diagramm, bei dem sich eine Linie in zwei weitere aufspaltet) ist nämlich in Wirklichkeit ein schwieriges statistisches Problem, bei dem mehr Daten u.U. auch mehr Verwirrung bedeuten.

Wie wird ein Dendrogramm erzeugt?
Bild in Originalgröße
Abb. 1 Merkmale, Merkmalszustände, Merkmalswidersprüche und Sparsamkeitsprinzip. Das Merkmal der 2. Spalte (besonders hervorgehoben) erfordert im Baum 3 die geringste Anzahl von Substitutionen (nämlich nur eine); für dieses ist Baum 3 am sparsamsten (ebenso für Merkmal 5 und 8). Dagegen spricht Merkmal 6 für Baum 2 und Merkmal 9 für Baum 1. (Man beachte die blau hervorgehobenen Zahlen.) Bei Berücksichtigung aller Merkmale erfordert Baum 3 die geringste Anzahl an Substitutionen und ist daher am sparsamsten. In den drei Bäumen sind als Beispiel die möglichen Zustände für Merkmal 2 (hervorgehobene Spalte 2) eingetragen.

Wie wird ein Dendrogramm erzeugt und worauf muss man dabei achten? Als Voraussetzung müssen die Sequenzen korrekt miteinander verglichen werden. Man stellt dazu die jeweils korrespondierenden Positionen in Spalten übereinander (Alignment). Die Positionen sind dabei die Merkmale, die jeweiligen Aminosäuren bzw. Nukleotide die Merkmalszustände (vgl. Abb. 1). Was sich zunächst recht einfach anhört, ist aber nicht immer eindeutig, insbesondere bei der Behandlung von Insertionen (= Einfügungen) bzw. Deletionen (= Verluste) (kurz: Indels) und bei sehr stark unterschiedlichen Sequenzen. Am leichtesten ist es noch bei proteinkodierenden Abschnitten, da man dabei die Triplettanordnung der DNS als Hilfskriterium nutzen kann.

Schwieriger wird es, wenn die variablere und schwerer vergleichbare nicht-kodierende DNS oder andere Abschnitte geringer Übereinstimmung miteinander verglichen werden sollen. Die hohe Variabilität erlaubt manchmal stellenweise oder sogar überhaupt keine zuverlässigen Positionszuordnungen mehr. Wenn man aber nicht genau weiß, welches das zu vergleichende „Merkmal" ist, lässt sich daraus auch keine Schlussfolgerung ziehen. Man versucht dieses Problem zu umgehen, indem man z.B. ein anderes Gen benutzt (eines, das „konservativer" ist, d.h. weniger Unterschiede zwischen den untersuchten Organismen aufweist), oder indem man auf Proteinebene arbeitet. Dadurch erhält man zwar eine geringere Auflösung, da die detailliertere Information der DNS-Ebene ignoriert wird, aber dafür weniger „Rauschen". Oder man kann unklare Positionen von vornherein von der Analyse ausschließen. Diese Entscheidungen haben notgedrungen eine subjektive Komponente, sind aber unvermeidbar. Fehler im Alignment können sich in der späteren Analyse vervielfachen; daher ist besondere Sorgfalt bei diesem ersten Schritt der phylogenetischen Analyse geboten.

Statistische Verfahren zur Konstruktion von Dendrogrammen

Liegt ein brauchbares Alignment vor, stehen verschiedene statistische Verfahren zur Verfügung, die Unterschiede zwischen den Sequenzen zu Bäumen verrechnen. Jedes dieser Verfahren trifft dabei Vorannahmen über den vermuteten Verlauf und die Mechanismen der molekularen Evolution. Drei häufig verwendete, prinzipiell verschiedene Ansätze, werden nachfolgend kurz erklärt.

Parsimony-Verfahren. Dieser Ansatz entspricht der Cladistik (= phylogenetische Systematik, wonach anhand sog. abgeleiteter Merkmale ein Verzweigungsschema erstellt wird). Positionen, die in mindestens zwei der verglichenen Taxa (= Gruppen von Lebewesen) den gleichen Merkmalszustand (hier: Aminosäure oder Nukleotid) haben und in mindestens zwei weiteren Taxa einen gemeinsamen anderen Merkmalszustand, sind „phylogenetisch informativ" (rot unterlegt in Abb. 1). Der Grund ist einleuchtend: weicht ein Taxon in einem Merkmal von allen anderen ab, trägt diese Information nichts zur Kenntnis des Verzweigungsmusters (der Topologie) des Baumes unter dem Sparsamkeitskriterium (s. u.) bei, sondern nur zur Länge der „Zweigspitze", die allen anderen Taxa gegenüber um eins zunimmt. Dasselbe gilt, wenn mehrere Taxa an derselben Position (d.h. im selben Merkmal) einen anderen Merkmalszustand haben (letzte Spalte in Abb. 1). Wie Abb. 1 weiter zeigt, kann es Merkmalskonflikte geben, die verschiedene Dendrogramme nahelegen. Als Entscheidungskriterium wird das der sparsamsten Erklärung (parsimonious = sparsam, daher Bezeichnung „Parsinomy-Verfahren; Sparsamkeitsprinzip) herangezogen: die Topologie, die die wenigsten Mutationsschritte benötigt, wird als beste Hypothese der Verwandtschaftsbeziehungen gewertet. Man sollte sich dabei vergegenwärtigen, dass es schon bei nur 10 Taxa mehr als zwei Millionen möglicher Topologien gibt und dass oft viele gleich sparsame Alternativen gefunden werden. Diese können dann in weiteren statistischen Verfahren auf gemeinsame Cluster (= Gruppen von Taxa, die alle auf eine Linie zurückgehen, also monophyletisch sind) untersucht und diese zusammengefasst werden, wobei allerdings Information verloren geht.

Bild in Originalgröße Abb. 2 Bildung eines Dendrogramms. Im oberen Teil dieser Abbildung sind die letzten 11 Aminosäuren des Cytochrom c aus vier Lebewesen zusammengestellt. Die Zahlen geben die Positionsnummern an (Zusammenstellung aus dem Vergleich mit den Pflanzen). Jeder Buchstabe steht für eine Aminosäure. Die Ketten werden so übereinandergestellt, dass der maximale Grad an Übereinstimmung entsteht (Alignment). Aus den Unterschieden der Aminosäuresequenzen kann die im mittleren Teil der Abbildung dargestellte "Differenzmatrix" erstellt werden. Sie gibt für jedes denkbare Paar der untersuchten Lebewesen die Zahl der unterschiedlichen Aminosäuren im Protein oder im Proteinsegment an. Diese Differenzmatrix ist frei von Interpretationen. Unten: Ein aus der Differenzmatrix konstruiertes Dendrogramm. Der Abstand von Spitze zu Spitze (nur die vertikalen Linien zählen!) entspricht den paarweisen Distanzen (vgl. Pfeile). Für jede Distanz ist nur jeweils ein Beispiel angegeben: grün: 1 Aminosäureaustausch, rot 2, blau 3. In diesem einfachen Beispiel ergeben sich keine widersprüchlichen Distanzen; je mehr Taxa einbezogen werden und je unterschiedlicher die verglichenen Sequenzen untereinander sind, umso weniger leicht lassen sie sich normalerweise in eine Topologie "pressen".

Die Leserichtung des Baumes, also die Entscheidung, welche der Substitutionen ursprünglich oder abgeleitet sind, soll sich aus der Hinzunahme einer geeigneten sogenannten Außengruppe, eines hypothetischen nächsten Verwandten der untersuchten Arten, ergeben. Dies erfordert wiederum eine subjektive Entscheidung, die sich nicht aus den Daten ergibt. Doch vielfach hängt die Topologie eines Verwandtschaftsdiagramms gerade von der Wahl der Außengruppe ab. Man kann jedoch auch auf die „Wurzel" der Bäume verzichten (unrooted trees). (Das Problem der Auswahl einer geeigneten Außengruppe ist bei allen Verfahren das gleiche.)

Selbst wenn man den oder die sparsamsten Dendrogramme gefunden hat, bedeutet das natürlich nicht automatisch, dass die Evolution tatsächlich den kürzesten Weg genommen hat. Daher werden manchmal auch etwas weniger sparsame Bäume in Betracht gezogen. Dabei gibt man aber das methodisch objektive Sparsamkeitsprinzip wieder teilweise auf.

Bild in Originalgröße
Abb. 3 Tripletts und Aminosäuren. Oben: Die gleiche Aminosäure kann von verschiedenen Tripletts codiert werden (auch als "Degeneration des genetischen Codes" bezeichnet). In der ersten Spalte (rot) ist der auch in Abb. 216 benutzte Ein-Buchstaben-Code angegeben. Unten: In vielen Fällen führt eine Mutation an der dritten Codon-Position nicht zu einem Austausch der Aminosäure, eine Mutation an der zweiten oder ersten Stelle hat dagegen meistens auch eine Aminosäureänderung zur Folge.

Distanz-Verfahren. Dieser Ansatz entspricht der Vorgehensweise der numerischen Taxonomie. Aus den unterschiedlichen Positionen des Alignments wird eine Distanzmatrix erstellt, die alle paarweisen Unterschiede zwischen den Sequenzen errechnet. Am einfachsten erhält man diese, indem man die Unterschiede zählt wie in Abb. 2 gezeigt. Um dabei den Mechanismen der molekularen Evolution besser Rechnung zu tragen, können zahlreiche Korrekturfaktoren eingebracht werden. Z.B. wird auf DNS-Ebene eine Mutation an dritter Codonposition wegen der Redundanz des genetischen Codes viel seltener zum Austausch einer Aminosäure führen (und daher eher selektionsneutral sein) als z.B. an zweiter Codonposition (Abb. 3). Auf DNS-Ebene können unterschiedliche Wahrscheinlichkeiten von Transitionen (= Austausch Purin-Purin oder Pyrimidin-Pyrimidin) oder Transversionen (= Austausch Purin-Pyrimidin oder Pyrimidin-Purin), genauso berücksichtigt werden wie z. B. der Einfluss der unmittelbar benachbarten Nukleotide auf das Substitutionsmuster. Im Gegensatz zu morphologischen Merkmalen kann es außerdem gerade auf DNS-Ebene sehr leicht zu Parallel- oder Rückmutationen kommen, da nur 4 Basen als Merkmalszustände zur Verfügung stehen, die noch dazu verhältnismäßig leicht austauschbar sind. Alle diese Aspekte kann man je nach Fall in die Distanzberechnung und Rekonstruktion des Baumes (letzteres gilt teilweise auch für andere Verfahren) einbeziehen. Dabei ergibt nicht immer das kompliziertere Modell die besseren Ergebnisse, außerdem ist der genaue Verlauf der molekularen Evolution natürlich unbekannt. Man kann lediglich versuchen, dem vorliegenden Datensatz so weit wie möglich gerecht zu werden. Allgemein ist die Zuverlässigkeit am größten bei geringen Distanzen (nahe Verwandtschaft) und längeren Sequenzen (viele Merkmale).Maximum-Likelihood-Verfahren. Hier werden sowohl Merkmalszustände als auch Distanzen benutzt. Bei dieser intuitiv nicht leicht zugänglichen Methode wird ein bestimmtes Modell der molekularen Evolution explizit vorausgesetzt und unter dieser Annahme die Topologie des Baumes berechnet. Unterschiedliche Voraussetzungen der molekularen Evolution können z. B. beinhalten, ob die Wahrscheinlichkeit eines Basenaustauschs gegen eine beliebige andere gleich ist oder nicht, ob man Transitionen/Transversionen unterschiedlich gewichtet, ob die unmittelbare Umgebung einen Einfluss darauf hat, was an einer bestimmten Position geschieht, wie die Abhängigkeit von der Basenzusammensetzung gewertet wird (z.B. besonders viel A und C – ist es dann gleich wahrscheinlich, ob A gegen C oder gegen T ausgetauscht wird?) usw. Der Baum, bei dem die aktuellen Daten den höchsten Wahrscheinlichkeitswert erreichen, wird als beste Hypothese der Verwandtschaft angesehen. Man überlegt also zunächst, welches Modell der molekularen Evolution man für die Datenanalyse benutzen will, sucht dann (theoretisch) alle möglichen Topologien durch und prüft, welche die höchste Wahrscheinlichkeit hat, durch genau diesen zugrundegelegten Datensatz unter diesem benutzten Modell entstanden zu sein. Man kann auf diese Weise viele Modelle mit den konkret vorliegenden Daten testen. Mittlerweile geht man mehr und mehr dazu über, in statistischen Testverfahren zunächst das Modell zu suchen, das zum vorliegenden Datensatz am besten passt, und dann erst damit die Topologie des Baumes zu berechnen.

Mit welchem dieser mathematischen Verfahren sich die Verwandtschaftsverhältnisse am besten rekonstruieren lassen, kann man nicht pauschal beantworten. Manchmal produzieren sie dasselbe oder ein ähnliches Ergebnis, manchmal nicht. Ursachen für solche Diskrepanzen können Änderungen in der Aminosäure- oder Nukleotidzusammensetzung sein. Im Laufe der Zeit kann sich z.B. der GC-Gehalt eines Gens oder der Codon-Gebrauch ändern. Dann sind die verglichenen Taxa nicht mehr wirklich vergleichbar. Weitere Probleme liegen eventuell in der Austauschgeschwindigkeit der Nukleotide bzw. der Aminosäuren in verschiedenen Evolutionslinien, mehrfachem voneinander unabhängigem Auftauchen der gleichen Merkmale oder Variation der Evolutionsraten an verschiedenen Positionen. Diese Möglichkeiten müssen im Einzelfall nachgeprüft werden. Manche Unstimmigkeit kann durch detailliertere Analysen aufgelöst werden, dennoch ist die Gefahr von Zirkelschlüssen nicht gebannt: Keiner weiß, wie die (molekulare) Evolution tatsächlich abgelaufen ist, daher sind die Modelle letztlich kaum verifizierbar und ihre Resultate sollten immer mit Vorsicht interpretiert werden. Wenn z.B. vorausgesetzt wird, dass im untersuchten Gen bestimmte Austausche häufiger sind als andere, kann man natürlich einen Baum finden, der unter diesen Voraussetzungen der wahrscheinlichste ist. Das sagt aber nichts darüber aus, ob die getroffenen Annahmen richtig waren. Doch zumindest kann man versuchen, die Annahmen einigermaßen zum Datensatz passend zu wählen bzw. verschiedene plausible auszuprobieren und die Ergebnisse dann zu vergleichen. Die Übereinstimmung der Ergebnisse mit morphologischen Befunden ist dabei zwar eine gewisse Rückversicherung, aber keine wirkliche Hilfe, wenn man molekulare Methoden dazu verwenden will, neue Einsichten zu gewinnen. Eine annahmenfreie Rekonstruktion von Evolution ist also auch in der molekularen Systematik nicht möglich.

Weitere Schwierigkeiten der Stammbaumrekonstruktion

Über diese rein methodischen Schwierigkeiten der Stammbaumkonstruktion hinaus kann auch der tatsächliche Verlauf der Artbildung seine eigene Rekonstruktion erheblich erschweren: Wenn z.B. eine Stammpopulation genetisch polymorph ist, werden im Prozess der Artaufspaltung unterschiedliche Allele derselben Gene zufällig auf die verschiedenen Arten verteilt. Die Arten zeigen nach längerer Zeit dann eine Mischung aus Merkmalen, die von der Stammform übernommen wurden, und solchen, die nach der Aufspaltung erworben wurden. Der resultierende Datensatz zeigt eine schlechte Auflösung der Beziehungen und ein hohes „Rauschen", das auf widersprüchlichen Merkmalskombinationen beruht. Diese Bäume sind oft statistisch schlecht abgesichert. Dieses Problem verschärft sich sogar, wenn man mehrere verschiedene Gene untersucht, die leicht zu sehr verschiedenen Topologien führen können.

Bild in Originalgröße
Abb. 4 Ein Beispiel für widersprüchliche Dendrogramme je nach zugrundeliegenden Genen bzw. Proteinen. Verglichen wurden 36 Proteine von Mensch, Fruchtfliege, einem Fadenwurm und einer Hefe. Setzt man die Hefe an die Wurzel, können theoretisch drei verschiedene Cladogamme konstruiert werden. Die verschiedenen Proteine unterstützen alle drei möglichen Cladogramme. 24 Proteine sprechen für Möglichkeit A, 11 für B und ein Protein für C. Möglichkeit A entspricht der konventionellen Interpretation der Stammesgeschichte. Handelte es sich dann bei den anderen Ergebnissen nur um "störendes Rauschen"? Eine genauere Betrachtung der Daten zeigte, daß die homogen, also mit ähnlicher Rate evolvierenden Proteine Baum B ergaben, heterogen evolvierende dagegen Baum A. Dies würde bedeuten, daß ungleiche Evolutionsraten (und nicht Abstammungsverhältnisse) dafür verantwortlich waren, daß die Mehrzahl der Proteine Baum A unterstützte. Welcher ist nun der "richtige" Baum? Nach Mushegian et al. 1998

Ein Problem anderer Art, aber mit ähnlicher Auswirkung entsteht, wenn sich eine Stammpopulation sehr rasch in mehrere verschiedene Linien aufspaltet. Die Abstände zwischen den internen Verzweigungen sind dann im Verhältnis zu den „Astspitzen" sehr kurz; es resultiert eher ein „Stammbusch" als ein „Stammbaum". Auch in diesem Fall lassen sich die Beziehungen nicht auflösen. Man kann jedoch aus den Astlängen z.B. schließen, dass vermutlich eine rasche Aufspaltung der Linien stattgefunden hat. Dies ist innerhalb polyvalenter Grundtypen (vgl. VII.6.4 im Lehrbuch) durchaus vorstellbar, aber im makroevolutiven Rahmen (z.B. bei der Trennung der Vogelordnungen oder dem Ursprung der bedecktsamigen Blütenpflanzen) bleibt bei weitem nicht genug Zeit, in der sich solch tiefgreifende Unterschiede entwickelt haben könnten. In solchen Fällen legen die Daten eigentlich nahe, dass der Vorfahr alle oder zumindest die wichtigsten Merkmale in sich vereinte und diese dann „zufällig" auf dessen Nachkommen verteilt werden. Doch diese sprichwörtliche „eierlegende Wollmilchsau" als Vorfahren anzunehmen, die sich makroevolutiv rasch in so drastisch verschiedene Organismen aufgespalten haben könnte, ist im biologischen Gesamtrahmen kaum wahrscheinlich.

Weitere Unstimmigkeiten können sich z.B. aus der unterschiedlichen Vererbung zwischen kernkodierter und Organellen-DNS ergeben (DNS von Mitochondrien und Plastiden). Erstere wird von beiden Elternteilen vererbt, letztere normalerweise nur von einem Elternteil (meistens dem mütterlichen). Dadurch ergeben sich oft Diskrepanzen, die auf populationsdynamischen Prozessen beruhen. Denn die Geschichte der mütterlichen Linien muss ja nicht unbedingt der gemeinsamen beider Elternteile entsprechen.

Besonders drastisch wird die Situation, wenn Hybridisierungsereignisse (= Kreuzungen) in der Geschichte der Arten aufgetreten sind. Dabei können sich völlig unterschiedliche Baumstrukturen aus den verschieden vererbten Genen ergeben, die dann z.T. völlig verschiedene Verwandtschaftsbeziehungen nahelegen. Da besonders bei Pflanzen Hybridisierung als wichtiger Evolutionsfaktor angesehen wird, erstaunt es wenig, dass sich häufig die aufgrund der Chloroplasten-DNS rekonstruierten Beziehungen drastisch von denen aus kernkodierter DNS unterscheiden. Es ist aber mitunter möglich, aus solchen Diskrepanzen auf Hybridisierungsereignisse in der Vergangenheit zu schließen. Auch dies spielt sich jedoch im mikroevolutiven Rahmen ab, da es die Kreuzbarkeit der Elternteile voraussetzt.

Welches Szenario die jeweils beste Interpretation der Daten darstellt, muss im Licht aller verfügbarer Informationen betrachtet werden. Dabei muss man auch im Blick behalten, dass bislang relativ wenig Information (lediglich ein Gen oder einige wenige Gene) als repräsentativ für einen gesamten Organismus angesehen werden, sodass man in gewisser Weise das Evolutionsmuster eines Gens mit der Evolution seiner Träger gleichsetzt – eine grobe Vereinfachung. Man versucht daher, immer mehr geeignete Gene (zunehmend auch ganze Genome) miteinander zu vergleichen, um auf diese Weise die „wirkliche" Phylogenie (= Stammesgeschichte, Abstammungsverlauf) der Arten in Zukunft klären zu können. Die ersten Ergebnisse sind jedoch wie oben schon erwähnt eher frustrierend, weil mit der Fülle der Daten die Widersprüche und Ungereimtheiten eher zu- als abnehmen (Abb. 4 zeigt ein Beispiel). Nichtsdestoweniger handelt es sich um ein faszinierendes Forschungsgebiet, das viele Einsichten in die Natur der Lebewesen, ihren Aufbau und ihre Funktionsweise ermöglicht.

Generell ist eine evolutionstheoretische Interpretation von Sequenzdaten nur unter der Voraussetzung möglich, dass diese Sequenzen einander phylogenetisch homolog, d.h. durch Artbildung auseinander hervorgegangen sind (vgl. V.10.1 im Lehrbuch). Denn an sich geben die errechneten Bäume nur die Ähnlichkeit der Sequenzen ihrer Träger an, nicht aber deren Phylogenie. Da Abstammung aber vorausgesetzt wird, um ein Dendrogramm zu erstellen, kann dieses nicht als unabhängige Bestätigung für Abstammung dienen.

Homologie-Erkennung bei Proteinen und DNS

Das Problem der Homologie-Erkennung ist auf molekulargenetischer Ebene im Prinzip das gleiche wie in der Morphologie (vgl. V.10.1 im Lehrbuch). Auch hier ist es nicht automatisch klar, welche Gene durch Abstammung auseinander hervorgegangen sind. Genduplikationen (= Verdopplung von Genen) und Pseudogene (= Gene, die kein funktionelles Protein codieren) können noch verhältnismäßig einfach erkannt werden. Dagegen lassen sich in nicht-codierenden Bereichen, die die überwältigende Mehrheit der Erbinformation darstellen, zwischen als nicht näher verwandt eingestuften Organismen oft gar keine Gemeinsamkeiten mehr feststellen – ein Alignment (s.o.) ist oft unmöglich. So bleibt nur die „Homologie"-Feststellung anhand der Sequenzähnlichkeit. Man gerät hier jedoch wieder in einen Zirkelschluss, denn aus Sequenzähnlichkeit als solcher kann nicht sicher auf gemeinsame Abstammung geschlossen werden. Tatsächlich werden anhand der Sequenzähnlichkeiten eher funktionell wichtige Motive und Strukturen erkannt (z.B. regulatorisch wichtige Bereiche, Bindestellen für Proteine, Abschnitte für die korrekte Faltung von mRNS usw.). Funktionelle Notwendigkeit ist aber per se kein Argument für Evolution (vgl. V.10.1 im Lehrbuch), sondern stellt im Gegenteil das Ähnlichkeitsargument als Beleg für Verwandtschaft auf den Kopf.

Umgekehrt kann man feststelle: Als homolog eingestufte Proteine (z.B. das kernkodierte Hämoglobin oder das mitochondriale Cytochrom b), die in verschiedenen Organismen dieselben Funktionen erfüllen und als Proteine ähnliche Tertiärstrukturen ausbilden, unterscheiden sich in ihrer Aminosäuresequenz zwischen allen bisher untersuchten Organismen so stark, dass es fast keine Positionen gibt, die bei allen Lebewesen gleich wären. Ausnahme sind Aminosäuren, die offenbar für die korrekte Funktion unabdingbar sind. Bei den Globinen ist das ein Histidin, das für die Hämbindung verantwortlich ist, und ein hydrophobes Leucin, das für die räumlich richtige Ausbildung einer taschenartigen Einstülpung verantwortlich ist, die für die Regulation der Sauerstoffaufnahme benötigt wird. Alles andere scheint mehr oder weniger austauschbar zu sein. Eine ähnliche Situation liegt beim etwa 380 Aminosäuren langen Cytochrom b vor: nur weniger als 10% der Aminosäuren scheinen invariant zu sein; diese Zahl könnte sich allerdings im Laufe der Zeit mit Anwachsen des Datensatzes noch verringern. (Zum Vergleich: selbst bei völlig zufälligen Aminosäuresequenzen findet man statistisch 5% Übereinstimmung, da Proteine nur aus 20 Aminosäuren aufgebaut sind.) Da Cytochrom b ein Membranprotein in einem Multienzym-Komplex darstellt, ist es in seiner Variationsfähigkeit funktionell stärker eingeschränkt als das wasserlösliche Hämoglobin. Trotzdem sind die Übereinstimmungen bemerkenswert niedrig. Im Evolutionsmodell müsste man aber erwarten, dass die gleiche Tertiärstruktur und Funktion auf einer ähnlichen Primärstruktur (der Aminosäuresequenz) beruht. Aber offenbar ist in diesen beiden besonders gut untersuchten Beispielen gerade das Gegenteil der Fall: sehr verschiedene Sequenzen bilden Proteine mit sehr ähnlicher Raumstruktur und Funktion (Sauerstofftransport bzw. Beteiligung am Elektronentransport in der Atmungskette). Eigentlich haben wir es hier mit geradezu klassischen Beispielen für analoge (= funktionsbedingt ähnlich) Strukturen zu tun. Dass dennoch z.B. die Globine der Vögel einander ähnlicher sind als denen der Wirbeltiere oder gar der Pflanzen, überrascht nicht, da die Erfordernisse der Stoffwechselleistungen der Vögel einander stärker ähneln als denen anderer Organismen.

Ob also ausgerechnet strukturell bzw. funktional wichtige DNS-Bereiche geeignet sind, um eine Phylogenie der Organismen zu begründen, bleibt dahingestellt. Geht man jedoch von nicht-kodierenden, aber als homolog angesehenen Bereichen aus (z. B. ein bestimmtes Intron oder ein Abschnitt zwischen zwei gut definierten Genen in gleicher Lage), ist die Sequenzähnlichkeit bei nicht näher verwandten Arten meist so gering, dass kein Vergleich möglich ist. Im mikroevolutiven Rahmen hingegen können trotz der oben erwähnten Schwierigkeiten interessante Einsichten in die Artbildung innerhalb von Grundtypen erhalten werden (vgl. VII.16.4.4 im Lehrbuch). Besonders erfolgreich sind molekulare Daten bei der Zuordnung oder dem Ausschluss von Arten, die irrtümlich aufgrund von morphologischen Konvergenzen (= unabhängig entstandene Ähnlichkeiten) oder oberflächlicher Ähnlichkeit falsch klassifiziert wurden.

Bisher ging es hauptsächlich um die Topologie phylogenetischer Bäume. Der folgende Abschnitt behandelt die Astlängen dieser Bäume, die Aufschluss über Divergenzzeiten oder Evolutionsraten geben können.

Molekulare Uhren

Bei den ersten Sequenzvergleichen von Hämoglobin und Cytochrom c in den 1960er Jahren wurde festgestellt, dass die Raten der Aminosäureaustausche in den verschiedenen Linien bei Säugetieren etwa gleich waren. Daher wurde überlegt, ob für jedes Protein die Rate der molekularen Evolution über die Zeit etwa konstant sein könnte: Die Idee „molekularen Uhr" war geboren (Zuckerkandl & Pauling 1962, 1965). Damit wurde die Hoffnung verbunden, die Aufspaltung evolutionärer Linien datieren zu können, analog der Datierung geologischer Schichten mit Hilfe des radioaktiven Zerfalls. Tatsächlich wurde auch in den 1970er Jahren bei Proteinvergleichen eine grob lineare Beziehung zwischen der geschätzten Anzahl von Aminosäureaustauschen und der anhand von Fossilien vermuteten Divergenzzeit gefunden. Es gab jedoch auch immer Ausnahmen sowie generelle Bedenken: Man muss jede Uhr irgendwie eichen, um zu wissen, ob sie zuverlässig funktioniert. Dazu wird nach Möglichkeit der Fossilbericht herangezogen. Die geologisch ermittelte Zeit des letzten gemeinsamen Vorfahren ist aber selten bekannt, und die Einschätzung kann sich je nach Sachlage in der Paläontologie sprunghaft ändern. Es bestehen meist beträchtliche Unsicherheiten bezüglich der paläontologischen Divergenzzeiten (=Zeitraum seit der Aufspaltung). Wenn eine molekulare Uhr nun anhand von unzuverlässigen Schätzungen der Aufspaltungszeit geeicht wird, ist ihr Aussagewert natürlich gering. Werden anders herum Aufspaltungszeiten aus gar nicht oder schlecht geeichten molekularen Uhren ermittelt, liegt ein typischer Zirkelschluss vor. Mittlerweile umgeht man das Problem der unbekannten Divergenzzeiten, indem man statistische Verfahren zum Test von Evolutionsraten anwendet, die diese Information nicht benötigen oder nur relative Raten bestimmen.

Das Konzept der molekularen Uhr hat mittlerweile eine lange kontroverse Geschichte und wird unter Evolutionstheoretikern immer noch heiß diskutiert. Für die klassischen Vertreter der Evolutionstheorie (Simpson, Mayr) war eine konstante Rate der Evolution undenkbar, da der Einfluss von Umweltveränderungen und natürlicher Selektion dem entgegenstehen sollte und die morphologischen Evolutionsraten alles andere als konstant zu sein schienen. Erst Kimuras neutrale Theorie der molekularen Evolution lieferte eine Begründung, warum Evolutionsraten unter bestimmten Bedingungen doch konstant sein können. Doch je mehr Datensätze hinzukamen, umso größer wurde auch die Anzahl derer, auf die sich die molekulare Uhr offensichtlich nicht anwenden ließ. Mitunter wurden stark schwankende Evolutionsraten zwischen verschiedenen Organismenlinien gefunden. Doch obwohl die Annahme konstanter Raten immer kontrovers diskutiert wurde, wurde sie auf breiter Ebene zur Schätzung von Divergenzzeiten und zur Rekonstruktion von Stammbäumen genutzt. Seit den 1980er Jahren wurden mehr und mehr DNS-Sequenzdaten gewonnen, die eine eingehendere Untersuchung der Hypothese erlauben als Proteinsequenzen.

Bild in Originalgröße
Abb. 5 Unterschiedliche Raten der molekularen Evolution bei Säugetieren. Der hier dargestellte phylogenetische Baum beruht auf dem Gen, das für das Wachstumshormon kodiert. Die horizontalen Astlängen sind proportional zur Anzahl der Nukleotidaustausche. Unter den Ästen, die zu den jeweiligen Gruppen (Nagetiere, Raubtiere, Paarhufer und Primaten) führen, ist die Anzahl der Aminosäureaustausche angegeben. Man erkennt deutlich zwei explosionsartige Beschleunigungen der molekularen Evolution (violette, verstärkte Linien); eine in der Linie, die zu den Primaten führt, und eine in der Linie zu den Paarhufern. Nach Graur & Li 2000

Zusammenfassend kann man inzwischen sagen, dass eine globale molekulare Uhr nicht existiert. Darüber besteht auch in neueren evolutionstheoretischen Lehrbüchern über molekulare Evolution Einigkeit. (Die in gängigen Schulbüchern wie z. B. Linder Biologie [Bayrhuber & Kull 2005, S. 484f.] präsentierten Ausführungen zu diesem Thema sind mittlerweile stark veraltet.) Die Substitutionsrate zwischen zwei Linien kann nämlich beträchtlich variieren. Nicht einmal innerhalb der Säugetiere findet man vergleichbare Raten der molekularen Evolution zwischen den verschiedenen Ordnungen. So scheinen Nagetiere beträchtlich schneller zu evolvieren als Paarhufer und diese wiederum schneller als Primaten (vgl. Abb. 5). Diese Unterschiede sind zu groß, um nur durch fehlerhafte paläontologische Datierungen erklärbar zu sein. Ähnliche Abweichungen werden sogar innerhalb von Ordnungen gefunden; beispielsweise ist die Rate synonymer Substitutionen in Altweltaffen fast doppelt so hoch wie in Menschenaffen. Auch zwischen Pflanzenfamilien und -ordnungen schwanken die Raten der molekularen Evolution derart, dass die Voraussetzung einer molekularen Uhr regelmäßig verletzt wird. Daher kann man nur mit größter Vorsicht die Annahme einer molekularen Uhr dazu benutzen, um Divergenzzeiten zu berechnen. Das gilt besonders dann, wenn es sich um aus evolutionstheoretischer Sicht sehr entfernt verwandte Arten handelt.

Die ursprüngliche Erwartung, Divergenzzeiten generell datieren und die Phylogenie besser rekonstruieren zu können, hat sich also nicht erfüllt. Man ist daher in der Praxis dazu übergegangen, zunächst mit statistischen Methoden die Konstanz der Raten in einem Datensatz zu testen und eine (allerdings nur lokale, d.h. für den entsprechenden Datensatz geltende) molekulare Uhr nur dann anzunehmen, wenn sich keine signifikanten Schwankungen der Raten in verschiedenen Linien finden lassen, d.h. wenn der Datensatz überhaupt die der Analyse zugrundeliegende Annahme erfüllt. Alternativ werden in ihrer Rate stark abweichende Taxa vor der phylogenetischen Analyse aus dem Datensatz entfernt. In der Praxis hat sich weitgehend durchgesetzt, die außerordentlich restriktive Annahme der Existenz einer molekularen Uhr in der Regel gar nicht zu treffen, um die Daten nicht von vornherein in ein Korsett unnötiger und möglicherweise unzutreffender Annahmen zu zwängen. Auf die Schwierigkeit, dass unterschiedliche Evolutionsraten in verschiedenen Linien die phylogenetische Analyse erschweren und leicht zu falschen Ergebnissen führen können, wurde bereits im letzten Abschnitt hingewiesen.

Mittlerweile ist klar, dass viele Faktoren die Substitutionsrate beeinflussen können. Dazu gehören Populationsgröße, Generationszeit, verschiedene DNS-Reparatursysteme (die ihrerseits die Mutationsrate beeinflussen), Selektion, Stoffwechselrate etc. Wenn man davon ausgeht, dass Mutationen sich hauptsächlich während der DNS-Replikation ereignen, sollte man umso mehr Replikationsfehler finden, je mehr Zellteilungen geschehen (die in Zusammenhang mit der Generationszeit oder der Körpergröße stehen können). Das scheint in manchen Fällen zuzutreffen, manchmal findet man aber auch das genaue Gegenteil. Die Stoffwechselrate könnte erhöhte mutagene Effekte und einen höheren Umsatz der DNS bedingen. Auch hierfür gibt es Beispiele, die aber ebenfalls nicht verallgemeinert werden können. Die Populationsgröße hat Einfluss auf den Effekt von Drift und Selektion; Arten, die stärkerer Einschränkung durch Selektion unterliegen, sollten langsamer evolvieren. Die verschiedenen Faktoren schließen sich natürlich nicht gegenseitig aus, sondern können sich auch überlagern. Insgesamt kann man sagen, dass es keine einheitliche Begründung für die Existenz unterschiedlicher Evolutionsraten gibt, sondern dass sich die Muster und Prozesse von Fall zu Fall unterscheiden.

Es sollte der Vollständigkeit halber hinzugefügt werden, dass auch Überlegungen über molekulare Uhren auf der Vorannahme beruhen, dass phylogenetisch homologe, d.h. durch gemeinsame Abstammung auseinander hervorgegangene, Sequenzen verglichen werden. Wo das nicht der Fall ist, ist natürlich auch das Konzept molekularer Uhren hinfällig.

Zusammenfassung

1. Die Ähnlichkeiten von Makromolekülen (Aminosäure- und DNS-Sequenzen) können zwar prinzipiell evolutionstheoretisch gedeutet werden; dies ist aber nicht zwingend.

2. Merkmalsauswahl und Stammbaumrekonstruktion sind komplizierte Verfahren, deren Vorannahmen nicht zutreffen müssen und die einige subjektive Entscheidungen erfordern. Eine vorausetzungslose Konstruktion von Verwandtschaft mittels molekularer Daten ist nicht möglich.

3. Widersprüche zwischen den Rekonstruktionen der Verwandtschaftsbeziehungen können vielfältige Ursachen haben: Fehler bei der Auswahl der Arten oder der Datenanalyse, rasche Artbildung, polymorphe Stammpopulationen, Hybridisierung, horizontaler Gentransfer, Konvergenzen. Welche Erklärung(en) im Einzelfall zutrifft (zutreffen), kann oft nicht eindeutig entschieden werden.

4. Jede Stammbaumrekonstruktion – molekular oder durch andere Daten begründet – basiert auf der Annahme, dass die verglichenen Merkmale (Sequenzen) phylogenetisch homolog sind, d. h. dass ihre Ähnlichkeiten bzw. Gemeinsamkeiten abstammungsbedingt sind. Falls die Ähnlichkeit aber eher funktionelle Erfordernisse widerspiegelt, geben die ermittelten Bäume nur die Ähnlichkeit der Gene der sie tragenden Organismen wider, nicht aber deren Abstammungsverwandtschaft.

5. Eine globale molekulare Uhr existiert entgegen den ursprünglichen Erwartungen nicht. Lokale Uhren, die sich auf ein bestimmtes Gen und eine bestimmte Auswahl von Organismen beziehen, gibt es zwar, aber jeder Datensatz muss daraufhin untersucht werden, ob variierende Evolutionsraten vorliegen.

6. Auch molekulare Uhren beruhen auf der Grundvoraussetzung von Evolution und können daher nicht als unabhängiger Beleg für Evolution gelten.

7. Molekulare Systematik hat sehr erfolgreich viele Verwandtschaftsbeziehungen klären können. Die besten Ergebnisse liegen im mikroevolutiven Bereich, d.h. innerhalb vermuteter Grundtypen. Die Gründe für eine schlechte Auflösung von Verwandtschaftsverhältnissen sind sehr unterschiedlich, je nachdem ob eine nahe oder entfernte Verwandtschaft vorliegt. Bei naher Verwandtschaft können Polymorphismen in der Stammpopulation, rasche Artbildung, Hybridisierung oder horizontaler Gentransfer die Ursache sein, bei ferner Verwandtschaft Konvergenz, postulierter hypothetischer horizontaler Gentransfer oder andere unklare Gründe.

Literatur
Bayhruber H & Kull U (2005)
Linder Biologie. Braunschweig.
Graur D & Li WH (2000)
Fundamentals of molecular evolution, Sinauer, Sunderlans, Mass., 2nd edition.
Mushegian AR, Garey JR, Martin J & Liu LX (1998)
Large-scale taxonomic profiling of eukaryotic model organisms: a comparison of orthologous proteins encoded by the human, fly, nematode, and yeast genomes. Genome Res. 8, 590-598.
Nei M & Kumar S (2000)
Molecular Evolution and Phylogenetics. Oxford University Press
Stewart CB (1993)
The powers and pitfalls of parsimony. Nature 361, 603-607.
Zuckerkandl E & Pauling L (1962)
Molecular disease, evolution, and genetic heterogeneity. In: Kasha M & Pullman B (eds) Horizons in Biochemistry. New York, pp. 189-225.
Zuckerkandl E & Pauling L (1965)
Evolutionary divergence and convergence in proteins. In: Bryson V & Vogel HJ (eds) Evolving Genes and Proteins. New York, pp. 97-166.

Studiengemeinschaft WORT und WISSEN e.V.
Letzte Änderung: 20.04.2008
Webmaster